- PyPDF2ライブラリを使用する方法:
import PyPDF2
def extract_text_from_pdf(file_path):
with open(file_path, 'rb') as file:
reader = PyPDF2.PdfReader(file)
text = ''
for page in reader.pages:
text += page.extract_text()
return text
pdf_file = 'path/to/your/pdf/file.pdf'
extracted_text = extract_text_from_pdf(pdf_file)
print(extracted_text)
上記のコードでは、PyPDF2ライブラリを使用してPDFファイルからテキストを抽出しています。
- pdfplumberライブラリを使用する方法:
import pdfplumber
def extract_text_from_pdf(file_path):
with pdfplumber.open(file_path) as pdf:
text = ''
for page in pdf.pages:
text += page.extract_text()
return text
pdf_file = 'path/to/your/pdf/file.pdf'
extracted_text = extract_text_from_pdf(pdf_file)
print(extracted_text)
上記のコードでは、pdfplumberライブラリを使用してPDFファイルからテキストを抽出しています。pdfplumberはPyPDF2よりも高度なテキスト抽出機能を提供しています。
ご参考までに、上記のコードはテキストデータの抽出に焦点を当てていますが、他の種類のデータ(画像、表、図など)を抽出する場合には、異なるアプローチやライブラリが必要となる可能性があります。