PDFからデータを抽出するためのPythonコード


  1. PyPDF2ライブラリを使用する方法:
import PyPDF2
def extract_text_from_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ''
        for page in reader.pages:
            text += page.extract_text()
        return text
pdf_file = 'path/to/your/pdf/file.pdf'
extracted_text = extract_text_from_pdf(pdf_file)
print(extracted_text)

上記のコードでは、PyPDF2ライブラリを使用してPDFファイルからテキストを抽出しています。

  1. pdfplumberライブラリを使用する方法:
import pdfplumber
def extract_text_from_pdf(file_path):
    with pdfplumber.open(file_path) as pdf:
        text = ''
        for page in pdf.pages:
            text += page.extract_text()
        return text
pdf_file = 'path/to/your/pdf/file.pdf'
extracted_text = extract_text_from_pdf(pdf_file)
print(extracted_text)

上記のコードでは、pdfplumberライブラリを使用してPDFファイルからテキストを抽出しています。pdfplumberはPyPDF2よりも高度なテキスト抽出機能を提供しています。

ご参考までに、上記のコードはテキストデータの抽出に焦点を当てていますが、他の種類のデータ(画像、表、図など)を抽出する場合には、異なるアプローチやライブラリが必要となる可能性があります。