Pythonを使用したPDFからのテキスト抽出方法


  1. PyPDF2を使用する方法:

PyPDF2は、PythonでPDFを操作するための一般的なライブラリです。

import PyPDF2
def extract_text_from_pdf(filepath):
    with open(filepath, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ''
        for page in reader.pages:
            text += page.extract_text()
    return text
# PDFファイルのパスを指定してテキストを抽出する例
pdf_filepath = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_filepath)
print(extracted_text)
  1. pdfminer.sixを使用する方法:

pdfminer.sixは、PDFを解析してテキストを抽出するための強力なツールです。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def extract_text_from_pdf(filepath):
    resource_manager = PDFResourceManager()
    return_string = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager, return_string, codec=codec, laparams=laparams)

    with open(filepath, 'rb') as file:
        interpreter = PDFPageInterpreter(resource_manager, device)
        for page in PDFPage.get_pages(file, check_extractable=True):
            interpreter.process_page(page)

    extracted_text = return_string.getvalue()
    device.close()
    return_string.close()

    return extracted_text
# PDFファイルのパスを指定してテキストを抽出する例
pdf_filepath = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_filepath)
print(extracted_text)

これらはPythonを使用してPDFからテキストを抽出するための一般的な方法の一部です。他にも、textractやpdf2textなどのライブラリを使用する方法もあります。選択した方法に応じて、必要なライブラリをインストールしてからコードを実行してください。