- PyPDF2を使用する方法:
PyPDF2は、PythonでPDFを操作するための一般的なライブラリです。
import PyPDF2
def extract_text_from_pdf(filepath):
with open(filepath, 'rb') as file:
reader = PyPDF2.PdfReader(file)
text = ''
for page in reader.pages:
text += page.extract_text()
return text
# PDFファイルのパスを指定してテキストを抽出する例
pdf_filepath = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_filepath)
print(extracted_text)
- pdfminer.sixを使用する方法:
pdfminer.sixは、PDFを解析してテキストを抽出するための強力なツールです。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def extract_text_from_pdf(filepath):
resource_manager = PDFResourceManager()
return_string = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(resource_manager, return_string, codec=codec, laparams=laparams)
with open(filepath, 'rb') as file:
interpreter = PDFPageInterpreter(resource_manager, device)
for page in PDFPage.get_pages(file, check_extractable=True):
interpreter.process_page(page)
extracted_text = return_string.getvalue()
device.close()
return_string.close()
return extracted_text
# PDFファイルのパスを指定してテキストを抽出する例
pdf_filepath = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_filepath)
print(extracted_text)
これらはPythonを使用してPDFからテキストを抽出するための一般的な方法の一部です。他にも、textractやpdf2textなどのライブラリを使用する方法もあります。選択した方法に応じて、必要なライブラリをインストールしてからコードを実行してください。