PythonのPyPDF2を使用してPDFを読み取る方法

PyPDF2のインストールまず、PyPDF2をインストールする必要があります。以下のコマンドを使用して、pipを介してPyPDF2をインストールできます。

pip install PyPDF2

PDFファイルを開く次に、PyPDF2を使用してPDFファイルを開きます。以下のコード例では、"sample.pdf"という名前のPDFファイルを開いています。

import PyPDF2
# PDFファイルを開く
pdf_file = open('sample.pdf', 'rb')

ページの数を取得する PDFファイル内のページの数を取得するには、numPages属性を使用します。以下のコード例では、PDFファイルのページ数を取得しています。

# ページ数を取得する
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
num_pages = pdf_reader.numPages
print("ページ数:", num_pages)

ページのテキストを抽出する PDFファイルの各ページからテキストを抽出するには、extractText()メソッドを使用します。以下のコード例では、PDFファイルのすべてのページからテキストを抽出しています。

# ページのテキストを抽出する
for page_num in range(num_pages):
    page = pdf_reader.getPage(page_num)
    text = page.extractText()
    print("ページ", page_num + 1, "のテキスト:")
    print(text)

なお、PyPDF2は他にもさまざまな機能を提供していますので、公式ドキュメントを参照することをおすすめします。