PythonのPyPDF2を使用してPDFを読み取る方法


  1. PyPDF2のインストール まず、PyPDF2をインストールする必要があります。以下のコマンドを使用して、pipを介してPyPDF2をインストールできます。
pip install PyPDF2
  1. PDFファイルを開く 次に、PyPDF2を使用してPDFファイルを開きます。以下のコード例では、"sample.pdf"という名前のPDFファイルを開いています。
import PyPDF2
# PDFファイルを開く
pdf_file = open('sample.pdf', 'rb')
  1. ページの数を取得する PDFファイル内のページの数を取得するには、numPages属性を使用します。以下のコード例では、PDFファイルのページ数を取得しています。
# ページ数を取得する
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
num_pages = pdf_reader.numPages
print("ページ数:", num_pages)
  1. ページのテキストを抽出する PDFファイルの各ページからテキストを抽出するには、extractText()メソッドを使用します。以下のコード例では、PDFファイルのすべてのページからテキストを抽出しています。
# ページのテキストを抽出する
for page_num in range(num_pages):
    page = pdf_reader.getPage(page_num)
    text = page.extractText()
    print("ページ", page_num + 1, "のテキスト:")
    print(text)

なお、PyPDF2は他にもさまざまな機能を提供していますので、公式ドキュメントを参照することをおすすめします。