- PyPDF2のインストール まず、PyPDF2をインストールする必要があります。以下のコマンドを使用して、pipを介してPyPDF2をインストールできます。
pip install PyPDF2
- PDFファイルを開く 次に、PyPDF2を使用してPDFファイルを開きます。以下のコード例では、"sample.pdf"という名前のPDFファイルを開いています。
import PyPDF2
# PDFファイルを開く
pdf_file = open('sample.pdf', 'rb')
- ページの数を取得する
PDFファイル内のページの数を取得するには、
numPages
属性を使用します。以下のコード例では、PDFファイルのページ数を取得しています。
# ページ数を取得する
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
num_pages = pdf_reader.numPages
print("ページ数:", num_pages)
- ページのテキストを抽出する
PDFファイルの各ページからテキストを抽出するには、
extractText()
メソッドを使用します。以下のコード例では、PDFファイルのすべてのページからテキストを抽出しています。
# ページのテキストを抽出する
for page_num in range(num_pages):
page = pdf_reader.getPage(page_num)
text = page.extractText()
print("ページ", page_num + 1, "のテキスト:")
print(text)
なお、PyPDF2は他にもさまざまな機能を提供していますので、公式ドキュメントを参照することをおすすめします。