PythonでPDFからテキストを抽出する方法(Pytesseractを使用)


  1. Pytesseractのインストール: まず、Pytesseractをインストールする必要があります。以下のコマンドを使用して、pipを介してインストールできます。
pip install pytesseract
  1. Tesseractのインストール: Pytesseractは、OCRエンジンであるTesseractに依存しています。Tesseractをインストールするためには、以下の手順に従います。
  • Windowsの場合:

  • macOSの場合:

    • Homebrewを使用してTesseractをインストールします。ターミナルで以下のコマンドを実行します。
    brew install tesseract
  • Linuxの場合:

    • ディストリビューションのパッケージマネージャを使用してTesseractをインストールします。以下は、Ubuntuの場合の例です。
    sudo apt-get install tesseract-ocr
  1. PDFからテキストを抽出するコード例: 以下のPythonコードは、Pytesseractを使用してPDFからテキストを抽出する例です。
import pytesseract
from pdf2image import convert_from_path
# PDFを画像に変換
images = convert_from_path('input.pdf')
# 画像からテキストを抽出
text = ''
for image in images:
    text += pytesseract.image_to_string(image, lang='eng')
# 抽出したテキストを表示
print(text)

上記のコードでは、pdf2imageモジュールを使用してPDFを画像に変換し、pytesseract.image_to_string()関数を使用して画像からテキストを抽出しています。langパラメータを適切な言語コード(例: 'eng'は英語)に設定してください。

これで、PDFからテキストを抽出するための基本的な手順とコード例がわかりました。必要に応じて、上記のコードをカスタマイズして使用してください。