- Pytesseractのインストール: まず、Pytesseractをインストールする必要があります。以下のコマンドを使用して、pipを介してインストールできます。
pip install pytesseract
- Tesseractのインストール: Pytesseractは、OCRエンジンであるTesseractに依存しています。Tesseractをインストールするためには、以下の手順に従います。
-
Windowsの場合:
- Tesseractの公式サイト(https://github.com/tesseract-ocr/tesseract)から、最新バージョンのインストーラをダウンロードします。
- ダウンロードしたインストーラを実行し、Tesseractをインストールします。
-
macOSの場合:
- Homebrewを使用してTesseractをインストールします。ターミナルで以下のコマンドを実行します。
brew install tesseract
-
Linuxの場合:
- ディストリビューションのパッケージマネージャを使用してTesseractをインストールします。以下は、Ubuntuの場合の例です。
sudo apt-get install tesseract-ocr
- PDFからテキストを抽出するコード例: 以下のPythonコードは、Pytesseractを使用してPDFからテキストを抽出する例です。
import pytesseract
from pdf2image import convert_from_path
# PDFを画像に変換
images = convert_from_path('input.pdf')
# 画像からテキストを抽出
text = ''
for image in images:
text += pytesseract.image_to_string(image, lang='eng')
# 抽出したテキストを表示
print(text)
上記のコードでは、pdf2image
モジュールを使用してPDFを画像に変換し、pytesseract.image_to_string()
関数を使用して画像からテキストを抽出しています。lang
パラメータを適切な言語コード(例: 'eng'は英語)に設定してください。
これで、PDFからテキストを抽出するための基本的な手順とコード例がわかりました。必要に応じて、上記のコードをカスタマイズして使用してください。