-
Tesseract OCRのインストール: まず、Tesseract OCRエンジンをインストールする必要があります。Windowsの場合は、公式のTesseract OCRダウンロードページ(https://github.com/UB-Mannheim/tesseract/wiki)からインストーラーをダウンロードしてインストールします。MacやLinuxの場合は、ターミナルで以下のコマンドを実行します:
brew install tesseract
-
Pytesseractのインストール: 次に、Pytesseractライブラリをインストールします。ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行します:
pip install pytesseract
-
コマンドパスの設定: Pytesseractは、Tesseract OCRのコマンドラインツールを呼び出して使用します。そのため、PytesseractにTesseractのコマンドパスを伝える必要があります。以下のコードを使用して、コマンドパスを設定します:
import pytesseract pytesseract.pytesseract.tesseract_cmd = 'パス/TO/tesseract'
上記のコードで、'パス/TO/tesseract'の部分をTesseract OCRの実際のパスに置き換えてください。
-
画像からテキストを認識する例: 以下のコードは、Pytesseractを使用して画像からテキストを認識する例です:
import pytesseract from PIL import Image # 画像を開く image = Image.open('画像ファイルのパス') # 画像からテキストを抽出 text = pytesseract.image_to_string(image) # 結果を表示 print(text)
上記のコードでは、'画像ファイルのパス'の部分を実際の画像ファイルのパスに置き換えてください。
これで、Pytesseractのコマンドパスを設定し、画像からテキストを抽出する準備が整いました。他にも、Pytesseractにはさまざまなオプションがありますので、公式のドキュメント(https://pypi.org/project/pytesseract/)を参照して詳細を確認してください。