PythonでPytesseractのコマンドパスを設定する方法


  1. Tesseract OCRのインストール: まず、Tesseract OCRエンジンをインストールする必要があります。Windowsの場合は、公式のTesseract OCRダウンロードページ(https://github.com/UB-Mannheim/tesseract/wiki)からインストーラーをダウンロードしてインストールします。MacやLinuxの場合は、ターミナルで以下のコマンドを実行します:

    brew install tesseract
  2. Pytesseractのインストール: 次に、Pytesseractライブラリをインストールします。ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行します:

    pip install pytesseract
  3. コマンドパスの設定: Pytesseractは、Tesseract OCRのコマンドラインツールを呼び出して使用します。そのため、PytesseractにTesseractのコマンドパスを伝える必要があります。以下のコードを使用して、コマンドパスを設定します:

    import pytesseract
    pytesseract.pytesseract.tesseract_cmd = 'パス/TO/tesseract'

    上記のコードで、'パス/TO/tesseract'の部分をTesseract OCRの実際のパスに置き換えてください。

  4. 画像からテキストを認識する例: 以下のコードは、Pytesseractを使用して画像からテキストを認識する例です:

    import pytesseract
    from PIL import Image
    # 画像を開く
    image = Image.open('画像ファイルのパス')
    # 画像からテキストを抽出
    text = pytesseract.image_to_string(image)
    # 結果を表示
    print(text)

    上記のコードでは、'画像ファイルのパス'の部分を実際の画像ファイルのパスに置き換えてください。

これで、Pytesseractのコマンドパスを設定し、画像からテキストを抽出する準備が整いました。他にも、Pytesseractにはさまざまなオプションがありますので、公式のドキュメント(https://pypi.org/project/pytesseract/)を参照して詳細を確認してください