PythonでPDFからテキストを抽出する方法（Pytesseractを使用）

Pytesseractのインストール: まず、Pytesseractをインストールする必要があります。以下のコマンドを使用して、pipを介してインストールできます。

pip install pytesseract

Tesseractのインストール: Pytesseractは、OCRエンジンであるTesseractに依存しています。Tesseractをインストールするためには、以下の手順に従います。

Windowsの場合:
- Tesseractの公式サイト（https://github.com/tesseract-ocr/tesseract）から、最新バージョンのインストーラをダウンロードします。
- ダウンロードしたインストーラを実行し、Tesseractをインストールします。
macOSの場合:
- Homebrewを使用してTesseractをインストールします。ターミナルで以下のコマンドを実行します。
```
brew install tesseract
```
Linuxの場合:
- ディストリビューションのパッケージマネージャを使用してTesseractをインストールします。以下は、Ubuntuの場合の例です。
```
sudo apt-get install tesseract-ocr
```

PDFからテキストを抽出するコード例: 以下のPythonコードは、Pytesseractを使用してPDFからテキストを抽出する例です。

import pytesseract
from pdf2image import convert_from_path
# PDFを画像に変換
images = convert_from_path('input.pdf')
# 画像からテキストを抽出
text = ''
for image in images:
    text += pytesseract.image_to_string(image, lang='eng')
# 抽出したテキストを表示
print(text)

上記のコードでは、pdf2imageモジュールを使用してPDFを画像に変換し、pytesseract.image_to_string()関数を使用して画像からテキストを抽出しています。langパラメータを適切な言語コード（例: 'eng'は英語）に設定してください。

これで、PDFからテキストを抽出するための基本的な手順とコード例がわかりました。必要に応じて、上記のコードをカスタマイズして使用してください。