-
PSMモード 0: OSD_ONLY このモードでは、テキストの向きとスクリプトの検出のみが行われます。テキスト自体は認識されません。
import pytesseract from PIL import Image image = Image.open('image.png') text = pytesseract.image_to_osd(image, config='--psm 0') print(text)
-
PSMモード 6: AUTO このモードでは、Tesseractが自動的にページのセグメント化を試みます。このモードは一般的には最も一般的な選択肢です。
import pytesseract from PIL import Image image = Image.open('image.png') text = pytesseract.image_to_string(image, config='--psm 6') print(text)
-
PSMモード 11: TESSERACT_ONLY このモードでは、テキストの認識のみが行われ、テキストの向きやスクリプトの検出は行われません。
import pytesseract from PIL import Image image = Image.open('image.png') text = pytesseract.image_to_string(image, config='--psm 11') print(text)
これらはPSMモードの一部の例ですが、Tesseractには他のモードもあります。適切なPSMモードを選択することで、特定の画像に最適なテキスト認識結果を得ることができます。詳細な情報については、Tesseractの公式ドキュメントを参照してください。