[記事] Fessで「Tesseract OCR」を利用する

【連載】簡単導入! OSS全文検索サーバFess入門
【第25回】Fessで「Tesseract OCR」を利用する

2 Likes

本記事を参考にさせていただきWindows10でFess13.8.2 tesseract5.0.0環境で構築しようとしています。

まずは画像のみを対象にしたいと思い、下記のように設定しましたが失敗しています。

Windows環境で構築する際に気をつけることがあればお教えいただけないでしょうか。

◆TesseractOCRインストール先

C:\Program Files\Tesseract-OCR

◆TesseractOCRConfig.properties

#tesseractPath=

language=jpn

pageSegMode=1

extractAcroFormContent=true

useNonSequentialParser=false

extractAnnotationText=true

sortByPosition=false

extractUniqueInlineImagesOnly=true

enableAutospace=true

maxFileSizeToOcr=2147483647

minFileSizeToOcr=0

timeout=30

suppressDuplicateOverlappingText=false

outputType=txt

preserveInterwordSpacing=false

enableImageProcessing=1

ImageMagickPath=

density=300

depth=4

colorspace=rgb

filter=triangle

resize=200

◆ファイルクロールの設定

パス

file:/C:/fess-search/

設定パラメーター

config.tika.tesseract.config=file:/C:/fess-13.8.2/TesseractOCRConfig.properties

Tesseract 5では試したことがないので、わかりませんね…。まずは、4系で試していただいたり、fess-crawler.logを見て、エラーが出ていないかなどを確認するのが良いと思います。

アドバイスありがとうございます。fess-crawler.logを確認したところ

TesseractOCRConfig.propertiesが読めていないことが分かり手がかりができました。

2021-06-03 15:38:07,237 [Crawler-20210603153759-1-5] WARN Could not load file:/C:/fess-13.8.2/TesseractOCRConfig.properties

java.io.FileNotFoundException: file:\C:\fess-13.8.2\TesseractOCRConfig.properties (ファイル名、ディレクトリ名、またはボリューム ラベルの構文が間違っています。)