【連載】簡単導入! OSS全文検索サーバFess入門
【第25回】Fessで「Tesseract OCR」を利用する
本記事を参考にさせていただきWindows10でFess13.8.2 tesseract5.0.0環境で構築しようとしています。
まずは画像のみを対象にしたいと思い、下記のように設定しましたが失敗しています。
Windows環境で構築する際に気をつけることがあればお教えいただけないでしょうか。
◆TesseractOCRインストール先
C:\Program Files\Tesseract-OCR
◆TesseractOCRConfig.properties
#tesseractPath=
language=jpn
pageSegMode=1
extractAcroFormContent=true
useNonSequentialParser=false
extractAnnotationText=true
sortByPosition=false
extractUniqueInlineImagesOnly=true
enableAutospace=true
maxFileSizeToOcr=2147483647
minFileSizeToOcr=0
timeout=30
suppressDuplicateOverlappingText=false
outputType=txt
preserveInterwordSpacing=false
enableImageProcessing=1
ImageMagickPath=
density=300
depth=4
colorspace=rgb
filter=triangle
resize=200
◆ファイルクロールの設定
パス
file:/C:/fess-search/
設定パラメーター
config.tika.tesseract.config=file:/C:/fess-13.8.2/TesseractOCRConfig.properties
Tesseract 5では試したことがないので、わかりませんね…。まずは、4系で試していただいたり、fess-crawler.logを見て、エラーが出ていないかなどを確認するのが良いと思います。
アドバイスありがとうございます。fess-crawler.logを確認したところ
TesseractOCRConfig.propertiesが読めていないことが分かり手がかりができました。
2021-06-03 15:38:07,237 [Crawler-20210603153759-1-5] WARN Could not load file:/C:/fess-13.8.2/TesseractOCRConfig.properties
java.io.FileNotFoundException: file:\C:\fess-13.8.2\TesseractOCRConfig.properties (ファイル名、ディレクトリ名、またはボリューム ラベルの構文が間違っています。)