お世話になります。
Fess14.9 をWindows Server 2019 にて 使用しています。
約1400個の.xlsxファイルを圧縮した .zipファイルの中をファイルシステムクロールできないようです。
zipファイルサイズは、約24MB →17MB に圧縮しています。
1個あたりのxlsxファイルは、10kB~200kB ほどです。
解凍すればクロールするのは確認済みです。
下記対策を試していますが、改善していません。
他の解決策は考えられるでしょうか?
“fess-crawler.log” を見ますと、(一部伏字とさせて頂きました)
2023-09-01 02:29:26,833 [Crawler-20230901000500-1-2] INFO Crawling URL: smb://(aa.bb.cc.dd)/zip/xls/202206.zip
2023-09-01 02:29:27,414 [IndexUpdater] INFO Processing no docs in indexing queue (Doc:{access 13ms, cleanup 1016ms}, Mem:{used 171MB, heap 473MB, max 1GB})
などとなっています。
試してみた変更点は、以下です。
“fess_config.properties”
crawler.ignore.robots.txt=false →true
crawler.ignore.robots.tags=false →true
indexer.unprocessed.document.size=1000 →10000
“contentlength.xml”
defaultMaxLength 10485760 →52428800
“extractor+tikaExtractor.xml”
maxCompressionRatio 2→20
maxUncompressionSize 10000000→52428800