FESSのクローラについて

m.ishida · January 27, 2021, 7:33am

FESSを検索サーバとして利用し、アプリケーションからAPI経由で検索するシステムを構築しようとしています。

Apache Tika を用いてOffice文書などのファイルから抽出したテキストを、WEBフォームから入力されたその他の属性とともにDBテーブルに格納し、データストアクローラでインデックスに取り込んだあと、FESSのJSON APIで検索する、ということをしているのですが、抽出したテキストデータのサイズが巨大な場合（15MB以上）、FESSクローラからElasticsearchへの_bulk API呼び出しの部分でタイムアウトを起こしているようなのです（fess-crawler.logで確認）

ログを確認すると、FESSクローラ→Elasticsearchには、タイムアウト=1mで_bulkを呼び出しているようなのですが、これを設定ファイルの変更などで伸ばすことはできますか？

また、上記のサイズの大きいテキストを含む文書ファイルを、今度はファイルクローラでクロールしてみたことろ、50MB以上あるファイルなのですが、先頭の数ページしかインデックスに入っていないようなのです。

ファイルクローラの仕様として、特定の条件で、それ以降インデックスにはいらないなどの制限はあるものなのでしょうか？
また、それを設定等で緩和することはできるでしょうか？

以上、ご教示くださいませ。

shinsuke · January 27, 2021, 9:47am

ファイルサイズの設定を参照してください。
クローラーのスクロールタイムアウトを設定するためには、crawler_es.xmlを取得して、/usr/share/fess/webapp/WEB-INF/classesあたりにおいて、

	<component name="dataService"
		class="org.codelibs.fess.crawler.service.impl.EsDataService">
		<arg>crawlerConfig</arg>
	</component>

あたりでcomponent要素の下に

<property name="scrollTimeout">60000</property>

のような感じで調整すれば良いと思います。

m.ishida · January 27, 2021, 9:52am

ご回答、ありがとうございます。
早速確認してみます！