FESSを検索サーバとして利用し、アプリケーションからAPI経由で検索するシステムを構築しようとしています。
Apache Tika を用いてOffice文書などのファイルから抽出したテキストを、WEBフォームから入力されたその他の属性とともにDBテーブルに格納し、データストアクローラでインデックスに取り込んだあと、FESSのJSON APIで検索する、ということをしているのですが、抽出したテキストデータのサイズが巨大な場合(15MB以上)、FESSクローラからElasticsearchへの_bulk API呼び出しの部分でタイムアウトを起こしているようなのです(fess-crawler.logで確認)
ログを確認すると、FESSクローラ→Elasticsearchには、タイムアウト=1mで_bulkを呼び出しているようなのですが、これを設定ファイルの変更などで伸ばすことはできますか?
また、上記のサイズの大きいテキストを含む文書ファイルを、今度はファイルクローラでクロールしてみたことろ、50MB以上あるファイルなのですが、先頭の数ページしかインデックスに入っていないようなのです。
ファイルクローラの仕様として、特定の条件で、それ以降インデックスにはいらないなどの制限はあるものなのでしょうか?
また、それを設定等で緩和することはできるでしょうか?
以上、ご教示くださいませ。