ファイルクローラーが終了しない

Qingdao · December 21, 2025, 11:21am

ファイルサーバー(samba)のファイルをクロールしている
ファイルクローラーが終了せず、ログを確認すると
数時間はインデックス処理も正しく行われているようですが
数時間後から
IndexUpdater 0/1018
というようなログが繰り返し出力されており、IndexUpdaterが
進捗していない状況のようです
(一部のフォルダをクロール対象にすると問題なくクロールが
完了します)

OpenSearchのヒープサイズも変更してみましたが
状況は改善しませんでした

原因の切り分けの方法等をお教えいただけないでしょうか?

環境

Ubuntu 22.04
Java 21
OpenSearch 3.3.2
Fess 15.3.2

shinsuke · December 22, 2025, 1:50pm

IndexUpdater 0/1018

1018は変化があるのでしょうか？同じままであれば、DEBUGログにして問題を確認するのが良いと思います。その数値が変化しているのであれば、処理が進行していると思います。クロールするスレッドとインデクシングするスレッドは別なので、IndexUpdaterはインデクシングするスレッドです。クロールして、インデックス対象が溜まりすぎると、クロールを止めて、インデクシングを優先して、1018件のキューに溜まっているものを処理を始めます。

Qingdao · December 24, 2025, 10:06am

ご確認ありがとうございます。

分母の数字は同じままですのでDEBUGログにして内容を確認してみました。

IndexUpdaterの処理が進んでいる箇所と比較すると
Getting documents in IndexUpdater queue.
でhitsの項目に何も設定されていないようですが、これが原因でしょうか?
もしそうであれば、どのようなことが考えられるのでしょうか?

実際のログ内容は以下となります。

2025-12-23 16:29:58,667 [IndexUpdater] DEBUG Getting documents in IndexUpdater queue.
2025-12-23 16:29:58,667 [eshttp] DEBUG >>> POST http://localhost:9200/fess_crawler.data/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2025-12-23 16:29:58,667 [eshttp] DEBUG >>> Content-Type=application/json
2025-12-23 16:29:58,667 [eshttp] DEBUG >>> {“from”:0,“size”:10,“query”:{“bool”:{“filter”:[{“terms”:{“sessionId”:[“20251223122029-1”],“boost”:1.0}},{“term”:{“status”:{“value”:0,“boost”:1.0}}}],“adjust_pure_negative”:true,“boost”:1.0}},“_source”:{“includes”:[“parentUrl”,“method”,“mimeType”,“sessionId”,“url”,“executionTime”,“createTime”,“contentLength”,“lastModified”,“ruleId”,“httpStatusCode”,“status”],“excludes”:},“sort”:[{“createTime”:{“order”:“asc”}}]}
2025-12-23 16:29:58,971 [eshttp] DEBUG <<< {“took”:302,“timed_out”:false,“_shards”:{“total”:10,“successful”:9,“skipped”:0,“failed”:1,“failures”:[{“shard”:8,“index”:“fess_crawler.data”,“node”:“8Vj0suAKQe-UL0pUrO6dAw”,“reason”:{“type”:“parse_exception”,“reason”:“Failed to parse content to map”,“caused_by”:{“type”:“stream_constraints_exception”,“reason”:“String value length (50003968) exceeds the maximum allowed (50000000, from StreamReadConstraints.getMaxStringLength())”}}}]},“hits”:{“total”:{“value”:1432,“relation”:“eq”},“max_score”:null,“hits”:}}
2025-12-23 16:29:58,971 [eshttp] DEBUG Response in Memory
2025-12-23 16:29:58,972 [IndexUpdater] INFO Processing 0/1432 docs (Doc:{access 305ms, cleanup 102ms}, Mem:{used 1.1GB, heap 3.831GB, max 10.24GB})

shinsuke · December 24, 2025, 2:11pm

デフォルトの設定では、そのサイズでは送信しないように思うのですが、50メガを超えるサイズを送信しようとして、送信できないためかもしれません。

Qingdao · December 25, 2025, 10:02am

回答ありがとうございます。
client.maxContentLength
contentlength.xml
上限を50メガバイト(52428800)に設定していたので
上限値を初期設定に戻して試してみます。

今回のように50メガバイト以上のファイルを
クロールしたい場合には、他にも設定変更が必要と
いうことでしょうか?

shinsuke · December 25, 2025, 11:52am

クロール対象のファイルサイズを増やす場合、クロールの設定やOpenSearchの設定など、要件や環境に合わせて調整することが多いと思います。

Qingdao · January 7, 2026, 10:14am

OpenSearchの設定を変更したら無事に最後までクロール出来ました。
どうもありがとうございました。

otofu · January 8, 2026, 2:24am

当方の環境でも状況なのですが、OpenSearchのどの設定を変更することによって解消したかご教示頂くことは可能でしょうか？

Qingdao · January 8, 2026, 10:19am

を参考にして
opensearch.xcontent.string.length.maxプロパティで
50メガバイト以上の上限値を設定しました。

otofu · January 8, 2026, 12:45pm

ご教示ありがとうございます。

該当プロパティ設定し当方の環境でも確認してみます。