CsvListDataStore について質問です。

NARU · February 7, 2021, 1:05am

大量のファイルをクロールしたく、普通のクロールを試みましたが、
OOMなどで止まってしまいどうもうまくいきません。mxは4GBまではUPしましたが。
スレッド数低減や間隔延長をやり過ぎると亀の動きで1年たっても終わりそうにありません。

そこで、CsvListDataStore が使えないかと考えました。

dirコマンドなど使ってクロールしたいファイルのリストを作っておき、
たとえば、10万ファイル毎に1000回CsvListDataStoreを繰り返せば1億ファイルのINDEXができるのではと。
こういったことは可能でしょうか。

また、CsvListDataStore のクロール設定には「スレッド数」「間隔」といった設定項目がありません。
これは、javaヒープなど気にせずサーバ能力のベストエフォートで処理してくれる、・・と理解していいでしょうか？

shinsuke · February 7, 2021, 4:55am

CsvListDataStoreはいろいろな使い方がありますが、そのような使い方もできるとは思います。大規模のクロールにおいては、NAS等のファイル更新一覧ログを生成させて、更新分だけを効率良くインデックスするなど、対象を直接指定してインデックスしていくことができます。

javaヒープなど気にせずサーバ能力のベストエフォートで処理してくれる

この理解は正しくないと思います。ファイルシステムでクロールにしても、これにしても、数百万ドキュメントを超えるドキュメントをインデックスするためには、十分なノウハウがないとできないと思います。

NARU · February 7, 2021, 9:26am

ご回答ありがとうございます。
ノウハウが必要として、ノウハウを発揮する領域がわかりません。
ファイルシステムクロールの場合はスレッド数、間隔、同時クロール数、ｍｘがチューニング項目としてありますが、データストアクロールの場合はスレッド数・間隔は無く、チューニングできるのはｍｘ、1度に行うCsvList行数しかないように思いますが・・・。

shinsuke · February 7, 2021, 12:06pm

まず、検索＆インデクシングの要件をもとにElasticsearchやFessをどのようなクラスタ構成で組むかとかを考え、その許容可能な範囲の性能で、クロールのスレッド数や間隔を調整したり、Analyzerなどのインデクシングの仕方を調整したりとか、考えることはいろいろとあります。数百万ドキュメントくらいまでは、デフォルトの設定でも何とかはなると思いますが、それ以上はノウハウがないと厳しいと思います。

NARU · February 8, 2021, 12:17am

ご回答ありがとうございます。
なるほど、ざっくり言うと、Fessの管理画面でできるのはFessの設定であって、Elasticsearchの設定などは別枠だというような感じでしょうか。
「クラスタ構成」ですか、う～～ん、一歩進むと2歩ゴールが遠ざかる気がします。
では。