大量のファイルをクロールしたく、普通のクロールを試みましたが、
OOMなどで止まってしまいどうもうまくいきません。mxは4GBまではUPしましたが。
スレッド数低減や間隔延長をやり過ぎると亀の動きで1年たっても終わりそうにありません。
そこで、CsvListDataStore が使えないかと考えました。
dirコマンドなど使ってクロールしたいファイルのリストを作っておき、
たとえば、10万ファイル毎に1000回CsvListDataStoreを繰り返せば1億ファイルのINDEXができるのではと。
こういったことは可能でしょうか。
また、CsvListDataStore のクロール設定には「スレッド数」「間隔」といった設定項目がありません。
これは、javaヒープなど気にせずサーバ能力のベストエフォートで処理してくれる、・・と理解していいでしょうか?