WEB、ファイルシステム、データストア別ジョブ管理方法は？

discuss · July 29, 2014, 8:33pm

(from osdn.net/users/xfedora)
お世話になっております。

初心者ですので、いろいろ初歩的な質問で申し訳ございませんが、

題名通りのジョブの仕分けはできませんか？

背景としては、Webで指定したサイトが多すぎて、何時ファイルサーバーへのクロールに行くか読めないので、ジョブを作って交替制にクロールさせるつもりです。

マニュアルを真似して、ファイルシステムのみクロールさせる真似を以下のようにしてみました。

return container.getComponent(“crawlJob”).execute(executor, [] as String[],[“106”,“107”,“108”,“109”,“110”,“111”,“112”,“113”] as String[],[] as String[],“commit”);

同じ方法で、Webのクロールも理論的にはできますが、対象が数百に登るため、一々IDを指定させては、気が遠くなるほどです。

なにかよい方法はございませんか？

その他、インデックスの最適化を定期的に行わせるにはどのように掛けば宜しいでしょうか？

以上、ご先輩の方よろしくお願い致します。

discuss · July 29, 2014, 10:35pm

(from osdn.net/users/shinsuke)

なにかよい方法はございませんか？

商用サポートでは複雑なクロールは別バッチにして
対応したりしています。クロール処理自体は、
Fessサーバからbin/crawler.shのような処理を
呼んでいる感じになるので、それを呼ぶような
バッチを組んでいる感じです。

現状ですと、Webやファイルシステム対象で
ワイルドカード的な指定ができないので、
次のバージョンでは改善したいと思います。

その他、インデックスの最適化を定期的に行わせるにはどのように掛けば宜しいでしょうか？

return container.getComponent(“crawlJob”).execute(executor, as String, as String, as String,“optimize”);

のようなジョブを作成すれば良いと思います。

discuss · July 30, 2014, 12:33am

(from osdn.net/users/xfedora)
いつも大変お世話になっております。

次期バージョンもよろしくお願いいたします。

最適化のジョブ設定は助かりました。なんか潔癖症の自分には欠かせない処理です。

以上、どうもありがとうございました。