検索サーバの最適化のツボを教えて下さい。

(from osdn.net/users/xfedora)
PC環境で詰める最高のメモリ32G、i7、SSD、x64 Win7 などで自分の財布でできるまでの環境を作りました。

そこで、Fessの各構成フレームのパラメータをいじって、最高のクロール性能を引き出せないか教えていただきたくよろしくお願いいたします。

実運用でCPUはいくらあっても足りないことは分かりましたが、メモリはデフォルト環境では使い切ることはありませんでした。(それも設定によると思いますが~)

その他環境は以下のようです。

?クロールが時時止まるので、「Crawler all * * * * * ? 」で、何時でも再開できるようにしました。
?同時実行のクロール設定数 は100に指定
?ファイルサーバとWebクロール対象は 同時に10*100ms
?気が短いので、solrconfig.xmlでのSoftCommitを設定

1000

?setenv.batでは、-server -Xmx1g から -server -Xmx8g へ(12もやってみたんですが、使い切れず無駄でした。)
?Radeon RAMDiskで 4GのRamdiskを作成し、catalina.batでのTempをRamdiskに指定(4Gを使い切ることはありませんでした。せいぜい2Gまで)
if not “%CATALINA_TMPDIR%” == “” goto gotTmpdir
set “CATALINA_TMPDIR=M:\TEMP”
:gotTmpdir

以上の設定で、1時間Webでしたら2万ページは取れます。しかし、時間が経つに連れ例えば、Webで10万ページまで行くところからますますクロールの動きが鈍くなります。
このスピードは、上記CATALINA_TMPDIRのファイルの読み書き&個別ファイルサイズを見ながら目視で確認しています。

もっと良いチューニング方法はございませんでしょうか?

以上、よろしくお願い致します。

(from osdn.net/users/xfedora)
fessTmpDir_********** フォルダのなかが騒がしくなくなると、一旦、クロールを停止して、再開させたりもしましたが、同じページをもう一度辿っているようで、
Solr管理画面で確認すると、deletedDocs:数が急増します。
一定時間以内だったら、一度クロールしたページはパスできるように設定できないでしょうか?

(from osdn.net/users/shinsuke)

Webで10万ページまで行くところからますますクロールの動きが鈍くなります。

h2版は1つのクロール設定あたり10万ドキュメントが限界かと思います。
mysql版を利用していただくのが良いと思います。

一定時間以内だったら、一度クロールしたページはパスできるように設定できないでしょうか?

差分クロールを利用して頂いて、クロール済みのものは
更新分だけのコンテンツを取得するのが良いと思います。

(from osdn.net/users/xfedora)
いつもお世話になっております。

クロールあたりの件数は最大10万件の見通しですので、まだH2を使っています。
MySQL版もこの頃並行で使っていますが、今のどころむしろH2が早い気がします。

MySQLで謎のDisk I/O負荷、H2→MySQLでの移行失敗(それぞれジャンルのデータは移行されますが、テーブル間リレーションが切れているような症状)、クロールが遅い???などでまだ試しの段階です

あと、差分クロールもOnにしましたが、まだまだ、最初のデータをため込む時期で効果はでておりません。

ハードのスペック感などに合わせた、おすすめのチューニングポイントなどございましたらよろしくお願いいたします。