インデックス・フォルダのサイズと配置について

(from osdn.net/users/u2taktak)
お世話になります。

Fess 9.1.0 で社内の部門共有フォルダを検索するシステムを構築・利用しています。順調に稼動していたのですが、インデックス・フォルダ:
fess-server-9.1.0\solr\core1\data\index
が大きくなり、サーバのディスク容量不足でクロール処理がエラーとなってしまいました。
現サーバのディスク拡張については容量制限がきついため、ファイルサーバに配置できないかと考えています。
そこで以下について教えていただけないでしょうか。

?インデックス・フォルダのサイズ見積もりに関する情報
?インデックス・フォルダをネットワーク上のフォルダに変更する方法

よろしくお願いします。

(from osdn.net/users/xfedora)
すみません、先生が来る前に~

?クロール対象にもよりますが、HTMLのクロールに比べOffice文書、PDFのクロールで生成されるIndexはほぼ同じサイズになる感じがします。こちらですと、まだ15万ほどのOffice文書をクロールしただけですが、Indexが100G近くなります。ちなみに同数量のHtmlでしたら5G程度だったような気がします。

?Solrの分散処理のようなことで実現できると思いますが~ 分散処理ではなく、データだけLanでやりとりすると偉く性能が落ちないか心配です。いろいろ、手間を考えると本格的なサーバーであるにせよHDDを交換したほうが安上がりと思います。

(from osdn.net/users/u2taktak)
情報ありがとうございます。
? そうなんですか。予想以上に大きくなるのですね。
? 確かに性能は気になります。変更方法がわかれば、どの程度影響するものか試してみたいと思っています。

(from osdn.net/users/xfedora)
ここの情報を参考にできればと~ 結局日本でSolrに関する情報が少すぎですが~

http://www.atmarkit.co.jp/ait/articles/1111/18/news148_4.html

(from osdn.net/users/u2taktak)
ありがとうございます。
ご紹介いただいたページをちょっと見てみましたが、道のりは長そうです。
オープンソースで構築する醍醐味(つらさ?)を感じつつ…
いずれ結果を報告できるよう頑張ってみます。

(from osdn.net/users/shinsuke)

?インデックス・フォルダのサイズ見積もりに関する情報

インデックスのディスクサイズに影響をあたえるのは、
テキスト量になります。単純なテキストファイルであれば
そのサイズ以上の量が消費されると思います。一方、
PDFやOffice系のファイルであれば、そこに含まれる
文の量次第かと思います。文が多ければそのファイルサイズに
近いものになりますし、パワポのようなものですと文字量が
少ないので、ファイルサイズより少ないものになります。
ですので、ご利用の環境での対象ファイルの種類に
かなり依存することになると思います。商用サポートとかでは
どのような種類のファイルが多いなどをヒアリングして
ディスクサイズを見積もっています。

?インデックス・フォルダをネットワーク上のフォルダに変更する方法

solr/core1/conf/solrconfig.xmlの
dataDirを対象ディレクトリに変更していただければ
良いかと思います。ただし、検索パフォーマンスが劣化しますし、
NFSでなくて、SMB的なものですとSMBのキャッシュの設定を
無効などにしないと、インデックスの破損が発生したりすると
思います。

(from osdn.net/users/xfedora)
なるほど、インデックスの破損もありうるのでしょうか?! 参考になりました。

(from osdn.net/users/u2taktak)
ありがとうございます。トライしてみます。