s2robotの出力ファイルにhtmlのinnertextを指定できないか?

(from osdn.net/users/fess_user)
お世話になっております。
掲題の通りs2robotの出力ファイルにhtmlそのものではなく、htmlのテキストのみを出力できませんでしょうか?

temp配下が肥大化して困っております。fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。

であれば、これで十分に思えます。

よろしくお願いいたします。

(from osdn.net/users/shinsuke)

fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。

キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)

(from osdn.net/users/fess_user)
私が利用しているバージョンが古い(8.2.0)からでしょうか?探してみても、見当たらないように思えます・・・

[メッセージ #77393 への返信]

fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。

キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)

(from osdn.net/users/fess_user)
また、urlを20件ほど登録して、半年ほど運用した処、用意したディスク50gbを食い尽くしてしまいました。

これが普通なのでしょうか?

[メッセージ #77394 への返信]

私が利用しているバージョンが古い(8.2.0)からでしょうか?探してみても、見当たらないように思えます・・・

[メッセージ #77393 への返信]

fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。

キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)

(from osdn.net/users/shinsuke)

これが普通なのでしょうか?

9.x系の最新を利用していただくのが良いかと思いますが、
何がディスクを消費している感じでしょうか?

(from osdn.net/users/fess_user)
s2robot-httpclientxxxx.outファイルです。

中身を見るとhtmlだったので、innertextにして欲しいな、と。。

\localhost\fess-server-8.2.0\temp\fessTmpDir_20151229082735 のディレクトリ

2015/12/29 10:09 .
2015/12/29 10:09 …
2015/12/29 08:27 773 crawler_175580794948714005.properties
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out
2015/12/29 10:10 85,391,020 s2robot-HcHttpClient-5297368661041843527.out
4 個のファイル 18,177,224,458 バイト
2 個のディレクトリ 6,654,988,288 バイトの空き領域

[メッセージ #77396 への返信]

これが普通なのでしょうか?

9.x系の最新を利用していただくのが良いかと思いますが、
何がディスクを消費している感じでしょうか?

(from osdn.net/users/fess_user)
見にくいですが、1回のクロールで18G使っています。

[メッセージ #77397 への返信]

s2robot-httpclientxxxx.outファイルです。

中身を見るとhtmlだったので、innertextにして欲しいな、と。。

\localhost\fess-server-8.2.0\temp\fessTmpDir_20151229082735 のディレクトリ

2015/12/29 10:09 .
2015/12/29 10:09 …
2015/12/29 08:27 773 crawler_175580794948714005.properties
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out
2015/12/29 10:10 85,391,020 s2robot-HcHttpClient-5297368661041843527.out
4 個のファイル 18,177,224,458 バイト
2 個のディレクトリ 6,654,988,288 バイトの空き領域

[メッセージ #77396 への返信]

これが普通なのでしょうか?

9.x系の最新を利用していただくのが良いかと思いますが、
何がディスクを消費している感じでしょうか?

(from osdn.net/users/shinsuke)
この現象は見たことがないのですが、s2robot-httpclientxxxx.outはhttp等で取得したファイルになります。s2robot-httpclientxxxx.outは1つのファイルに対応します。

2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out

上記の中身に対応する実際のhtmlファイルが存在しているの感じでしょうか?

(from osdn.net/users/fess_user)
[メッセージ #77399 への返信]

この現象は見たことがないのですが、s2robot-httpclientxxxx.outはhttp等で取得したファイルになります。s2robot-httpclientxxxx.outは1つのファイルに対応します。

2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out

上記の中身に対応する実際のhtmlファイルが存在しているの感じでしょうか?

その通りです。実際のhtmlが全部マージされた形に見えます。

(from osdn.net/users/fess_user)
というか、普通は起こらないものですか?だったら私の設定に問題がある?
もしその可能性があるなら、最新版をDLして試してみます。

(from osdn.net/users/shinsuke)

実際のhtmlが全部マージされた形に見えます。

上記ですと、検索結果も正しいものができないように思います。
おかしな状態になっている気がします。

(from osdn.net/users/fess_user)
いえ、検索結果はちゃんと出ています。なので、これ(ディスク爆食い)が通常かと思っていました。

(from osdn.net/users/fess_user)
windows xp+fess 8.2.0.からwin7x64+fess9.4.2(どちらもjdk1.7)に変更した処、temp配下のごみは出ないようになりました。ありがとうございます。

が、URLを4つ登録して、クロールを行うと、28873ドキュメントのインデックスに対して、solr indexデータが1.3GBとなり、ドキュメントに比べてやはり少し大きすぎる気がします。

サイトは全て英文です。日本語の場合、solorのオプションに「て、に、を、は、です、ます」などを省略するフィルタがありますが、英文にもないでしょうか?

URL4つで、1.3Gはやはり大きすぎます。

(from osdn.net/users/shinsuke)

サイトは全て英文です。日本語の場合、solorのオプションに「て、に、を、は、です、ます」などを省略するフィルタがありますが、英文にもないでしょうか?

Fessは多くの環境で動作する設定にしています。
商用サポートでは要件に合わせたチューニングをしていますが、
OSSとしては個別の要件に対応することは厳しいので、
必要に応じて、solr/core1/conf/schema.xml等のSolrの
チューニングで調整することができます。

(from osdn.net/users/fess_user)
自分でお願いします、ってことでしょうか。