(from osdn.net/users/fess_user)
お世話になっております。
掲題の通りs2robotの出力ファイルにhtmlそのものではなく、htmlのテキストのみを出力できませんでしょうか?
temp配下が肥大化して困っております。fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。
であれば、これで十分に思えます。
よろしくお願いいたします。
(from osdn.net/users/fess_user)
お世話になっております。
掲題の通りs2robotの出力ファイルにhtmlそのものではなく、htmlのテキストのみを出力できませんでしょうか?
temp配下が肥大化して困っております。fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。
であれば、これで十分に思えます。
よろしくお願いいたします。
(from osdn.net/users/shinsuke)
fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。
キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)
(from fess_user's Profile - OSDN)
私が利用しているバージョンが古い(8.2.0)からでしょうか?探してみても、見当たらないように思えます・・・
[メッセージ #77393 への返信]
fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。
キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)
(from fess_user's Profile - OSDN)
また、urlを20件ほど登録して、半年ほど運用した処、用意したディスク50gbを食い尽くしてしまいました。
これが普通なのでしょうか?
[メッセージ #77394 への返信]
私が利用しているバージョンが古い(8.2.0)からでしょうか?探してみても、見当たらないように思えます・・・
[メッセージ #77393 への返信]
fessはgoogleと違って「キャッシュを表示する」機能は見当たらないように思えます。
キャッシュ表示機能は、ディスクを消費するためデフォルトで無効にしてあります。
(GSAでできる機能は大体あるかと思います)
(from fess_user's Profile - OSDN)
s2robot-httpclientxxxx.outファイルです。
中身を見るとhtmlだったので、innertextにして欲しいな、と。。
\localhost\fess-server-8.2.0\temp\fessTmpDir_20151229082735 のディレクトリ
2015/12/29 10:09 .
2015/12/29 10:09 …
2015/12/29 08:27 773 crawler_175580794948714005.properties
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out
2015/12/29 10:10 85,391,020 s2robot-HcHttpClient-5297368661041843527.out
4 個のファイル 18,177,224,458 バイト
2 個のディレクトリ 6,654,988,288 バイトの空き領域
[メッセージ #77396 への返信]
これが普通なのでしょうか?
9.x系の最新を利用していただくのが良いかと思いますが、
何がディスクを消費している感じでしょうか?
(from fess_user's Profile - OSDN)
見にくいですが、1回のクロールで18G使っています。
[メッセージ #77397 への返信]
s2robot-httpclientxxxx.outファイルです。
中身を見るとhtmlだったので、innertextにして欲しいな、と。。
\localhost\fess-server-8.2.0\temp\fessTmpDir_20151229082735 のディレクトリ
2015/12/29 10:09 .
2015/12/29 10:09 …
2015/12/29 08:27 773 crawler_175580794948714005.properties
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out
2015/12/29 10:10 85,391,020 s2robot-HcHttpClient-5297368661041843527.out
4 個のファイル 18,177,224,458 バイト
2 個のディレクトリ 6,654,988,288 バイトの空き領域[メッセージ #77396 への返信]
これが普通なのでしょうか?
9.x系の最新を利用していただくのが良いかと思いますが、
何がディスクを消費している感じでしょうか?
(from osdn.net/users/shinsuke)
この現象は見たことがないのですが、s2robot-httpclientxxxx.outはhttp等で取得したファイルになります。s2robot-httpclientxxxx.outは1つのファイルに対応します。
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out
上記の中身に対応する実際のhtmlファイルが存在しているの感じでしょうか?
(from fess_user's Profile - OSDN)
[メッセージ #77399 への返信]
この現象は見たことがないのですが、s2robot-httpclientxxxx.outはhttp等で取得したファイルになります。s2robot-httpclientxxxx.outは1つのファイルに対応します。
2015/12/29 10:10 9,155,731,309 s2robot-HcHttpClient-1283092524387731553.out
2015/12/29 10:10 8,936,101,356 s2robot-HcHttpClient-4804395303479745628.out上記の中身に対応する実際のhtmlファイルが存在しているの感じでしょうか?
その通りです。実際のhtmlが全部マージされた形に見えます。
(from osdn.net/users/shinsuke)
実際のhtmlが全部マージされた形に見えます。
上記ですと、検索結果も正しいものができないように思います。
おかしな状態になっている気がします。
(from osdn.net/users/fess_user)
windows xp+fess 8.2.0.からwin7x64+fess9.4.2(どちらもjdk1.7)に変更した処、temp配下のごみは出ないようになりました。ありがとうございます。
が、URLを4つ登録して、クロールを行うと、28873ドキュメントのインデックスに対して、solr indexデータが1.3GBとなり、ドキュメントに比べてやはり少し大きすぎる気がします。
サイトは全て英文です。日本語の場合、solorのオプションに「て、に、を、は、です、ます」などを省略するフィルタがありますが、英文にもないでしょうか?
URL4つで、1.3Gはやはり大きすぎます。
(from osdn.net/users/shinsuke)
サイトは全て英文です。日本語の場合、solorのオプションに「て、に、を、は、です、ます」などを省略するフィルタがありますが、英文にもないでしょうか?
Fessは多くの環境で動作する設定にしています。
商用サポートでは要件に合わせたチューニングをしていますが、
OSSとしては個別の要件に対応することは厳しいので、
必要に応じて、solr/core1/conf/schema.xml等のSolrの
チューニングで調整することができます。
© 2020. All Rights Reserved - CodeLibs, Inc.