(from osdn.net/users/kuga-yuyu)
お世話になっております。
初歩的な質問になってしまいそうですが、現在Windows7 Pro SP1(32bit) + java version “1.8.0_20” にFESSをインストールし、特定のWebページをクロールさせようと設定しておりましたが、「java.net.SocketException」が発生し、クロール処理が完了しません。
【エラー抜粋】
org.seasar.robot.RobotCrawlAccessException: Socket exception(Connection reset): “(クロール対象URL)”
at org.seasar.robot.client.http.HcHttpClient.processHttpMethod(HcHttpClient.java:801)
at org.seasar.robot.client.http.HcHttpClient.doHttpMethod(HcHttpClient.java:613)
at org.seasar.robot.client.http.HcHttpClient.doHead(HcHttpClient.java:586)
at org.seasar.robot.client.FaultTolerantClient$2.execute(FaultTolerantClient.java:83)
・・
・・・
タスクマネージャーなどでリソースの使用状況を確認してましたが、比較的リソースに余裕があり、今回のエラーが何故出力されているのか分からない状態です。
大変申し訳ございませんが、どう解決すればいいのか、もしくは対処方法が記載されているドキュメントがあればご教示頂ければ幸いです。
お願い致します。
(from osdn.net/users/kuga-yuyu)
お世話になってます。
申し訳ございません。色々と情報が不足しておりました。
構築および設定後に、ドキュメントに沿ってクロールを実行しましたが、うまくクロールできませんでした。
アクセス障害URLに「java.net.SocketException」のエラーが出力されており、fess_crawler.out で該当時間
を見てみると、クロール対象のURLに接続失敗したメッセージが出力されておりました。
【該当ログ】
2014-10-03 12:04:50,567 [Robot-20141003120333-1-3] INFO org.seasar.robot.helper.impl.LogHelperImpl - Failed to access to http://fess.codelibs.org/ja/
会社のLANからの接続となるので、プロキシを利用して接続となりますので、
http://fess.codelibs.org/ja/9.1/config/proxy.html こちらのドキュメントを参考に
設定しております。
他に確認すべき点や留意すべき点があればご教示頂けませんでしょうか。
以下にクロール処理を実行した際のfess_crawler.out のログを抜粋致します。
【fess_crawler.out 抜粋】
2014-10-03 12:04:04,334 [main] INFO jp.sf.fess.db.allcommon.DBFluteInitializer - …Initializing DBFlute components
2014-10-03 12:04:09,193 [main] INFO org.seasar.robot.db.allcommon.DBFluteInitializer - …Initializing DBFlute components
2014-10-03 12:04:21,349 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - Running on [ENV]product, [DEPLOY MODE]Cool Deploy
2014-10-03 12:04:22,142 [main] INFO jp.sf.fess.exec.Crawler - Starting Crawler…
2014-10-03 12:04:22,291 [Data Crawling Process] INFO jp.sf.fess.helper.DataIndexHelper - No crawling target urls.
2014-10-03 12:04:22,687 [Web Crawling Process] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.seasar.robot.client.FaultTolerantClientのプロパティ(requestListener)が見つからないので設定をスキップします
2014-10-03 12:04:22,808 [Web Crawling Process] INFO jp.sf.fess.helper.WebFsIndexHelper - Target URL: http://fess.codelibs.org/ja/
2014-10-03 12:04:23,248 [Robot-20141003120333-1-3] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://fess.codelibs.org/ja/
2014-10-03 12:04:23,255 [Robot-20141003120333-1-3] INFO org.seasar.robot.client.http.HcHttpClient - Checking URL: http://fess.codelibs.org/robots.txt
2014-10-03 12:04:24,586 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - I/O exception (java.net.SocketException) caught when processing request: Connection reset
2014-10-03 12:04:24,586 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - Retrying request
2014-10-03 12:04:25,605 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - I/O exception (java.net.SocketException) caught when processing request: Connection reset
2014-10-03 12:04:25,605 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - Retrying request
2014-10-03 12:04:26,621 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - I/O exception (java.net.SocketException) caught when processing request: Connection reset
2014-10-03 12:04:26,621 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - Retrying request
2014-10-03 12:04:27,631 [Robot-20141003120333-1-3] INFO org.seasar.robot.client.http.HcHttpClient - Could not process http://fess.codelibs.org/robots.txt. Connection reset
2014-10-03 12:04:28,637 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - I/O exception (java.net.SocketException) caught when processing request: Connection reset
2014-10-03 12:04:28,637 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - Retrying request
(I/O exception、Retrying request の繰り返しだったため省略)
2014-10-03 12:04:48,935 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - I/O exception (java.net.SocketException) caught when processing request: Connection reset
2014-10-03 12:04:48,936 [Robot-20141003120333-1-3] INFO org.apache.http.impl.execchain.RetryExec - Retrying request
2014-10-03 12:04:50,567 [Robot-20141003120333-1-3] INFO org.seasar.robot.helper.impl.LogHelperImpl - Failed to access to http://fess.codelibs.org/ja/
2014-10-03 12:05:22,946 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 20ms.
2014-10-03 12:06:22,933 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 4ms.
…
…
…
大変申し訳ございませんが、何卒お願い致します。
(from osdn.net/users/shatake)
お手数ですがログレベルをデバッグにして、クロール時のログの内容を
再度確認して頂けないでしょうか。
よろしくお願いいたします。
(from osdn.net/users/kuga-yuyu)
ご返信ありがとうございます。
ログレベルで確認を行い、昨日時点でクロール処理のエラーを解消することができました。
お騒がせしました。
別途クロールの機能についてお伺いさせて頂きたく存じますので、何卒お願い致します。