クローラーのタイムアウトについて。

(from osdn.net/users/youhei_nakagawa)
大変お世話になります。

複数のサイトにまたがるページをクローリングするとき、

全体で一定の時間以内に終了するようにしたいと考えています。

いろいろ試していくうちに時間帯によっては幾つかのページの

応答時間やダウンロード先のページの転送速度が遅くなっているものが

多々あり時間の調整が難しい状態となってしまいます。

そこで1ページのアクセスにつき例えば3秒以上経過したら無視して

次のページをクロールするようにしたいと考えています。

いろいろ設定ファイルを見て回ったのですがなかなかそういったオプションを

見つけることができず思った通りに進まなくなってきました。

こちらについてそもそもオプションで対応が可能なのか、

対応可能なのであればどこのオプションなのか、

または有料オプションとなるのかご教授いただければ幸いです。

よろしくお願いいたします。

(from osdn.net/users/shinsuke)
遅く繋がっている状態なので、それに対応するタイムアウトの設定とかは

ないように思います。それを対応するとした場合、S2RobotのHcHttpClientを

拡張して、時間内に処理できなければ、対象のスレッドをinterruptする感じかと

思います。将来的には対応を検討しようと思いますが、いつ対応できるかは

未定です。お急ぎの場合は商用サポートにご相談していただくのが良いかと

思います。

(from osdn.net/users/youhei_nakagawa)
菅谷様

大変お世話になります。

ご返信ありがとうございます。

拙い Java の知識で以下のソースコードから jar ファイルを生成して

/webapps/fess/WEB-INF/lib/s2-robot-0.5.8.jar を差し替えるだけということを行ってみました。

https://www.seasar.org/svn/sandbox/s2robot/tags/s2robot-0.5.8/

しかし「…Initializing DBFlute components」という処理から先に進まなくなり何が原因か掴みかねている状況です。

こちら何かヒントになるようなことがございましたらアドバイス頂けると幸いです。

またソースコードから Eclipse を使いコンパイルしているのですが手順は

に記載されている方法とほぼ一緒の事を行っております。

build path は、

s2-robot/src/main/java

s2-robot/src/main/resources

の2つのディレクトリに対してのみとなっています。

よろしくお願いいたします。

・fess_crawler.out

2013-10-22 22:17:42,782 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-frameworkのバージョンは2.4.46です。

2013-10-22 22:17:42,783 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-extensionのバージョンは2.4.46です。

2013-10-22 22:17:42,784 [main] INFO org.seasar.framework.container.factory.SingletonS2ContainerFactory - s2-tigerのバージョンは2.4.46です。

2013-10-22 22:17:45,068 [main] INFO jp.sf.fess.db.allcommon.DBFluteInitializer - …Initializing DBFlute components

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(defaultHttpParams)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(params)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(connectionBackoffStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(backoffManager)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(reuseStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(keepAliveStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,449 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(httpRequestRetryHandler)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(redirectHandler)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(redirectStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(targetAuthenticationHandler)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(targetAuthenticationStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(proxyAuthenticationHandler)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(proxyAuthenticationStrategy)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(cookieStore)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(credentialsProvider)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(routePlanner)が見つからないので設定をスキップします

2013-10-22 22:17:45,450 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.apache.http.impl.client.DefaultHttpClientのプロパティ(userTokenHandler)が見つからないので設定をスキップします

2013-10-22 22:17:45,474 [main] WARN org.seasar.framework.container.assembler.BindingTypeShouldDef - org.codelibs.solr.lib.server.interceptor.PreemptiveAuthInterceptorのプロパティ(authScheme)が見つからないので設定をスキップします

2013-10-22 22:17:46,315 [main] INFO org.seasar.robot.db.allcommon.DBFluteInitializer - …Initializing DBFlute components

(from osdn.net/users/shinsuke)
fess.outにプロセスが終了した理由が書いてあるように思います。