ウェブのクロールで、同一ファイルに対して2回ずつのアクセスが発生しているのですが、どういった理由が考えられるでしょうか? クロール対象のほぼ全てのファイル(数千ファイル)に対して2回ずつのアクセスが発生しています。
「/」と「index.html」にそれぞれアクセスなら分かるのですが、「test.html」「sample.pdf」といったファイル名が付いているものへのアクセスも2回となっています。
クロール先(apache)のアクセスログを確認したところ、上記の事象が確認できました。連続してアクセスされているわけではなく、数十秒から数分程度経過してから同一ファイルにアクセスが発生しています。どちらのアクセスでも応答コードは200で成功しています。そして3回アクセスされることはありません。
クロールの時間が倍増する計算なのでちょっと悲しい感じです。
FESSの環境は以下の通りです。
FESS 13.13.1
Elasticsearch 7.13.3
RedHat Enterprise Linux 8.3
ウェブクロールの主な設定は以下の通りです。
URL:http://www.example.jp/
クロール対象とするURL:http://www.example.jp/.*
クロール対象から除外するURL:「.*.png$」など拡張子を多数登録。
検索対象とするURL:空欄
検索対象から除外するURL:空欄
設定パラメーター:空欄
深さ:空欄
最大アクセス数:空欄
スレッド数:1
間隔:1000ミリ秒
ブースト値:1.0
よろしくお願いいたします。