同一ファイルが2回クロールされる

ウェブのクロールで、同一ファイルに対して2回ずつのアクセスが発生しているのですが、どういった理由が考えられるでしょうか? クロール対象のほぼ全てのファイル(数千ファイル)に対して2回ずつのアクセスが発生しています。

「/」と「index.html」にそれぞれアクセスなら分かるのですが、「test.html」「sample.pdf」といったファイル名が付いているものへのアクセスも2回となっています。

クロール先(apache)のアクセスログを確認したところ、上記の事象が確認できました。連続してアクセスされているわけではなく、数十秒から数分程度経過してから同一ファイルにアクセスが発生しています。どちらのアクセスでも応答コードは200で成功しています。そして3回アクセスされることはありません。

クロールの時間が倍増する計算なのでちょっと悲しい感じです。

FESSの環境は以下の通りです。
FESS 13.13.1
Elasticsearch 7.13.3
RedHat Enterprise Linux 8.3

ウェブクロールの主な設定は以下の通りです。
URL:http://www.example.jp/
クロール対象とするURL:http://www.example.jp/.*
クロール対象から除外するURL:「.*.png$」など拡張子を多数登録。
検索対象とするURL:空欄
検索対象から除外するURL:空欄
設定パラメーター:空欄
深さ:空欄
最大アクセス数:空欄
スレッド数:1
間隔:1000ミリ秒
ブースト値:1.0

よろしくお願いいたします。

この手の問題の場合、http/httpsの違いだったり、クロール設定を複数登楼していたり、仮想ホストを設定したりと、設定の問題をよく聞きます。urlがユニークになっていないような場合が多いので、fess-crawler.log等で確認していただくのが良いと思います。

ご回答ありがとうございます。

設定を見直しても問題なさそうで困ってしまうのですが、ログを見てみると、クロール開始からしばらくの間は問題なく希望通りに動いていました。そしてあるタイミングから2回取得になっているようです。

そのタイミングのコンテンツをキーにもうちょっと調べてみたいと思います。