Windowsサーバーのファイルクロールにおいて、下記のような内容でクロールを実施したところ
fess-crawler.logに2回同じファイルパスをクロールしている箇所が散見されました。
クロール対象のファイル数は65000強です。
<クロール設定>
・パス:
smb://servernm/001_フォルダA/■001_xxx(201012~)/
・クロール対象とするパス:
./$
..pptx$
.*.PPTX$
(以下略、複数のファイル拡張子を指定しています)
・スレッド数:5
・間隔:1000ミリ秒
・ブースト値:1.0
・パーミッション:{role}guest
※その他、クロール対象から除外するパス・検索対象とするパス・検索対象から除外するパス等は未設定
同時刻に平行実施していたジョブはありません。
気付いた点としては、1回目と2回目のCrawling URL行を比較すると、処理されたスレッドが異なっているようでした。
( [Crawler-s6sP7IEBIbI26gy_e8NQ-1-2] と[Crawler-s6sP7IEBIbI26gy_e8NQ-1-4]というのが、スレッド情報を表していると考え、その様に考えました)
1回目のCrawling URL行
2022-07-21 21:39:41,411 [Crawler-s6sP7IEBIbI26gy_e8NQ-1-2] INFO Crawling URL: smb://servernm/001_フォルダA/■001_xxx(201012~)/(略)/xxx.xlsx
2回目のCrawling URL行
2022-07-22 03:03:14,060 [Crawler-s6sP7IEBIbI26gy_e8NQ-1-4] INFO Crawling URL: smb://servernm/001_フォルダA/■001_xxx(201012~)/(略)/xxx.xlsx
このような現象は通常のクロール処理で想定されている動きになるのでしょうか?
もしくは設定に不備があるなど、何等かの原因が考えられるものなのでしょうか?
お手数ですがご教示いただきたく、よろしくお願い致します。