現在 Docker 環境で Fess を構築し、運用しております。
基本的に、検索対象のデータは Fess コンテナがマウントしたネットワークストレージ上に保管しており、ローカルストレージを検索しているように見せております。
※設定上は /mnt/searchdata/XXXX を検索しております。
その中で、クロールした対象ディレクトリ内のデータがインデックスに登録されない事象が発生しており、調査についてご教授いただければと思います。
検索対象としたいデータだけをディレクトリ内にまとめているため、クローラの設定上は対象パスのみ設定しており、「クロール対象とするパス」や「クロール対象から除外するパス」などの設定は実施しておりません。
その状態でクローラが開始された際、以下のように、クローラのログにターゲットのパスが検索対象に挙がっていることを確認しました。
{"@timestamp":"2024-11-26T08:29:39.333Z","log.level": "INFO","message":"Target Path: file:///mnt/searchdata/targetpath/", "ecs.version": "1.2.0","service.name":"fess","event.dataset":"crawler","process.thread.name":"WebFsCrawler","log.logger":"org.codelibs.fess.helper.WebFsIndexHelper"}
しかし、その後同ディレクトリ内のデータをクローリングしている様子はなく、エラーが発生しないままクローラが終了している状態です。
パーミッションについては一律で設定しており、検索対象に挙がっているファイルがあるため問題無いと考えております。
また、「Crawling URL」、「Not modified URL」等が出力されていないため、そもそもクローリングの対象から除外されてしまっているのではないかと予想しております。
このような状態で、上記ディレクトリ内のファイルが検索対象に上がらない原因を見つけたいと考えているのですが、クローラがファイルを見つけられていないのか、見つけたけれどもインデックスの登録対象とみなしていないのかなど、原因となり得る事象や確認のきっかけとなるログ等ございましたらご教授いただけますでしょうか。