お世話になります。
下記の現象につきまして、対処法・確認すべき点等ございますでしょうか。
発生している現象
- データストアクロール対象ディレクトリに CSV ファイルが存在しているが「CSV ファイル無し」と扱われる
- その際、過去のインデックスが削除されてしまう
- 再度、クロールを実行すると正常に処理される
環境
- Windows Server 2016
- Fess 13.9.3
- Elasticsearch 7.9.3
データストアのクロール設定
項目 | 設定値 |
---|---|
パラメーター | directories=C:/fess_crawl_list fileEncoding=windows-31j |
スクリプト | event_type=cell1 url=cell2 |
ブースト値 | 1.0 |
パーミッション | {role}guest |
状態 | 有効 |
CSV ファイル
data_store.csv
create,file:/C:/contents/www/dummy1.pdf
create,file:/C:/contents/www/dummy2.pdf
ログ
fess-crawler.log
クロール1回目のログ(抜粋)
2021-02-03 11:35:51,643 [20210203113538-1] INFO directories=C:/fess_crawl_list
2021-02-03 11:35:51,652 [20210203113538-1] WARN No CSV file.
2021-02-03 11:35:51,842 [20210203113538-1] INFO Deleted 7 old docs.
2021-02-03 11:35:56,612 [DataStoreCrawler] INFO [EXEC TIME] crawling time: 5055ms
クロール2回目のログ(抜粋)
2021-02-03 11:38:22,851 [20210203113809-1] INFO directories=C:/fess_crawl_list
2021-02-03 11:38:22,887 [20210203113809-1] INFO Loading C:\fess_crawl_list\data_store.csv
2021-02-03 11:38:24,080 [20210203113809-1] INFO Sent 2 docs (Doc:{process 78ms, send 232ms, size 8KB}, Mem:{used 152MB, heap 406MB, max 512MB})
2021-02-03 11:38:24,521 [20210203113809-1] INFO Deleted 0 old docs.
2021-02-03 11:38:27,731 [DataStoreCrawler] INFO [EXEC TIME] crawling time: 5010ms
補足
クロール設定のディレクトリパラメータを Windows のパス区切り(バックスラッシュ)に変更してみましたが、挙動に変化はございませんでした。
directories=C:\fess_crawl_list