クローラを動作させるとIndexUpdaterが繰り返し動き続ける

Ubuntu 22.04.1 LTS へdebパッケージにて以下インストールした環境です
elasticsearch/stable,now 8.4.3 amd64
fess/now 14.4.0 all

ファイルサーバをクロールさせた際に、fess-crawler.logに延々以下のログを出力し続け、処理が終わらない状況です。(ドキュメント数は7ファイル)
丸1日経過しても状況が変わらずクロールジョブが終了しません。

2022-10-12 13:44:42,863 [IndexUpdater] INFO Sent 133 docs (Doc:{process 265ms, send 506ms, size 1MB}, Mem:{used 182MB, heap 1GB, max 6GB})
2022-10-12 13:44:42,878 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 13ms}, Mem:{used 183MB, heap 1GB, max 6GB})
2022-10-12 13:44:42,913 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 3ms, cleanup 12ms}, Mem:{used 186MB, heap 1GB, max 6GB})
2022-10-12 13:44:42,957 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 3ms, cleanup 15ms}, Mem:{used 190MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,012 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 4ms, cleanup 17ms}, Mem:{used 193MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,054 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 12ms}, Mem:{used 197MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,088 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 12ms}, Mem:{used 201MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,115 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 11ms}, Mem:{used 140MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,141 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 12ms}, Mem:{used 144MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,171 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 1ms, cleanup 15ms}, Mem:{used 147MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,197 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 9ms}, Mem:{used 151MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,222 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 10ms}, Mem:{used 155MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,246 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 10ms}, Mem:{used 159MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,271 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 10ms}, Mem:{used 163MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,295 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 9ms}, Mem:{used 166MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,321 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 11ms}, Mem:{used 170MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,348 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 12ms}, Mem:{used 174MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,378 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 12ms}, Mem:{used 177MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,406 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 1ms, cleanup 13ms}, Mem:{used 181MB, heap 1GB, max 6GB})
2022-10-12 13:44:43,438 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 3ms, cleanup 17ms}, Mem:{used 185MB, heap 1GB, max 6GB})

クローラの設定は
パス smb://NASのIP/共有ポイント/ディレクトリ階層1/ディレクトリ階層2/ディレクトリ階層3/
という設定のみです

マウントできるように ファイル認証設定を入れています
※ドキュメントを拾えているのでマウントは出来ている様です。

実際クロール対象のドキュメントが検索結果に表示されている為クロール自体は出来ていそうなのですが上述の通りcleanupが延々完了しません。
クロールログをデバッグモードへ変更するものの特段エラーらしいエラーは発見できておらず以下の内容が若干気になる程度です

2022-10-12 13:53:01,971 [IndexUpdater] DEBUG set ja to lang field
2022-10-12 13:53:01,971 [IndexUpdater] DEBUG add content_ja field
2022-10-12 13:53:01,971 [IndexUpdater] DEBUG add title_ja field
2022-10-12 13:53:01,971 [IndexUpdater] DEBUG Added the document(9KB, 2ms). The number of a document cache is 63.
2022-10-12 13:53:01,971 [IndexUpdater] DEBUG The number of an added document is 19215.

本件のような事象について何か情報はございませんでしょうか?
調査の手がかりがなく手づまりの状況です。

なお同じNASを
CentOS Linux release 7.3
fess-11.2.0-1.noarch
elasticsearch-5.4.1-1.noarch
からクロールさせておりますが特に問題は出ておらずファイルサーバ側に
問題はないのではないか?と推測しています。

ログからは、INFO Sent 133 docs とログがあり、7/7 が 19セット出ているので、循環しているように見えました。

fess-urls.log も確認に役に立ちます。
本当に7ファイルだけならば、url:smb://~ child_urls:7 がひとつだけとなるはずです。
同様の現象は経験したことはありませんが、シンボリックリンクなどありませんか?

ファイルクローラーの深さを1にして改善するか、念のため確認をお勧めします。

コメントありがとうございます。

当該フォルダには以下(Officeのファイル中心に)7ファイル保存されており、
シンボリックリンクやWindowsのショートカットなども無いフォルダとなっておりました。
※ファイル名はダミーです

サイズ ファイル名.拡張子
2.3M ZZZZZZZZZZZZZ.ppt
2.5M XXXXXXXXXXXXX.ppt
192K YYYYYYYYYYYYY.ppt
700K AAAAAAAAAAAAA.ppt
92K Thumbs.db
24K BBBBBBBBBBBBB.xlsx
2.4M CCCCCCCCCCCCC.ppt

実際クローラは以下で動作させたい為、実際の運用では
深さを制限しづらい状況におります。
「パス smb://NASのIP/共有ポイント/ディレクトリ階層1/」
現状クローラーが前述の通り終了しないため、サブフォルダの
無いフォルダを指定して検証を行っておりました。

切り分けの為更に深さを変更しての動作検証を行ってみたいと思います。

また結果わかりましたら共有させていただこうと思います

対象深さを「1」に指定してクローラを動作させてみましたが、挙動に変化はありませんでした。

debugログに以下出ておりましたので深さ1は認識していると思われます

2022-10-12 16:29:41,352 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:1,“successful”:1,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:1,“relation”:“eq”},“max_score”:1.0,“hits”:[{“_index”:“fess_config.file_config”,“_id”:“XXXXXXXXXXXXXXXXXXX”,“_seq_no”:4,“_primary_term”:1,“_score”:1.0,“_source”:{“updatedTime”:1665558898544,“virtualHosts”:[],“updatedBy”:“admin”,“configParameter”:“”,“available”:true,“numOfThread”:1,“depth”:1,“createdBy”:“admin”,“paths”:"smb://NASのIP/共有ポイント/ディレクトリ階層1/ディレクトリ階層2/ディレクトリ階層3/

なお循環は19回で終わるわけではなく、丸1日以上走り続けるという状況です。
デバッグログをひとまとめ開示できればよいのですがそれも難しい状況です。

手がかりはないものの調査を継続したいと思います。
チェックすべきポイントやご指摘などございましたら情報いただけますと幸いです

indexUpdater.java のソースを見ると、getAccessResultList で ES から取得している arList がずっと7になっている問題な気がしますが、その発生原因と、どのインデックスをクリアすれば復旧できるは分かりませんでした。

1 Like

現象切り分けの為、以下バージョンで検証環境を構築して試行してみました
※OSをUbuntu 22.04.1 LTS→AlmaLinux release 9.0に変えて他をそろえました

AlmaLinux release 9.0 (Emerald Puma)
elasticsearch-8.4.3-1.x86_64
fess-14.4.0-1.noarch+openjdk 17.0.4.1 2022-08-12 LTS

Ubuntuの環境と全く同じ事象が発生しており、同じ問題を踏むようです。
またファイルサーバの対象フォルダにあるファイル7つを、AlmaLinux9のローカルディスク
/var/work/tmp/ へコピーした上で、クロールターゲットを
file:/var/work/tmp/
としてクローラーを動作させましたが、まったく同じ事象が発生しcleanupが実行されたまま
止まらないという状況になります。

引き続き調査してまいります(涙)

Docker ですが、公式イメージの以下組み合わせで問題は起きていません。
FESS 14.4.0
Elasticsearch 8.3.3

すみません、ES を上げての確認はまだしていません…

1 Like

Elasticsearch側のログには何も出ていないでしょうか?
クロールした結果はインデックスするためにキューしているのですが、IndexUpdaterをそこから取得して、Elasticsearchに贈ります。7/7は、Elasticsearchへ送信する予定のドキュメントが7件あって、7件を送信しようとしています。なので、Processing 7/7 docsから次のProcessing 7/7 docsまでのデバッグログがあると、もう少し分かるような気もします。

1 Like

コメントありがとうございます

Elasticsearch側のログはgc.logのみ伸びており以下の内容を繰り返しています
(IndexUpdater処理1回ごと?)

[2022-10-12T20:31:05.865+0000][34319][gc,start ] GC(18842) Pause Young (Normal) (G1 Evacuation Pause)
[2022-10-12T20:31:05.865+0000][34319][gc,task ] GC(18842) Using 8 workers of 8 for evacuation
[2022-10-12T20:31:05.865+0000][34319][gc,age ] GC(18842) Desired survivor size 310378496 bytes, new threshold 15 (max threshold 15)
[2022-10-12T20:31:05.869+0000][34319][gc,phases ] GC(18842) Pre Evacuate Collection Set: 0.2ms
[2022-10-12T20:31:05.869+0000][34319][gc,phases ] GC(18842) Merge Heap Roots: 0.2ms
[2022-10-12T20:31:05.869+0000][34319][gc,phases ] GC(18842) Evacuate Collection Set: 2.7ms
[2022-10-12T20:31:05.869+0000][34319][gc,phases ] GC(18842) Post Evacuate Collection Set: 1.1ms
[2022-10-12T20:31:05.869+0000][34319][gc,phases ] GC(18842) Other: 0.1ms
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) Age table with threshold 15 (max threshold 15)
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 1: 9385784 bytes, 9385784 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 2: 321256 bytes, 9707040 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 3: 397704 bytes, 10104744 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 4: 236680 bytes, 10341424 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 5: 115016 bytes, 10456440 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 6: 75712 bytes, 10532152 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 7: 144208 bytes, 10676360 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 8: 63616 bytes, 10739976 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 9: 112608 bytes, 10852584 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 10: 34728 bytes, 10887312 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 11: 26952 bytes, 10914264 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 12: 106560 bytes, 11020824 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 13: 976 bytes, 11021800 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 14: 1320 bytes, 11023120 total
[2022-10-12T20:31:05.869+0000][34319][gc,age ] GC(18842) - age 15: 68064 bytes, 11091184 total
[2022-10-12T20:31:05.869+0000][34319][gc,heap ] GC(18842) Eden regions: 1179->0(1180)
[2022-10-12T20:31:05.869+0000][34319][gc,heap ] GC(18842) Survivor regions: 4->3(148)
[2022-10-12T20:31:05.869+0000][34319][gc,heap ] GC(18842) Old regions: 299->299
[2022-10-12T20:31:05.869+0000][34319][gc,heap ] GC(18842) Archive regions: 2->2
[2022-10-12T20:31:05.869+0000][34319][gc,heap ] GC(18842) Humongous regions: 0->0
[2022-10-12T20:31:05.869+0000][34319][gc,metaspace] GC(18842) Metaspace: 131911K(135296K)->131911K(135296K) NonClass: 114972K(116736K)->114972K(116736K) Class: 16938K(18560K)->16938K(18560K)
[2022-10-12T20:31:05.869+0000][34319][gc ] GC(18842) Pause Young (Normal) (G1 Evacuation Pause) 5926M->1208M(7888M) 4.443ms
[2022-10-12T20:31:05.869+0000][34319][gc,cpu ] GC(18842) User=0.03s Sys=0.00s Real=0.00s
[2022-10-12T20:31:05.869+0000][34319][safepoint ] Safepoint “G1CollectForAllocation”, Time since last: 2927590647 ns, Reaching safepoint: 49275 ns, At safepoint: 4538631 ns, Total: 4587906 ns

Processing 7/7 docsから次のProcessing 7/7 docsまでのデバッグログから
ファイル名やらパス名やらファイル内の文字列やらを置換しました

まだ自身でも精緻には読み込めてないのと
Elasticsearch 8.3.3で再現しないということなのでバージョンを下げてみる検証も実施してみたいとおもいます

長いログで申し訳ありません。
投稿制限あるので2回に分けて投稿致します

2022-10-13 09:00:46,684 [eshttp] DEBUG <<< 文字列1",“encoding”:“UTF-8”}}}文字列2
2022-10-13 09:00:46,686 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,686 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,686 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,686 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,687 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,687 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,687 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt
2022-10-13 09:00:46,687 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,687 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,687 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,688 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,688 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999962489569122]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999941900826075]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999986878010914]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999998349177789]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999985405013574]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999962605713554]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999969347085507]]
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG detected lang:ja: HIGH (0.999997)(0.99999726) from ファイル内文字列1
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG set ja to lang field
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG add content_ja field
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG add title_ja field
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG Added the document(9KB, 5ms). The number of a document cache is 98.
2022-10-13 09:00:46,688 [IndexUpdater] DEBUG The number of an added document is 4221.
2022-10-13 09:00:46,689 [eshttp] DEBUG >>> POST http://localhost:9200/_bulk?timeout=1m&refresh=true
2022-10-13 09:00:46,689 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,689 [eshttp] DEBUG >>> {“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列3”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/x-tika-msoffice”,“createTime”:1665543052165,“executionTime”:67,“contentLength”:93696,“lastModified”:1565229562026}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列4”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“createTime”:1665543052345,“executionTime”:263,“contentLength”:24222,“lastModified”:1307322550000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列5”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052407,“executionTime”:358,“contentLength”:196608,“lastModified”:1412238829000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列6”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052450,“executionTime”:605,“contentLength”:2498048,“lastModified”:1296454926000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列7”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052452,“executionTime”:617,“contentLength”:2535424,“lastModified”:1417651909000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列8”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543053378,“executionTime”:108,“contentLength”:716800,“lastModified”:1369198765000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列9”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543053664,“executionTime”:213,“contentLength”:2347520,“lastModified”:1420611411000}

2022-10-13 09:00:46,718 [eshttp] DEBUG <<< {“took”:28,“errors”:false,“items”:[{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列3”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636950,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列4”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:878983,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列5”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636951,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列6”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636952,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列7”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:1757966,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列8”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:1757967,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列9”,“_version”:878984,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:878983,“_primary_term”:1,“status”:200}}]}
2022-10-13 09:00:46,718 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,719 [IndexUpdater] DEBUG Updated 7 access results. The execution time is 31ms.
2022-10-13 09:00:46,719 [IndexUpdater] DEBUG Getting documents in IndexUpdater queue.
2022-10-13 09:00:46,719 [eshttp] DEBUG >>> POST http://localhost:9200/fess_crawler.data/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,719 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,719 [eshttp] DEBUG >>> {“from”:0,“size”:10,“query”:{“bool”:{“filter”:[{“terms”:{“sessionId”:[“Crawl _ 1_Monday-1”],“boost”:1.0}},{“term”:{“status”:{“value”:0,“boost”:1.0}}}],“adjust_pure_negative”:true,“boost”:1.0}},“_source”:{“includes”:[“parentUrl”,“method”,“mimeType”,“sessionId”,“url”,“executionTime”,“createTime”,“contentLength”,“lastModified”,“ruleId”,“httpStatusCode”,“status”],“excludes”:[]},“sort”:[{“createTime”:{“order”:“asc”}}]}
2022-10-13 09:00:46,721 [eshttp] DEBUG <<< mLnBwdA",“_score”:null,“_source”:{“executionTime”:108,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053378,“contentLength”:716800,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1369198765000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053378]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列9”,“_score”:null,“_source”:{“executionTime”:213,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053664,“contentLength”:2347520,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1420611411000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053664]}]}}-1",“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“lastModified”:1307322550000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052345]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列5”,“_score”:null,“_source”:{“executionTime”:358,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052407,“contentLength”:196608,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1412238829000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052407]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列6”,“_score”:null,“_source”:{“executionTime”:605,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052450,“contentLength”:2498048,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1296454926000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052450]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列7”,“_score”:null,“_source”:{“executionTime”:617,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052452,“contentLength”:2535424,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1417651909000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052452]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列10
2022-10-13 09:00:46,721 [eshttp] DEBUG <<< mLnBwdA”,“_score”:null,“_source”:{“executionTime”:108,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053378,“contentLength”:716800,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1369198765000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053378]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列9”,“_score”:null,“_source”:{“executionTime”:213,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053664,“contentLength”:2347520,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1420611411000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053664]}]}}-1",“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“lastModified”:1307322550000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052345]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列5”,“_score”:null,“_source”:{“executionTime”:358,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052407,“contentLength”:196608,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1412238829000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052407]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列6”,“_score”:null,“_source”:{“executionTime”:605,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052450,“contentLength”:2498048,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1296454926000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052450]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列7”,“_score”:null,“_source”:{“executionTime”:617,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052452,“contentLength”:2535424,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1417651909000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052452]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列10
2022-10-13 09:00:46,721 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,721 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 2ms, cleanup 31ms}, Mem:{used 176MB, heap 1GB, max 6GB})
2022-10-13 09:00:46,721 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db
2022-10-13 09:00:46,721 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列3?realtime=true
2022-10-13 09:00:46,721 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,721 [eshttp] DEBUG <<< {”_index":“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列3”,“_version”:1,“_seq_no”:0,“_primary_term”:1,“found”:true,“_source”:{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:0,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/x-tika-msoffice”,“createTime”:1665543052165,“executionTime”:67,“contentLength”:93696,“lastModified”:1565229562026,“accessResultData”:{“transformerName”:“fessStandardTransformer”,“data”:“文字列11+文字列12”,“encoding”:“UTF-8”}}}
2022-10-13 09:00:46,721 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,722 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,722 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,722 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db”,“boost”:1.0}}}}
2022-10-13 09:00:46,722 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,722 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,722 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db
2022-10-13 09:00:46,723 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,723 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,723 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db”,“boost”:1.0}}}}
2022-10-13 09:00:46,723 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,723 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG ==> [DetectedLanguage[en:0.791623136209361]]
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG detected lang:en: MEDIUM (0.791623)(0.7916231) from Thumbs.db
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG set en to lang field
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG add content_en field
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG add title_en field
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG Added the document(4KB, 2ms). The number of a document cache is 99.
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG The number of an added document is 4222.
2022-10-13 09:00:46,723 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx
2022-10-13 09:00:46,723 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列4?realtime=true
2022-10-13 09:00:46,723 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,724 [eshttp] DEBUG <<< 文字列13
2022-10-13 09:00:46,724 [eshttp] DEBUG <<< 文字列14
2022-10-13 09:00:46,724 [eshttp] DEBUG <<< 文字列15
2022-10-13 09:00:46,724 [eshttp] DEBUG <<< 文字列16
2022-10-13 09:00:46,724 [eshttp] DEBUG <<< 文字列16
2022-10-13 09:00:46,724 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“boost”:1.0}}}}
2022-10-13 09:00:46,725 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,725 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,725 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,725 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“boost”:1.0}}}}
2022-10-13 09:00:46,726 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,726 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG ==> [DetectedLanguage[cy:0.9997874467658208]]
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG ==> [DetectedLanguage[cy:0.9937161741766043]]
2022-10-13 09:00:46,726 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG ==> [DetectedLanguage[cy:0.6936708762406257], DetectedLanguage[en:0.28791234724082077]]
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG ==> [DetectedLanguage[cy:0.991852223506131]]
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG detected lang:cy: MEDIUM (0.526589)(0.5265887) from ファイル内文字列3
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG ==> [DetectedLanguage[cs:0.4373705152899401], DetectedLanguage[sk:0.23456185063985782], DetectedLanguage[sv:0.22213240628009878]]
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG detected lang:cs: MEDIUM (0.437371)(0.4373705) from ファイル名2.xlsx
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG Added the document(11KB, 4ms). The number of a document cache is 100.
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG The number of an added document is 4223.
2022-10-13 09:00:46,727 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt
2022-10-13 09:00:46,727 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列5?realtime=true
2022-10-13 09:00:46,727 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,727 [eshttp] DEBUG <<< 文字列17
2022-10-13 09:00:46,727 [eshttp] DEBUG <<< 文字列17
2022-10-13 09:00:46,727 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,728 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,728 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,728 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,728 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,729 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,729 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt
2022-10-13 09:00:46,729 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,729 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,729 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,729 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,729 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,729 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt
2022-10-13 09:00:46,729 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999943307859696]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> [DetectedLanguage[zh-TW:0.9999907570266492]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> [DetectedLanguage[en:0.9999926353096457]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> [DetectedLanguage[en:0.999996139599265]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> [DetectedLanguage[en:0.9999971391892614]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999993253864883]]
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG detected lang:en: MEDIUM (0.428577)(0.42857653) from ファイル内文字列4
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG set en to lang field
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG add content_en field
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG add title_en field
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG Added the document(5KB, 3ms). The number of a document cache is 101.
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG The number of an added document is 4224.
2022-10-13 09:00:46,730 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt
2022-10-13 09:00:46,730 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列6?realtime=true
2022-10-13 09:00:46,730 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,731 [eshttp] DEBUG <<< 文字列18
2022-10-13 09:00:46,731 [eshttp] DEBUG <<< 文字列19
2022-10-13 09:00:46,731 [eshttp] DEBUG <<< 文字列19
2022-10-13 09:00:46,731 [eshttp] DEBUG Response in Memory

上記続きです

2022-10-13 09:00:46,731 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,731 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,731 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,732 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,732 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,732 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt
2022-10-13 09:00:46,732 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,732 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,732 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,732 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,732 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999948353529586]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[zh-TW:0.9999972997039325]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999996572801734]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999990601033895]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999997078107006]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999968417188263]]
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG detected lang:ja: MEDIUM (0.714662)(0.7146621) from ファイル内文字列5
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG set ja to lang field
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG add content_ja field
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG add title_ja field
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG Added the document(8KB, 3ms). The number of a document cache is 102.
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG The number of an added document is 4225.
2022-10-13 09:00:46,733 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt
2022-10-13 09:00:46,733 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列7?realtime=true
2022-10-13 09:00:46,733 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,734 [eshttp] DEBUG <<< 文字列20
2022-10-13 09:00:46,734 [eshttp] DEBUG <<< 文字列21",“encoding”:“UTF-8”}}}文字列22
2022-10-13 09:00:46,734 [eshttp] DEBUG <<< 文字列21",“encoding”:“UTF-8”}}}文字列22
2022-10-13 09:00:46,734 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,734 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,734 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,734 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,735 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,735 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,735 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt
2022-10-13 09:00:46,735 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,735 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,735 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,735 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,735 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,735 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999998070990687]]
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999950284354696]]
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> [DetectedLanguage[zh-TW:0.9999945034683557]]
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999941397676052]]
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999980601301577]]
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG detected lang:ja: MEDIUM (0.571439)(0.57143915) from ファイル内文字列6
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG set ja to lang field
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG add content_ja field
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG add title_ja field
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG Added the document(9KB, 3ms). The number of a document cache is 103.
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG The number of an added document is 4226.
2022-10-13 09:00:46,736 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt
2022-10-13 09:00:46,736 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列8?realtime=true
2022-10-13 09:00:46,736 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,737 [eshttp] DEBUG <<< 文字列23
2022-10-13 09:00:46,737 [eshttp] DEBUG <<< 文字列23
2022-10-13 09:00:46,737 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,737 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,737 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,737 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,738 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,738 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,738 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt
2022-10-13 09:00:46,738 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,738 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,738 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,738 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,738 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,738 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999993311075693]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999994059077211]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999929258950807]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> []
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[zh-TW:0.9999945483709678]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999921774955802]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999991813327694]]
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG detected lang:ja: ファイル内文字列2
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG set ja to lang field
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG add content_ja field
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG add title_ja field
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG Added the document(5KB, 3ms). The number of a document cache is 104.
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG The number of an added document is 4227.
2022-10-13 09:00:46,739 [IndexUpdater] DEBUG Indexing smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt
2022-10-13 09:00:46,739 [eshttp] DEBUG >>> GET http://localhost:9200/fess_crawler.data/_doc/Crawl+_+1_Monday-1.文字列9?realtime=true
2022-10-13 09:00:46,739 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,740 [eshttp] DEBUG <<< 文字列24
2022-10-13 09:00:46,740 [eshttp] DEBUG <<< 文字列25文字列2
2022-10-13 09:00:46,740 [eshttp] DEBUG <<< 文字列1",“encoding”:“UTF-8”}}}文字列2
2022-10-13 09:00:46,740 [eshttp] DEBUG <<< 文字列1",“encoding”:“UTF-8”}}}文字列2
2022-10-13 09:00:46,740 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,740 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.click_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,740 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,740 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,741 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,741 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,741 [IndexUpdater] DEBUG Click Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt
2022-10-13 09:00:46,741 [eshttp] DEBUG >>> POST http://localhost:9200/fess_log.favorite_log/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,741 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,741 [eshttp] DEBUG >>> {“query”:{“term”:{“url”:{“value”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“boost”:1.0}}}}
2022-10-13 09:00:46,741 [eshttp] DEBUG <<< {“took”:0,“timed_out”:false,“_shards”:{“total”:5,“successful”:5,“skipped”:0,“failed”:0},“hits”:{“total”:{“value”:0,“relation”:“eq”},“max_score”:null,“hits”:[]}}
2022-10-13 09:00:46,741 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,741 [IndexUpdater] DEBUG Favorite Count: 0, url: smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999962489569122]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999941900826075]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999986878010914]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999998349177789]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999985405013574]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999962605713554]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG ==> [DetectedLanguage[ja:0.9999969347085507]]
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG detected lang:ja: HIGH (0.999997)(0.99999726) from ファイル内文字列1
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG set ja to lang field
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG add content_ja field
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG add title_ja field
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG Added the document(9KB, 3ms). The number of a document cache is 105.
2022-10-13 09:00:46,742 [IndexUpdater] DEBUG The number of an added document is 4228.
2022-10-13 09:00:46,742 [eshttp] DEBUG >>> POST http://localhost:9200/_bulk?timeout=1m&refresh=true
2022-10-13 09:00:46,742 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,742 [eshttp] DEBUG >>> {“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列3”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/Thumbs.db”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/x-tika-msoffice”,“createTime”:1665543052165,“executionTime”:67,“contentLength”:93696,“lastModified”:1565229562026}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列4”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“createTime”:1665543052345,“executionTime”:263,“contentLength”:24222,“lastModified”:1307322550000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列5”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052407,“executionTime”:358,“contentLength”:196608,“lastModified”:1412238829000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列6”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052450,“executionTime”:605,“contentLength”:2498048,“lastModified”:1296454926000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列7”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543052452,“executionTime”:617,“contentLength”:2535424,“lastModified”:1417651909000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列8”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543053378,“executionTime”:108,“contentLength”:716800,“lastModified”:1369198765000}
{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列9”,“version_type”:“internal”}}
{“sessionId”:“Crawl _ 1_Monday-1”,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“status”:9999,“httpStatusCode”:200,“method”:“GET”,“mimeType”:“application/vnd.ms-powerpoint”,“createTime”:1665543053664,“executionTime”:213,“contentLength”:2347520,“lastModified”:1420611411000}

2022-10-13 09:00:46,774 [eshttp] DEBUG <<< {“took”:31,“errors”:false,“items”:[{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列3”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636953,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列4”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:878984,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列5”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636954,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列6”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:2636955,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列7”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:1757968,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列8”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:1757969,“_primary_term”:1,“status”:200}},{“index”:{“_index”:“fess_crawler.data”,“_id”:“Crawl _ 1_Monday-1.文字列9”,“_version”:878985,“result”:“updated”,“forced_refresh”:true,“_shards”:{“total”:1,“successful”:1,“failed”:0},“_seq_no”:878984,“_primary_term”:1,“status”:200}}]}
2022-10-13 09:00:46,774 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,774 [IndexUpdater] DEBUG Updated 7 access results. The execution time is 32ms.
2022-10-13 09:00:46,774 [IndexUpdater] DEBUG Getting documents in IndexUpdater queue.
2022-10-13 09:00:46,775 [eshttp] DEBUG >>> POST http://localhost:9200/fess_crawler.data/_search?typed_keys=true&batched_reduce_size=512&max_concurrent_shard_requests=5&ccs_minimize_roundtrips=true
2022-10-13 09:00:46,775 [eshttp] DEBUG >>> Content-Type=application/json
2022-10-13 09:00:46,775 [eshttp] DEBUG >>> {“from”:0,“size”:10,“query”:{“bool”:{“filter”:[{“terms”:{“sessionId”:[“Crawl _ 1_Monday-1”],“boost”:1.0}},{“term”:{“status”:{“value”:0,“boost”:1.0}}}],“adjust_pure_negative”:true,“boost”:1.0}},“_source”:{“includes”:[“parentUrl”,“method”,“mimeType”,“sessionId”,“url”,“executionTime”,“createTime”,“contentLength”,“lastModified”,“ruleId”,“httpStatusCode”,“status”],“excludes”:[]},“sort”:[{“createTime”:{“order”:“asc”}}]}
2022-10-13 09:00:46,777 [eshttp] DEBUG <<< mLnBwdA",“_score”:null,“_source”:{“executionTime”:108,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053378,“contentLength”:716800,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1369198765000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053378]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列9”,“_score”:null,“_source”:{“executionTime”:213,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053664,“contentLength”:2347520,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1420611411000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053664]}]}}-1",“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“lastModified”:1307322550000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052345]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列5”,“_score”:null,“_source”:{“executionTime”:358,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052407,“contentLength”:196608,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1412238829000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052407]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列6”,“_score”:null,“_source”:{“executionTime”:605,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052450,“contentLength”:2498048,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1296454926000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052450]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列7”,“_score”:null,“_source”:{“executionTime”:617,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052452,“contentLength”:2535424,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1417651909000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052452]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列10
2022-10-13 09:00:46,777 [eshttp] DEBUG <<< mLnBwdA”,“_score”:null,“_source”:{“executionTime”:108,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053378,“contentLength”:716800,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1369198765000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名6.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053378]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列9”,“_score”:null,“_source”:{“executionTime”:213,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543053664,“contentLength”:2347520,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1420611411000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名1.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543053664]}]}}-1",“mimeType”:“application/vnd.openxmlformats-officedocument.spreadsheetml.sheet”,“lastModified”:1307322550000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名2.xlsx”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052345]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列5”,“_score”:null,“_source”:{“executionTime”:358,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052407,“contentLength”:196608,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1412238829000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名3.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052407]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列6”,“_score”:null,“_source”:{“executionTime”:605,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052450,“contentLength”:2498048,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1296454926000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名4.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052450]},{“_index”:“fess_crawler.data”,“id":"Crawl++1_Monday-1.文字列7”,“_score”:null,“_source”:{“executionTime”:617,“parentUrl”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/”,“method”:“GET”,“createTime”:1665543052452,“contentLength”:2535424,“sessionId”:“Crawl _ 1_Monday-1”,“mimeType”:“application/vnd.ms-powerpoint”,“lastModified”:1417651909000,“ruleId”:“defaultRule”,“url”:“smb://NASのIP/共有ポイント/階層1/階層2/階層3/ファイル名5.ppt”,“status”:0,“httpStatusCode”:200},“sort”:[1665543052452]},{“_index”:“fess_crawler.data”,"id":"Crawl++1_Monday-1.文字列10
2022-10-13 09:00:46,777 [eshttp] DEBUG Response in Memory
2022-10-13 09:00:46,777 [IndexUpdater] INFO Processing 7/7 docs (Doc:{access 3ms, cleanup 32ms}, Mem:{used 182MB, heap 1GB, max 6GB})

fess_config.propertiesでindexer.webfs.max.document.request.sizeを0にするなどを試してみると良いかもしれません。対象のファイルのテキストが小さいので、このサイズになるまで、ためている状態な気がするので。

1 Like

2022-10-13 09:00:46,774 [IndexUpdater] DEBUG Updated 7 access results. The execution time is 32ms.

で、直前の更新が反映されていないような動きにも見えるので、Elasticsearchが怪しいかもしれませんね。ElasticsearchがReadOnlyになっているなど。

1 Like

コメントありがとうございます。

elasticsearch/stable,now 8.4.3で
indexer.webfs.max.document.request.size を0と設定してみましたが事象は変化せずcleanup が止まらないままでした

またElasticsearchを8.3.3で環境再構築し、indexer.webfs.max.document.request.size を0と設定してみましたが事象は変化せずcleanup が止まらないままでした。

クロール対象のフォルダから、1ファイルだけをローカルディスクの別フォルダへコピーし、この1ファイルだけが保存されたフォルダをクロールさせても
INFO Processing 1/1 docs cleanup
を繰り返す挙動をしており、クロール対象の問題ではない様です。

おっしゃる通りElasticsearchがReadOnlyが怪しいとわたくしも感じたのですが
7ドキュメントほどのみをクロール試行しcleanup が止まらないという事象が発生しつつも
検索を入れると検索結果に表示されインデックスができており、まったくインデックス化していない
わけではなさそう、という状況です。

また時間を見つけ切り分け、検証を行いたいと思います。

JDKを入れ替えたり古い版へ入れ替えたりを繰り返していて

Ubuntu 22.04.1 LTS
elasticsearch/now 6.8.23 (java11)
fess/now 12.7.0 (java11)

だと事象が発生しません
FESSが13系(またはelasticsearchが7系)になると事象が出る様です
まだ原因特定に至っておりません 調査中です。。。

なぜ、elasticsearchに書き込めないかはわかりませんが、Docker版を利用していただくのが良いと思います。Docker版の方が謎の問題にハマることは少ないですし、Fessとしては、zip版やパッケージ版よりDocker版の利用を推進していますし。

1 Like

コメントありがとうございます

やはり新しい版に戻すと事象が発生し、回避できない状況が続いており
Docker ですが、公式イメージの以下組み合わせで問題は起きていないとのzolgearさんの
コメントも頂戴しておりましたのでDockerも試すべきかと思案しておりました。
FESS 14.4.0
Elasticsearch 8.3.3

Docker版の利用を推進と教えていただけましたので、パッケージ版に一旦見切りをつけDocker版へ切り替えてみたいと思います

Docker版で環境を構築してみましたが、同事象がDocker版でも発生いたしました。

以下で起動した環境ですが、事象はまったく同様です。

git clone GitHub - codelibs/docker-fess: Docker files for Fess
docker compose -f compose.yaml -f compose-elasticsearch8.yaml up -d
[+] Running 22/22
⠿ fess01 Pulled 20.1s
⠿ 675920708c8b Pull complete 7.6s
⠿ 74b551139104 Pull complete 8.0s
⠿ c290a58bcfd7 Pull complete 8.7s
⠿ 4d6bcabdde06 Pull complete 8.7s
⠿ 8c91084114dc Pull complete 17.3s
⠿ a3205c8a12b0 Pull complete 17.3s
⠿ 26d377d060e0 Pull complete 18.8s
⠿ 4f4fb700ef54 Pull complete 18.9s
⠿ dd5c54f5c1ec Pull complete 18.9s
⠿ es01 Pulled 26.2s
⠿ 2ec5bc8cf243 Pull complete 1.9s
⠿ e7a52014c641 Pull complete 2.1s
⠿ fe22b900b382 Pull complete 2.1s
⠿ 1f95ca3684dd Pull complete 24.2s
⠿ 2d6739673d83 Pull complete 24.2s
⠿ a7ed8e9af4ef Pull complete 24.3s
⠿ f39cca40e65f Pull complete 24.9s
⠿ 05f4cbaa0d4a Pull complete 24.9s
⠿ ce9edbaccd81 Pull complete 24.9s
⠿ 5cfa8618e4ee Pull complete 25.1s
⠿ 3f9f1a2a5b37 Pull complete 25.1s
[+] Running 5/5
⠿ Network compose_esnet Created 0.0s
⠿ Volume “compose_esdictionary01” Created 0.0s
⠿ Volume “compose_esdata01” Created 0.0s
⠿ Container fess01 Started 3.2s
⠿ Container es01 Started

どこに原因があるのか更に調査してまいりたいと思います(涙)

まだ裏どり中なのですが、どうもスケジューラのスクリプトでsessionIdの指定をしていると事象が発生するようだという事が分かってきました。

今少し検証して確証が得られましたらご報告したいと思います。

例 事象が出ます
return container.getComponent(“crawlJob”).logLevel(“info”).sessionId(“Monday”).fileConfigIds([“月曜日用ファイルクローラ設定のID”] as String[]).execute(executor);

例 おそらく事象が出ません(推測、裏どり中)
return container.getComponent(“crawlJob”).logLevel(“info”).fileConfigIds([“月曜日用ファイルクローラ設定のID”] as String[]).execute(executor);

1 Like