クローラーを実行してもインデックスが作成されない

お世話になります。

クローラーを実行させてもインデックス化できず、解決方法を模索中です。
ソースコードも確認したのですが、indexuppdaterの369行目のif文にて弾かれている事ぐらいしかわかりませんでした。
解決方法もしくはアドバイスを頂きたいです。

パス: smb1://[user]:[password]@[ip]/XXX/XXX/
クロール対象とするパス:smb1://[user]:[password]@[ip]/XXX/XXX/.*
検索対象とするパス: smb1://[user]:[password]@[ip]/XXX/XXX/.*

ファイル認証も試してみましたが、同様にインデックスサイズが0になりました。

環境

PC:	windows 10 pro
	Fess-14.2.0
	Elasticsearch-8.2.2
共有フォルダ:Windows NT 4.9 Server

crawler.log

2022-08-10 13:45:59,956 [Crawler-20220810134426-1-1] TRACE SmbComReadAndX[command=SMB_COM_READ_ANDX,received=false,errorCode=0,flags=0x0018,flags2=0xC803,signSeq=0,tid=1,pid=45689,uid=100,mid=16560,wordCount=12,byteCount=0,andxCommand=0xFF,andxOffset=0,fid=8317,offset=1490944,maxCount=8192,minCount=8192,openTimeout=-1,remaining=0,offset=1490944]
2022-08-10 13:45:59,956 [eshttp] DEBUG Response in Memory
2022-08-10 13:45:59,956 [Crawler-20220810134426-1-3] TRACE read: fid=8329,off=0,len=8192
2022-08-10 13:45:59,957 [Crawler-20220810134426-1-3] TRACE read: len=8192,r=8192,fp=262144
2022-08-10 13:45:59,957 [Transport1] TRACE SmbComReadAndXResponse[command=SMB_COM_READ_ANDX,received=false,errorCode=0,flags=0x0088,flags2=0xC803,signSeq=0,tid=1,pid=45689,uid=100,mid=16559,wordCount=12,byteCount=8192,andxCommand=0xFF,andxOffset=0,dataCompactionMode=0,dataLength=8192,dataOffset=59]
2022-08-10 13:45:59,957 [IndexUpdater] DEBUG Skipped. This document is not a index target.

他にもExceptionが発生していました。

2022-08-10 13:46:01,952 [Crawler-20220810134426-1-1] DEBUG Exception on SID processing.
jcifs.smb1.smb1.SmbException: The specified domain did not exist.
	at jcifs.smb1.dcerpc.msrpc.SamrDomainHandle.<init>(SamrDomainHandle.java:38) ~[jcifs-2.1.31.jar:?]
	at jcifs.smb1.smb1.SID.getGroupMemberSids(SID.java:622) ~[jcifs-2.1.31.jar:?]
	at org.codelibs.fess.crawler.client.smb1.SmbClient.processAllowedSIDs(SmbClient.java:386) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.client.smb1.SmbClient.processAccessControlEntries(SmbClient.java:368) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.client.smb1.SmbClient.getResponseData(SmbClient.java:263) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.client.smb1.SmbClient.processRequest(SmbClient.java:196) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.client.smb1.SmbClient.doHead(SmbClient.java:421) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.client.AbstractCrawlerClient.execute(AbstractCrawlerClient.java:132) [fess-crawler-14.2.0.jar:?]
	at org.codelibs.fess.crawler.FessCrawlerThread.isContentUpdated(FessCrawlerThread.java:85) [classes/:?]
	at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:148) [fess-crawler-14.2.0.jar:?]
	at java.lang.Thread.run(Thread.java:833) [?:?]
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2022-08-10 13:47:12,117 [eshttp] DEBUG Response in Memory
2022-08-10 13:47:12,118 [main] INFO  [CRAWL INFO] DataCrawlEndTime=2022-08-10T13:44:32.059+0900,CrawlerEndTime=2022-08-10T13:47:12.049+0900,WebFsCrawlExecTime=155649,CrawlerStatus=true,CrawlerStartTime=2022-08-10T13:44:32.001+0900,WebFsCrawlEndTime=2022-08-10T13:47:12.047+0900,WebFsIndexExecTime=109333,WebFsIndexSize=0,CrawlerExecTime=160049,DataCrawlStartTime=2022-08-10T13:44:32.033+0900,WebFsCrawlStartTime=2022-08-10T13:44:32.032+0900
2022-08-10 13:47:12,119 [main] DEBUG TimeoutManager stopped.
2022-08-10 13:47:12,119 [main] DEBUG Destroying LaContainer...
2022-08-10 13:47:12,119 [CoreLib-TimeoutManager] DEBUG Interrupted.
java.lang.InterruptedException: sleep interrupted
	at java.lang.Thread.sleep(Native Method) ~[?:?]
	at org.codelibs.core.timer.TimeoutManager.run(TimeoutManager.java:170) [corelib-0.5.5.jar:?]
	at java.lang.Thread.run(Thread.java:833) [?:?]
2022-08-10 13:47:12,123 [CoreLib-TimeoutManager] DEBUG TimeoutManagerThread stopped.
2022-08-10 13:47:12,124 [main] DEBUG cache stats: CacheStats{hitCount=0, missCount=0, loadSuccessCount=0, loadExceptionCount=0, totalLoadTime=0, evictionCount=0}
2022-08-10 13:47:12,127 [ThumbnailGenerator] DEBUG Interupted task.
java.lang.InterruptedException: null
	at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:1679) ~[?:?]
	at java.util.concurrent.LinkedBlockingQueue.poll(LinkedBlockingQueue.java:460) ~[?:?]
	at org.codelibs.fess.thumbnail.ThumbnailManager.lambda$init$0(ThumbnailManager.java:123) ~[classes/:?]
	at java.lang.Thread.run(Thread.java:833) [?:?]
2022-08-10 13:47:12,131 [main] DEBUG [http://localhost:9200][green] closing node manager.
2022-08-10 13:47:12,132 [main] INFO  Disconnected to http://localhost:9200
2022-08-10 13:47:12,133 [main] DEBUG [http://localhost:9200][green] closing node manager.
2022-08-10 13:47:12,135 [main] INFO  Destroyed LaContainer.

jcifs.smb1.smb1.SmbException: The specified domain did not exist.

JCIFS の例外から、NO_SUCH_DOMAIN が返ってきているのだと思います。

SMB プロトコル (445) のパケットログで、通信を確認されてはいかがでしょうか。

共有フォルダーが古いNAS? ドメインの設定、ユーザー認証の部分が正しいかどうかは、通信ログでの確認が適切です。

クロール対象とするパス、検索対象とするパスは、空にしましょう。
今の設定では、ip 部分の “.” (ドット) などが正規表現として扱われて、1件もマッチせず、クロール対象のファイルはゼロになります。

1 Like

クロール対象と検索対象を消してクローラーを稼働させるとインデックス化されました。
ありがとうございました。

ドメインの設定、ユーザー認証のパケットログについてはまだ知識不足のため、勉強しながら調査していきます。

丁寧なご返答頂きありがとうございました。

1 Like