クロール設定について

(from osdn.net/users/osamu_tomi)
FESS 9.1.0を利用しておりますが、クロール設定について不明点がありますのでお教えください。

行いたいこと:
ファイル名もしくはパスに「検索対象外」のような特定キーワードがある場合に、検索対象から外したい。

ファイルシステムクロールの設定:
クロール対象から除外するパス、検索対象から除外するパスには、「.検索対象外.」と設定

この状態で、パスの設定をfile:/~とsmb://~を利用した時の挙動が異なります。

【質問事項】
1.パス設定をfile:/~としたときには、パス、ファイル名に「.検索対象外.」が含まれるとクロールの対象から外れますが、smb://~としたときにはクロールの対象から外れない状況となります。

2.クロール対象から除外するパス、検索対象から除外するパスには、「.nocrawl.」のように、パス設定を1バイトで定義すると、file:/~ではクロールの対象から外れますが、smb://~を設定した場合には、クロールの対象から外れるもの、外れないものがあります。

具体的には、パスの設定がすべて1バイトの場合には、対象から外れますが、1文字でも2バイト文字が含まれてしまうと、対象から外れない状況となります。
OKな例 smb://.../work/nocrawl/abc.txt
NGな例 smb://.../work/nocrawl/新規ドキュメント.txt

上記2つの挙動は、モジュールの仕様上正しい動きをしているものなのか、ご教授ください。

よろしくお願いします。

(from osdn.net/users/shatake)
https://github.com/codelibs/fess/issues/235
として課題をあげさせていただきました。
現状、クロール対象とするパスやクロール対象から除外するパスは
全てURLエンコードされますので、次回のリリースで対応したいと思います。

(from osdn.net/users/makiyama-shinji)
[メッセージ #75045 への返信]

additional rule of URLEncoding on file crawl · Issue #235 · codelibs/fess · GitHub
として課題をあげさせていただきました。
現状、クロール対象とするパスやクロール対象から除外するパスは
全てURLエンコードされますので、次回のリリースで対応したいと思います。

Fess10.3でもなおってないですが、本当に直したのでしょうか。
なおってないバージョンでも、日本語をURLエンコードして、クロール対象から除外するパスに記載すれば、除外されますか?

(from osdn.net/users/bon1999)
私も同様の現象が発生していました。
除外するパスに以下の様に記述すると大丈夫でした。

#DISABLE_URL_ENCODE
smb://.../share/日本語のフォルダ名/.*

因みに、URLエンコード(SJIS/ECU-JP/JIS/UTF-8)した値を記述してもダメでした。

(from osdn.net/users/makiyama-shinji)
[メッセージ #79128 への返信]

私も同様の現象が発生していました。
除外するパスに以下の様に記述すると大丈夫でした。

#DISABLE_URL_ENCODE
smb://.../share/日本語のフォルダ名/.*

因みに、URLエンコード(SJIS/ECU-JP/JIS/UTF-8)した値を記述してもダメでした。

設定欄に
#DISABLE_URL_ENCODE
とか書けるんですね!
ありがとうございます。

ちなみに
.“日本語”.
のように " " で囲むと日本語認識してくれるっぽいです。
でも「除外するパス」だけに、パスやファイル名に" " で指定した日本語が含まれている場合は弾いてくれますが、ファイルの中身に指定した日本語が含まれていると弾いてくれませんでした。

(from osdn.net/users/makiyama-shinji)
[メッセージ #79151 への返信]

ちなみに
.“日本語”.
のように " " で囲むと日本語認識してくれるっぽいです。
でも「除外するパス」だけに、パスやファイル名に" " で指定した日本語が含まれている場合は弾いてくれますが、ファイルの中身に指定した日本語が含まれていると弾いてくれませんでした。

すいません、 " " で囲むと日本語認識してくれると思ったのですが、改めて確認してみると怪しかったので、日本語指定の行の上にひとつずつ
#DISABLE_URL_ENCODE
を入れていった方が良さそうです。