ドキュメント名が英単語のみのファイルがうまくクロールされない

(from osdn.net/users/None)
いつもお世話になっております。

共有サーバにテストフォルダを作成し、普段使用しているExcelファイルやpdfファイルとともに
・test1.txt
・test2.doc
・test3.pdf

という要領でテストファイルを格納したところ、「test」というワードではヒットせず、「test*」とアスタリスク付きで検索したらヒットしました。

これはどういった挙動になるのでしょうか。英単語のみで検索された場合は正規表現を考慮する、といった場合分けが必要となるのでしょうか。

転置インデックスなので、Fessのデフォルトでは、
英語は単語単位、日本語はbi-gramと形態素のハイブリッドの
索引ができています。英数字は単語単位になるので、
test1, test2, test3が単語として登録されていると思いますが
それでtestの単語を検索しても索引にないのでヒットしないです。
なので、test*で前方一致検索にすることで索引にヒットする
ようになります。

LuceneやElasticsearchの知識が必要になりますが、
fess.jsonを編集することで索引の作り方を
カスタマイズすることができます。

2 Likes