discuss
1
(from osdn.net/users/None)
いつもお世話になっております。
共有サーバにテストフォルダを作成し、普段使用しているExcelファイルやpdfファイルとともに
・test1.txt
・test2.doc
・test3.pdf
…
という要領でテストファイルを格納したところ、「test」というワードではヒットせず、「test*」とアスタリスク付きで検索したらヒットしました。
これはどういった挙動になるのでしょうか。英単語のみで検索された場合は正規表現を考慮する、といった場合分けが必要となるのでしょうか。
転置インデックスなので、Fessのデフォルトでは、
英語は単語単位、日本語はbi-gramと形態素のハイブリッドの
索引ができています。英数字は単語単位になるので、
test1, test2, test3が単語として登録されていると思いますが
それでtestの単語を検索しても索引にないのでヒットしないです。
なので、test*で前方一致検索にすることで索引にヒットする
ようになります。
LuceneやElasticsearchの知識が必要になりますが、
fess.jsonを編集することで索引の作り方を
カスタマイズすることができます。
2 Likes