拡張子が長いテキストファイル

プログラムソースの検索lでfessを導入しているのでが、拡張子が長いテキストファイルの場合にファイル名のインデックスが作成されますが、本文(content)はインデックスが作成されてません。

debugで確認するとmimeタイプはapplication/octet-streamでした。
この場合にtext/plainとして検索させる方法はありますでしょうか

例 xxxx.makefile で特定のフォルダのみmakefileだけでなく様々な拡張子で格納されてます。

fess 14.10.0 ,opensearch 2.9.0を使用

拡張子が長いテキストファイル名というのはどのようなものでしょうか?


xxxx.makefile のmakefileになります。一般的な拡張子ではありません。

ファイル名と中身をみて、mimeタイプが決まるのですが、application/octet-streamとなると、contentが空になるのは正しい挙動だと思うので、直近では設定とかでは対応できないと思います。将来のバージョンでは、ファイル名でmimeタイプを調整できるような設定を考えようと思います。

ご回答ありがとうございます。
検索対象のファイルがeuc-jpで保存されており、utf-8に変換するとcontextが表示されました。
試しにs-jisに変換するとeuc-jpと同様にNGになりました。
検索対象をeuc-jpとするといった設定はありませんででしょうか

fess_config.propertiesのcrawler.crawling.data.encoding=UTF-8だったような気もします。

ご教示頂いた通り
crawler.crawling.data.encoding=EUC-JP
とするとログファイル上でencondig=EUC-JPで設定されているのは
確認できましたが、content-eoncoding=UTF-8となりcontentは出力されず
変わりませんでした。

ファイル単位でなくクローラのファイルシステムの設定画面のdescriptionで設定できれば良いと思いました。

要望になってすみません。

webクロールの場合、設定パラメーター欄に
crawler.crawling.data.encoding=euc-jp
と設定するとファイルシステムクロールでは検索されないファイルの中身も検索されました。

出来ればファイルシステムクロールでも同一仕様にして頂きたい。

設定パラメーター欄にcrawler.crawling.data.encoding=euc-jp

fess_config.propertiesの設定なので、設定パラメーターでは参照されてないと思います。
なので、Webクロール時に取得できる情報を元に自動判定でうまく処理できているだけだと思います。

先日、SJIS,UTF-8,EUCのファイルがあるフォルダにクロールした際に、
未設定の場合にはSJIS,UTF-8がINDEXが作成され、EUCを指定するとEUCのみクロールされたのですが、本日、別の同様のフォルダに実施してみたのですが、再現できませんでした。

それで書き込みをさせて頂きました。
それにしてもEUCだとクロールされないことが多いです。

Webクロールであれば、そのテキストファイルが置いてあるWebサーバーがContent-Typeヘッダーにcharsetで指定していれば、それが利用されると思います。そのような参考にできる情報がなければ、世界中のエンコーディングの中から自動判定になると思うので、そのファイルの中身等により結果は変わると思います。

社内のsubversionになりますので、「世界中のエンコーディングの中から自動判定になると思うので、そのファイルの中身等により結果は変わると思います。」は利用されないと言うことになりますね。

Content-Typeヘッダー
subversionでファイル単位に変更は出来るようで、そちらで対応は可能かもしれませんが、
svnの変更ログが追加されてしまい実際利用できないかもしれません。