クロール時(インデックス化時?)の文字化け

(from osdn.net/users/oginogino)
Fess 7.0.2を使っています。

検索文字列として「a」とか「b」といった英字1文字を検索すると

多数のページが検索結果に出てくるのですが

検索結果ページに表示されるサマリが文字化けしているページが

結構な数あることに気付きました。

これを改善する方法はないものでしょうか?

化けた状態でインデックス化されているようで

本来なら検索に引っかかって欲しい日本語の単語で検索をしても

そのページは検索結果に出てきません(英単語なら引っかかる)。

見た感じ、ほとんどは以下の条件のページが化けるようです。

・HTMLページ。

・metaタグでcharsetが指定されていない。

・文字コードはShift_JIS。

なお、このサイトのコンテンツは文字コードがEUC、Shift_JIS、UTF-8と

混在しているため、HTTPのContent-Typeヘッダではcharsetは指定されていません。

文字コードの取得(変換?)がうまくいかない時は

強制的にShift_JISとして扱えるだけでもだいぶ改善しそうなのですが。

よろしくお願いいたします。

(from osdn.net/users/shinsuke)
webapps/fess/WEB-INF/classes/s2robot_transformer.dicon で

<property name="defaultEncoding">"Shift_JIS"</property><!-- これを追加 -->

というようにdefaultEncodingを指定してみてはいかがでしょうか。

(from osdn.net/users/oginogino)
ありがとうございます。

設定を変更して、tomcatを再起動して、インデックスを全て削除して

クロールをし直して、から再度検索をしてみましたが

残念ながら状況が変わりませんでした。

ダメ元で、Shift_JISではなくMS932とWindows-31Jも記載してみましたが変化なし。

う~ん、HTMLファイル内にちゃんとcharsetを記載してもらうしかないですかねぇ。