(from osdn.net/users/cheehero)
MacOS X 上で Fess 8.1.0 を使用しています。
ファイルシステムクロールを実行した場合、.html ファイルは HTML 中の がタイトルとして表示されますが、.shtml の場合はファイル名となります。
どこかに特定の拡張子を HTML として扱うよう設定できるところはないかと探しましたが、わかりませんでした。
もし shtml ファイルでも html ファイル同様にタイトルを取得させることが可能でしたら方法をご教示ください。
(SSI で外部ファイルを取り込まない状態でクロールされた方が、余計な情報が入らず都合がいいので、ウェブクロールではなくファイルシステムクロールを使ってインデックスに追加できればと考えています。)
よろしくお願いいたします。
(from osdn.net/users/shinsuke)
ファイルシステムクロールにすると、shtmlに限らず、fessXpathTransformerが利用されなくなるので
htmlもタイトルは表示されないと思います。(ファイル名になると思います)
ファイルシステムクロールでfessXpathTransformerを通せばタイトルが出るようになるかと思いますが、
たとえば、webapps/fess/WEB-INF/classes/s2robot_rule.diconでwebHtmlRuleの
<initMethod name="addRule">
<arg>"url"</arg>
<arg>"http[s]?:.*"</arg>
</initMethod>
の部分をコメントアウトすると、ファイルシステムクロールでもHTMLをXPathで
処理するようになります。ただし、この場合、HTMLのリンクも処理されるので
ファイルシステムクロールでもリンクをたどることになります。ですので、
ファイルシステムクロール設定の「クロール対象とするパス」でfile:.*などを
設定して、外部にいかないようにする必要があるかと思います。