下記設定ガイドを参考にファイル種類別のクロールファイルサイズ上限を設定しようとしているのですが、設定の書式を調べても詳細がみつからず困っております。
ファイルの種類ごとの制限 < クローラ関連の設定 (codelibs.org)>
やりたい事は、Word/PowerPoint/PDFの場合は500MB、HTMLはデフォルトを維持して2.5MB、それ以外は100MBという設定です。
defaultMaxLengthに"100MB"を設定して、“addMaxLength"にWord/PowerPoint/PDFは"500MB”、HTMLは"2.5MB"の設定をすればよいかと考えているのですが
この様な設定をする場合、contentlength.xmlにどういった表記をすれば良いでしょうか?
また、defaultMaxLengthの設定サイズ以上をaddMaxLengthに設定してもインデクシングされないのでは?という疑問も別途湧いたのですが、詳細情報がみつからず不明な状況です。
お手数ですがこれらについてご教示いただきたく、よろしくお願い致します。
<postConstruct name="addMaxLength">
<arg>"text/html"</arg>
<arg>2621440</arg><!-- 2.5M -->
</postConstruct>
のような感じで、MIMEタイプごとに追加すれば良いと思います。うまく行かない場合は、デバッグログなどで確認すると良いと思います。
あと、そもそもなところだと、巨大なテキストを単純にインデクシングすると、パフォーマンスは劣化すると思うので、おすすめはしません。商用サポートでそのような要件がある場合には、状況を見ながら、適切にチューニングすることになるので…。
shinsuke様
いつもお世話になっております、ご回答ありがとうございます。
>巨大なテキストを単純にインデクシングすると、パフォーマンスは劣化すると思うので、おすすめはしません。
ヒープサイズの割り当てサイズを拡張した上で、クロール対象のサイズに合わせて上記設定でクロールを試みようとしておりましたが、パフォーマンス劣化といった課題が考えられるのですね。。。
ご助言ありがとうございます。
ファイル毎の上限サイズは見直そうと思うのですが、ファイル別の上限設定についてだけもう少しお教えいただけませんでしょうか?
MIMEタイプ別に下記設定を試してみたのですが、FESS起動時に”contentlength.xml”で”Failed to initialize the container.”が発生する状況でした。
<?xml version="1.0" encoding="UTF-8"?>
<component name="contentLengthHelper"
class="org.codelibs.fess.crawler.helper.ContentLengthHelper" instance="singleton">
<property name="defaultMaxLength">104857600</property><!-- 100M -->
<postConstruct name="addMaxLength">
<arg>"text/html"</arg>
<arg>2621440</arg><!-- HTML 2.5M -->
</postConstruct>
<postConstruct name="addMaxLength">
<arg>"application/pdf"</arg>
<arg>524288000<U+202C></arg><!-- PDF 500M -->
</postConstruct>
<postConstruct name="addMaxLength">
<arg>"application/msword"</arg>
<arg>524288000</arg><!-- WORD doc 500M -->
</postConstruct>
<postConstruct name="addMaxLength">
<arg>"application/vnd.openxmlformats-officedocument.wordprocessingml.document"</arg>
<arg>524288000</arg><!-- WORD docx 500M -->
</postConstruct>
<postConstruct name="addMaxLength">
<arg>"application/vnd.ms-powerpoint"</arg>
<arg>524288000</arg><!-- PowerPoint ppt 500M -->
</postConstruct>
<postConstruct name="addMaxLength">
<arg>"application/vnd.openxmlformats-officedocument.presentationml.presentation"</arg>
<arg>524288000</arg><!-- PowerPoint pptx 500M -->
</postConstruct>
</component>
初歩的な質問で恐縮なのですが、この記述はshinsuke様の想定されているものと一致しておりますでしょうか?
お気づきの点などございましたらご助言いただけますと幸いです。
内容的には良さそうに見えます。U+202Cの変な文字が入っているようなので、それが問題になっていたりしないでしょうか?
shinsuke様
エディター上では気づいておりませんでしたが、確かにU+202Cという意図しない文字コードが入っています!
これが原因だったように思いますので、修正して再度試してみようと思います。
取り急ぎで恐縮ですが、お礼まで。