インデックス生成時に空になる値がある

お世話になっております。

現在fess-ds-sharepoint14.11を利用してクロールを実施する際に以下のようなスクリプトでクロールを実施しています。

url=url
host=host
site=site
title=title
content=content
digest=digest
content_length=content.length()
last_modified=last_modified
created=created
timestamp=last_modified
mimetype=mimetype
filetype=filetype

結果インデックスは生成されるのですが、生成されたインデックスに一部"content_length"と"digest"が空になるものがあります。

以下エビデンスに使用した画像ファイル

他に.txtファイルや.xlsxファイル、.docsファイル等でも同事象が確認できております。

こちらの事象に関して、解決策をご教示頂けないでしょうか?

debugレベルのログにして、対象のファイルのクロールのところのログを見ると良いと思います。

お返事ありがとうございます。

DEBUGログ等確認して本事象の調査を進めた所、テキストファイルにおいてはSJISの場合にcontent_length等のパラメータが空になることが判明しました。

また、実際のテキストファイルのサイズとcontent_lengthの値を確認すると一致しておらず、UTF-8で中身がひらがな1文字なので、3バイトのはずのファイルもcontent_lengthを1バイトで取得しています。

中身の文字数1文字につき1バイトずつcontent_lengthが増えているように見受けられるのですがこれらの挙動は仕様なのでしょうか…?

content_length=content.length()

で指定しているようですので、文字列の長さが1が入っています。それらの値は、どのようにクロール設定を指定しているのか?によります。バイトにしたいのであれば、 getBytes(“UTF-8”).lengthとかみたいな感じで指定するとかだと思います。

ありがとうございます。

ご教示頂いた方法を実施した結果、テキストファイルに関しては期待の結果を取得することができましたがExcelファイルや画像ファイル等は異なるファイルサイズやそもそも取得できないので解決には至っていない状況です。

期待する結果としてはファイルのサイズそのもの取得したいのですが、これを実現する方法はございますか?

ざっと見た感じだと、fess-ds-sharepointをちょっと修正しないと、ファイル自体のサイズは取れないと思います。そのうち、時間があるときに対応することを考えます。

なるほど…
承知しました、お返事ありがとうございます。