PDFのファイルタイプの認識について

discuss · December 14, 2016, 11:53am

(from osdn.net/users/hasegawa3)
Fess10.3/Windows2012をインストールしました。
PDFファイルを対象にクロール設定を行い、検索結果が表示されるようになりました。
ただし、一部PDFファイルが「その他」として認識されてしまっています。
誤って認識してしまっているようなのですが、ファイルタイプの判定はどのように行われているのでしょうか。

discuss · December 15, 2016, 2:49pm

(from osdn.net/users/shinsuke)
Apache Tikaによりコンテンツなどから判断されています。
・誤認されたものにパターンなどはありますでしょうか？
・ウェブとファイルクロールのどちらでしょうか？
・URLまたはファイル名は～.pdfでしょうか？
・再現させたいのですが、ネット上などにあるファイルでしょうか？

discuss · December 20, 2016, 5:18pm

(from osdn.net/users/hasegawa3)
・誤認されたファイルですが、特にパターンはありません。
・ファイルクロールです
・ファイル名は、～.pdf です。
・PDFファイルですが、業務上の資料で開示できない内容となります。

ファイルタイプのみを後からPDFに手動変更することは可能でしょうか。

discuss · December 21, 2016, 6:24am

(from osdn.net/users/shinsuke)

ファイルタイプのみを後からPDFに手動変更することは可能でしょうか。

管理画面の検索から対象のドキュメントの結果を編集するか
Elasticsearchに大して、Update Requstを送るかかと思います。

discuss · December 21, 2016, 11:01am

(from hasegawa3's Profile - OSDN)
[メッセージ #79160 への返信]

ファイルタイプのみを後からPDFに手動変更することは可能でしょうか。

管理画面の検索から対象のドキュメントの結果を編集するか
Elasticsearchに大して、Update Requstを送るかかと思います。

ご回答頂き、ありがとうございます。
管理画面の検索から対象のドキュメントの結果を編集することで対応します。