endo
1
fess-13.6.1を使用しています。
以下のように検索ワードが2行に跨るPDFをファイルクロールでクロールし、検索を行ったところヒットしませんでした。
検索ワード:管理者
本文
xxxxx管理
者xxxxxxx
なおこの本文はPDFの表示上2行に跨っているだけで、テキストファイルにコピー&ペーストすると
「xxxxx管理者xxxxxxx」のように1行で表示されます。
このようなPDFを複数行に跨る検索ワードによる検索でヒットさせるようにするにはどのように設定を行えばよろしいでしょうか?
お忙しいところ恐縮ですがご教授お願い致します。
テキストファイルにコピー&ペーストすると「xxxxx管理者xxxxxxx」のように1行で表示されます。
不思議な話な気がするので、これが再現するPDFをいただけないでしょうか?
現状で対応するなら、ElasticsearchのAnalzyerで改行を消すようなAnalyzerにして対応するしかないようにも思います。
endo
3
ご回答ありがとうございます。
PDFをお渡ししたいのですが、どのようにお渡しすればよろしいでしょうか?
Dropboxなど、どこかに置いていただければダウンロードして確認します。
endo
5
ご回答ありがとうございます。
出来ればメールでの送付をさせて頂きたいのですが、メールアドレスを頂くことはできないでしょうか?
直接受け取る場合は商用サポートを利用していただいている都合もあり、
その現象が発生するパブリックなPDFはないでしょうか?
endo
7
ご回答ありがとうございます。
直接受け取る場合は商用サポートを利用していただいている都合もあり、
大変失礼致しました。
以下が現象が再現するPDFと、その基になったdocxを格納しているDropboxのURLになります
検索ワードを「管理者」で検索するとPDFの方のみ現象が再現されると思います。
よろしくお願い致します。
ありがとうございます。
確認させていただきましたが、PDF的に改行が入っているので、
管理と者に別れているので、検索できないのが挙動としては正しいです。
pdf2txtとかでも改行が入っているので、コピペで1行になるのは
そのツールがいい感じにやっているためだと思います。
日本語であれば、改行を捨ててしまえばよいですが、
他の言語も考えると大変なので、とりあえず、回避するのであれば
standard_analyzerあたりを要件に合うように変えて対応するのが
良いと思います(char filterで改行を消すなど)。
ちなみにLibreOfficeでPDF化すると、改行が入っていないので、
PDFの吐き出し方でレイアウトを維持したりして、無理やり改行を
入れて吐き出されているのかもしれません。
endo
9
ご確認ありがとうございます。
PDF的に改行が入っているので、
管理と者に別れているので、検索できないのが挙動としては正しいです
pdf2txtとかでも改行が入っているので、コピペで1行になるのは
そのツールがいい感じにやっているためだと思います。
PDF的に改行が入っていたのですね、大変お手数おかけし申し訳ございませんでした。
ご教授頂きましたanalyzerの編集で対応してみようと思います。
どうもありがとうございました。