縦書文書のPDFをクロールすると、1文字ごとに空白が入ってインデックス化されてしまう。

souchi00 · August 28, 2020, 8:05am

PDFファイルをクロールしたのですが、縦書の文章が1文字ごとに空白が入ってインデックス化されてしまいます。
回避する方法ありませんでしょうか？

当該PDFをpopplerのpdftotextコマンドでテキスト化してみると、縦書文章は1文字ごとに改行されます。

Fess9でsedを使って改行をすべて取り去って運用をしていました。
s2robot_extractor.diconのpdfCmdExtractorで以下のコマンドを実行してました。

pdftotext -nopgbrk -raw $1 | sed ‘:loop; N; $!b loop; ;s/\n//g’ > $2

Fess13でも同様のことが可能でしょうか？
恐縮ですが、お知恵を拝借したく存じます。

環境
fess-13.2.1:Linux(CentOS7.3)

shinsuke · September 3, 2020, 3:53am

最新のバージョンでは、そのファイルは crawler/extractor.xml になります。
CommandExtractorも以前のバージョンと同じように利用することはできます。

souchi00 · September 4, 2020, 8:43am

ありがとうございます。
CommandExtractorでクロールできるようになりました。