PDFファイルをクロールしたのですが、縦書の文章が1文字ごとに空白が入ってインデックス化されてしまいます。
回避する方法ありませんでしょうか?
当該PDFをpopplerのpdftotextコマンドでテキスト化してみると、縦書文章は1文字ごとに改行されます。
Fess9でsedを使って改行をすべて取り去って運用をしていました。
s2robot_extractor.diconのpdfCmdExtractorで以下のコマンドを実行してました。
pdftotext -nopgbrk -raw $1 | sed ‘:loop; N; $!b loop; ;s/\n//g’ > $2
Fess13でも同様のことが可能でしょうか?
恐縮ですが、お知恵を拝借したく存じます。
環境
fess-13.2.1:Linux(CentOS7.3)