CrawlingAccessException が発生しクロールできない

discuss · December 21, 2016, 11:41am

(from osdn.net/users/hasegawa3)
Fess10.3/Windows2012環境でPDFファイルを対象にファイルクロールの設定を行いました。
当初、いくつかのファイルで10MBのサイズ制限に引っかかりクロール時にエラーとなりました。
サイズ制限を100MBに変更し、登録できていないファイルを対象に差分クロールを実行した結果、別のエラーが発生しました。
エラーは2パターンあります。
対象PDFのファイルサイズはいずれも10MB超です。対処方法はありますでしょうか。ファイル名は伏せております。

＜エラー1＞
スレッド名
Crawler-20161220165115-1-7
種類
org.codelibs.fess.crawler.exception.CrawlingAccessException
ログ
org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not serialize object
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:88)
at org.codelibs.fess.crawler.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:77)
at org.codelibs.fess.crawler.CrawlerThread.processResponse(CrawlerThread.java:330)
at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:176)
at java.lang.Thread.run(Unknown Source)
Caused by: org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not get a text from file:/E:/PDF/*********.pdf
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:157)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:86)
… 4 more
Caused by: org.codelibs.fess.crawler.exception.ExtractException: java.io.IOException: Error: Header doesn’t contain versioninfo
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:96)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:107)
… 5 more
Caused by: java.io.IOException: Error: Header doesn’t contain versioninfo
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:244)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:966)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:902)
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:64)
… 6 more

＜エラー2＞
スレッド名
Crawler-20161220165115-1-10

種類
org.codelibs.fess.crawler.exception.CrawlingAccessException

ログ
org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not serialize object
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:88)
at org.codelibs.fess.crawler.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:77)
at org.codelibs.fess.crawler.CrawlerThread.processResponse(CrawlerThread.java:330)
at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:176)
at java.lang.Thread.run(Unknown Source)
Caused by: org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not get a text from file:/E:/PDF/*********.pdf
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:157)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:86)
… 4 more
Caused by: org.codelibs.fess.crawler.exception.ExtractException: org.codelibs.fess.crawler.exception.ExtractException: PDFBox process cannot finish in 30000 sec.
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:96)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:107)
… 5 more
Caused by: org.codelibs.fess.crawler.exception.ExtractException: PDFBox process cannot finish in 30000 sec.
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:87)
… 6 more

エラー回数
10

discuss · December 22, 2016, 4:46pm

(from osdn.net/users/shinsuke)
前者はPDFBoxがヘッダーがおかしいと言っているようなので、
PDF自体の先頭行を確認して、PDFBoxまわりで確認するのが良いかと思います。

後者はPDFExtractorのタイムアウトになっているので
extractor+tikaExtractor.xmlのようにextractor+pdfExtractor.xmlを

<?xml version="1.0" encoding="UTF-8"?> 600000

という感じで作成すると良いかもしれません。

discuss · January 24, 2017, 2:59pm

(from osdn.net/users/hasegawa3)
ご指示いただいた通りの設定を行い、改善しました。