文字化けとクロールできないファイル名

(from osdn.net/users/mi_mori_1961)
Windows2012 server+Fess10.1.1 です。
1.PDFファイルの文字エンコーディングがUniJIS-UCS2-Hの場合、文字化けします。
2.ファイル名に “~” と “[” が含まれていると、クロールに失敗します。

どのようにすればいいか、よろしくお願いします。

(from osdn.net/users/shinsuke)

1.PDFファイルの文字エンコーディングがUniJIS-UCS2-Hの場合、文字化けします。

PDFBoxの問題かと思われます。
次の10.2ではPDFBoxのバージョンを上げているので
解決されていると思います。

2.ファイル名に “~” と “[” が含まれていると、クロールに失敗します。

再現していないのですが、fess-crawler.logには
どのような例外が発生していますでしょうか?

(from osdn.net/users/mi_mori_1961)
ご回答ありがとうございます。
1.については、試してみます。
2.について、(長くなって申し訳ありませんが。)
?ファイル名は、「1~8別添.pdf」
fess-crawler.log
[Crawler-20160728135347-1-1] INFO Could not serialize object

障害URL
種類
org.codelibs.fess.crawler.exception.CrawlingAccessException
ログ
org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not serialize object
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:93)
at org.codelibs.fess.crawler.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:77)
at org.codelibs.fess.crawler.CrawlerThread.processResponse(CrawlerThread.java:330)
at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:176)
at java.lang.Thread.run(Thread.java:745)
Caused by: org.codelibs.fess.crawler.exception.CrawlingAccessException: Could not get a text from http://XXX/YYY/当該ファイル名
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:162)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:91)
… 4 more
Caused by: org.codelibs.fess.crawler.exception.ExtractException: java.io.IOException: Unknown dir object c=’>’ cInt=62 peek=’>’ peekInt=62 617629
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:122)
at org.codelibs.fess.crawler.transformer.AbstractFessFileTransformer.generateData(AbstractFessFileTransformer.java:112)
… 5 more
Caused by: java.io.IOException: Unknown dir object c=’>’ cInt=62 peek=’>’ peekInt=62 617629
at org.apache.pdfbox.pdfparser.BaseParser.parseDirObject(BaseParser.java:1364)
at org.apache.pdfbox.pdfparser.BaseParser.parseCOSDictionaryValue(BaseParser.java:251)
at org.apache.pdfbox.pdfparser.BaseParser.parseCOSDictionary(BaseParser.java:358)
at org.apache.pdfbox.pdfparser.BaseParser.parseDirObject(BaseParser.java:1266)
at org.apache.pdfbox.pdfparser.PDFParser.parseObject(PDFParser.java:641)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:203)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1249)
at org.codelibs.fess.crawler.extractor.impl.PdfExtractor.getText(PdfExtractor.java:72)
… 6 more

?ファイル名は、「提出様式のファイル名等の設定方法[1].doc 」
fess-crawler.log
[Crawler-20160728135347-1-2] INFO Failed to access to http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY当該ファイル名; The url may not be valid: http://XXX/YYY当該ファイル名; The url may not be valid: http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY/当該ファイル名c

障害URL

種類
java.lang.IllegalArgumentException

ログ
org.codelibs.fess.crawler.exception.CrawlingAccessException: The url may not be valid: http://XXX/YYY/当該ファイル名
at org.codelibs.fess.crawler.client.http.HcHttpClient.doGet(HcHttpClient.java:499)
at org.codelibs.fess.crawler.client.AbstractCrawlerClient.execute(AbstractCrawlerClient.java:135)
at org.codelibs.fess.crawler.client.FaultTolerantClient.execute(FaultTolerantClient.java:67)
at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:164)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.IllegalArgumentException: Illegal character in path at index 129: http://XXX/YYY/%当該ファイル名
at java.net.URI.create(URI.java:852)
at org.apache.http.client.methods.HttpGet.(HttpGet.java:69)
at org.codelibs.fess.crawler.client.http.HcHttpClient.doGet(HcHttpClient.java:497)
… 4 more
Caused by: java.net.URISyntaxException: Illegal character in path at index 129: http://XXX/YYY/%当該ファイル名
at java.net.URI$Parser.fail(URI.java:2848)
at java.net.URI$Parser.checkChars(URI.java:3021)
at java.net.URI$Parser.parseHierarchical(URI.java:3105)
at java.net.URI$Parser.parse(URI.java:3053)
at java.net.URI.(URI.java:588)
at java.net.URI.create(URI.java:850)
… 6 more

すみませんが、よろしくお願いいたします。

(from osdn.net/users/mi_mori_1961)
ver10.2で検証してみました。
1.と2.?は、解決しました。ありがとうございます。
2.?(ファイル名に ”[” が含まれている)は、依然同様のエラーでした。
すみませんが、どのようにすれば回避できるでしょうか。
よろしくお願いします。

?ファイル名は、「提出様式のファイル名等の設定方法[1].doc 」
fess-crawler.log
[Crawler-20160728135347-1-2] INFO Failed to access to http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY当該ファイル名; The url may not be valid: http://XXX/YYY当該ファイル名; The url may not be valid: http://XXX/YYY/%当該ファイル名; The url may not be valid: http://XXX/YYY/当該ファイル名c

障害URL

種類
java.lang.IllegalArgumentException

ログ
org.codelibs.fess.crawler.exception.CrawlingAccessException: The url may not be valid: http://XXX/YYY/当該ファイル名
at org.codelibs.fess.crawler.client.http.HcHttpClient.doGet(HcHttpClient.java:499)
at org.codelibs.fess.crawler.client.AbstractCrawlerClient.execute(AbstractCrawlerClient.java:135)
at org.codelibs.fess.crawler.client.FaultTolerantClient.execute(FaultTolerantClient.java:67)
at org.codelibs.fess.crawler.CrawlerThread.run(CrawlerThread.java:164)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.IllegalArgumentException: Illegal character in path at index 129: http://XXX/YYY/%当該ファイル名
at java.net.URI.create(URI.java:852)
at org.apache.http.client.methods.HttpGet.(HttpGet.java:69)
at org.codelibs.fess.crawler.client.http.HcHttpClient.doGet(HcHttpClient.java:497)
… 4 more
Caused by: java.net.URISyntaxException: Illegal character in path at index 129: http://XXX/YYY/%当該ファイル名
at java.net.URI$Parser.fail(URI.java:2848)
at java.net.URI$Parser.checkChars(URI.java:3021)
at java.net.URI$Parser.parseHierarchical(URI.java:3105)
at java.net.URI$Parser.parse(URI.java:3053)
at java.net.URI.(URI.java:588)
at java.net.URI.create(URI.java:850)
… 6 more

すみませんが、よろしくお願いいたします。