httpsのサイトに対するWebクロール設定

こんにちは。

Fess12.6.1 + Elasticsearch6.7.2環境でのWebクロール設定についてお伺いさせて下さい。

httpのサイトに対しては、基本的なWebクロールの設定(指定したのは階層=1くらい)でクロール成功しました。一方、同じ設定を複製してクロール対象をhttpsのサイトに変更したところ、以下のようにConnection timed outエラーが出てクロールに失敗してしまいました。

[fess-crawler.log]

2020-09-07 20:00:41,101 [WebFsCrawler] INFO Target URL: https ://www.google.co.jp/
2020-09-07 20:00:41,302 [Crawler-sKieZ3QBIogHotEL5b65-1-1] INFO Crawling URL: https ://www.google.co.jp/
2020-09-07 20:00:41,424 [Crawler-sKieZ3QBIogHotEL5b65-1-1] INFO Checking URL: https ://www.google.co.jp/robots.txt
2020-09-07 20:00:51,141 [IndexUpdater] INFO Processing no docs (Doc:{access 5ms}, Mem:{used 189MB, heap 245MB, max 3GB})
2020-09-07 20:01:01,125 [IndexUpdater] INFO Processing no docs (Doc:{access 3ms}, Mem:{used 189MB, heap 245MB, max 3GB})
2020-09-07 20:01:02,526 [Crawler-sKieZ3QBIogHotEL5b65-1-1] INFO Could not process https ://www.google.co.jp/robots.txt. Connect to www.google.co.jp:443 [www.google.co.jp/172.217.175.35] failed: Connection timed out: connect

何かhttps特有の設定があるのでしょうか。

よろしくお願いいたします。

問題が再現できないのでわかりませんが、httpsでも特に違いはありません。

Connect to www.google.co.jp:443 [www.google.co.jp/172.217.175.35] failed: Connection timed out: connect

なので、対象サーバに443で接続できていないのだと思います。ファイアウォールの設定などを確認してみるなどが良いと思います。

ご回答ありがとうございます。

Fessは、ファイヤーウォール設定を無効化したWindows Server 2012上で動作させています。
そのため443ポートは無条件に許可されていると考えています。

あと、最初に書き忘れていたのですが当該サーバは社内イントラに接続されており、プロキシ経由で外に出ます。そのため、環境変数HTTP_PROXYとHTTPS_PROXYを設定の上動作確認しているのですが、httpsの時だけ上手くいかない状況です。この辺りも何か関係ありそうでしょうか。

よろしくお願いいたします。

それらの環境変数は参照していないと思います。
fess_config.propertiesのhttp.proxy.hostなどで設定してみてください。

ご指摘の通り、\app\WEB-INF\classes\fess_config.propertiesにて以下の通り設定することで問題解決しました。ありがとうございました。

http.proxy.host=プロキシのホスト
http.proxy.port=ポート番号
http.proxy.username=
http.proxy.password=

なお、httpはクロール出来ているという前情報は誤りでした。同じ社内イントラ上のhttpサイトしか試しておらず、外部のhttpサイトに対してクロールをかけたところhttpsの場合と同様にconnectionエラーが出ました。上記設定反映により、外部のhttp/httpsサイト両方でクロール成功するようになりました。