ホームページの内容しかクロールできず、他のページの内容をクロールできない

Oracle Cloud Infrastructure ソリューション・エンジニア (@ocise) on Speaker Deck の内容をクロールしようとした際に問題が発生しました。URLを Oracle Cloud Infrastructure ソリューション・エンジニア (@ocise) on Speaker Deck に設定した場合、page=1 の内容しかクロールできません。「URL」を「Oracle Cloud Infrastructure ソリューション・エンジニア (@ocise) on Speaker Deck
以下は私が試した際の設定例です:

depthを1に設定した場合、Oracle Cloud Infrastructure ソリューション・エンジニア (@ocise) on Speaker Deck のページしかクロールできませんが、1より大きくすると、クロール結果はURLを Oracle Cloud Infrastructure ソリューション・エンジニア (@ocise) on Speaker Deck に設定した場合と同じになります。エラーは発生していませんが、助けを求めています。

うまくいかないときには、fess-crawler.logなどを確認して、どのようなページをクロールしているかなどを確認してみてください。必要であれば、デバッグレベルに変えて、ログを確認してみると良いと思います。

ご返信ありがとうございます、私はfess-crawler.logの内容を確認しました。

{"@timestamp":"2024-12-19T01:33:46.657Z","log.level": "INFO","message":"CANONICAL: https://speakerdeck.com/ocise?page=2 -> https://speakerdeck.com/ocise", "ecs.version": "1.2.0","service.name":"fess","event.dataset":"crawler","process.thread.name":"Crawler-20241219013327-1-1","log.logger":"org.codelibs.fess.crawler.transformer.FessXpathTransformer"}

このログは、FessクローラーがURLを処理する際の正規化プロセスを記録しています。ページを削除してしまい、ホームページにしかアクセスできず、他のページに入れない状況です。この正規化の動作を回避するにはどうすればよいでしょうか。

config.html.canonical.xpath=をクロール設定のパラメータで指定して、canonicalを利用しないようにするとかでしょうか。