888888
1
以下のようにURLs、クロール対象のURLsを設定しているのですが、一部のページがインデックスとならない状況です。
・URLsに登録しているパス
http://123456789/abc/
・クロール対象に含めているURLs
http://123456789/abc/.*
・インデックスとならないURLの例
~~123456789/abc/cde/index.html#/abcde/efgh
「#」(アンカーリンク)が怪しいのではと考えているのですが、Fessの仕様として「#」以降を無視したURLをクロールするようになっているか、をご教授いただきたいです。
888888
2
上記について補足します。
Notes上の文書をTeamstudio Exportというツールを使用して、html化してサーバー上に配置しているのですが、その際に「#」が含まれたURLに仕様上なってしまう状況です。
そのため、「#」を含むURLについて挙動が変わるような仕様がFessにあるのかという質問の意図になります。
静的なページであれば、
- http://…/index.html
- http://…/index.html#123
- http://…/index.html#abc
を取得すると、全く同じファイル(同じ内容)が取得されます。
ですので、通常のFessのクロールでは、#以降は取り除いて、正規化したURLでクロールします。
#を含むURLをクロールしたい要件があるとするなら、動的に生成されるページをクロールしたい場合などだと思いますが、Playwrightを用いてもうまくできなかった、ということでしょうか?
888888
4
ご回答いただきありがとうございます。
Playwrightを用いても「/index.html#」以下のURLをクロールしない状況です。
(上記でいただいたリンクに掲載されているテストサイトはクロールできているのでPlaywright自体の導入はできていると思われます)
以下でWebクロールの設定を実施しているのですが、設定に誤りや漏れなどあるでしょうか?
・URLsに登録しているパス
http://123456789/abc/index.html
・クロール対象に含めているURLs
http://123456789/abc/.*
・クロール対象に含めないURLsからインデックス化しないURLsまで初期値のまま
・設定パラメータ
client.crawlerClients=playwright:http://.,playwright:https://.
・残りの項目は初期値のまま(スレッド数も1のまま)
(本来クロールしたいURLは「~~123456789/abc/index.html#/abcde/efghのようなURL」)
それですと、#を処理できるようにfess-crawlerのどこかを修正する必要があるのかもしれません。