「#」（アンカーリンク）を含むURLのクロールについて

888888 · February 17, 2025, 7:11am

以下のようにURLs、クロール対象のURLsを設定しているのですが、一部のページがインデックスとならない状況です。

・URLsに登録しているパス
http://123456789/abc/

・クロール対象に含めているURLs
http://123456789/abc/.*

・インデックスとならないURLの例
～～123456789/abc/cde/index.html#/abcde/efgh

「#」（アンカーリンク）が怪しいのではと考えているのですが、Fessの仕様として「#」以降を無視したURLをクロールするようになっているか、をご教授いただきたいです。

888888 · February 19, 2025, 9:19am

上記について補足します。
Notes上の文書をTeamstudio Exportというツールを使用して、html化してサーバー上に配置しているのですが、その際に「#」が含まれたURLに仕様上なってしまう状況です。
そのため、「#」を含むURLについて挙動が変わるような仕様がFessにあるのかという質問の意図になります。

shinsuke · February 20, 2025, 1:56am

静的なページであれば、

http://…/index.html
http://…/index.html#123
http://…/index.html#abc

を取得すると、全く同じファイル（同じ内容）が取得されます。
ですので、通常のFessのクロールでは、#以降は取り除いて、正規化したURLでクロールします。

#を含むURLをクロールしたい要件があるとするなら、動的に生成されるページをクロールしたい場合などだと思いますが、Playwrightを用いてもうまくできなかった、ということでしょうか？

888888 · March 2, 2025, 1:15pm

ご回答いただきありがとうございます。
Playwrightを用いても「/index.html#」以下のURLをクロールしない状況です。
（上記でいただいたリンクに掲載されているテストサイトはクロールできているのでPlaywright自体の導入はできていると思われます）
以下でWebクロールの設定を実施しているのですが、設定に誤りや漏れなどあるでしょうか？

・URLsに登録しているパス
http://123456789/abc/index.html
・クロール対象に含めているURLs
http://123456789/abc/.*
・クロール対象に含めないURLsからインデックス化しないURLsまで初期値のまま
・設定パラメータ
client.crawlerClients=playwright:http://.,playwright:https://.
・残りの項目は初期値のまま（スレッド数も１のまま）

（本来クロールしたいURLは「～～123456789/abc/index.html#/abcde/efghのようなURL」）

shinsuke · March 2, 2025, 1:30pm

それですと、#を処理できるようにfess-crawlerのどこかを修正する必要があるのかもしれません。

system · May 31, 2025, 1:31pm

This topic was automatically closed 90 days after the last reply. New replies are no longer allowed.