subversionのクロール（除外方法）

madone · May 23, 2024, 1:45am

webクロール利用しsubversionをクロールは出来ているのですが、
空フォルダを含んでindexが作成されます。

それで空フォルダは除外する為、除外するurlに
.*/$
としましたが、除外できませんでした、除外方法をご教示頂けないでしょうか

対象はホームページにある通り下記のようにしてます。
名前 Fess
URL https://fess.codelibs.org/
クロール対象とするURL Fess - Enterprise Search Server*

使用環境：
fess:14.12
opensearch:2.12
Windows server

shinsuke · May 23, 2024, 2:07am

fess-crawler.logでクロールしているURLを確認して、除外したいURLパターンの正規表現を指定して、除外してください。

madone · May 23, 2024, 2:52am

ご回答ありがとうございます。

ログを確認し、正規表現で任意の文字、スラッシュで終わる
としているのですが、間違ってますでしょうか？

.*/$

madone · May 23, 2024, 3:39am

お伝えした内容が間違ってました。
.*/$
を指定するとすべて除外され、indexが作成されません。

shinsuke · May 23, 2024, 4:16am

過去のトピックにも同じような話はあると思いますが、.*/$ を除外した場合、クロールの開始URLにhttps://fess.codelibs.org/ のようにしても、これが除外対象にマッチされるので、クロール対象はなくなります。
要件に合わせて、クロール対象・検索対象のパターンを適切に設定してください。

madone · May 23, 2024, 4:44am

納得しました。
ご回答ありがとうございました。