(from osdn.net/users/miyukit)
バージョン:Fess11.0.1
ウェブクロールについて
ウェブクロールの設定で
URL:http://aaa.co.jp/bbb/
その他はデフォルト
で実行するとhttp://aaa.co.jp/bbb/配下のページに記載される
URLすべてがクロールされ検索結果にも出力されます。
クロール対象は http://aaa.co.jp/bbb/ 配下のみでいいので
クロール対象とするURL:http://aaa.co.jp/bbb/.*
を指定すると、
http://aaa.co.jp/bbb/index.html の1つしか検索結果に出てこなくなります。
http://aaa.co.jp/bbb/ 直下には他にもファイルやディレクトリがあり、
http://aaa.co.jp/bbb/index.html にも
http://aaa.co.jp/bbb/配下のファイルのリンクが記載してあるので
検索結果に出てきそうなのですが出てきません。
fess-crawler.log を確認するとhttp://aaa.co.jp/bbb/直下以外のクロールの形跡がありませんでした。
例外も発生していません。
確認するべき事項や試すことなどあればご教授いただけないでしょうか。
何卒よろしくお願いいたします。
(from osdn.net/users/miyukit)
タイトル入力中に投稿してしまいました・・・
(from osdn.net/users/shinsuke)
- robots.txt で除外対象になっている
-
http://aaa.co.jp/bbb/ でbase hrefが指定されている
- リンク先でcanonical属性が指定されている
などが考えられると思います。
上記でないようであれば、Default Crawlerジョブの設定で
デバッグログを出力するようにして実行すると良いと思います。
(from osdn.net/users/miyukit)
早急なお返事ありがとうございます。
いずれにも該当しないのでデバックログで追ってみたいと思います。
ちなみに
URLのみ指定した時は
検索結果に http://aaa.co.jp/bbb/ccc/abc.html が出力されていたのに、
クロール対象とするURL:http://aaa.co.jp/bbb/.*
の設定を追加しただけで再度クロールさせると検索結果に出力されなくなる。
ということがあるのでしょうか。
他のどの設定も変更していないのに。です。
robots.txtなどで除外対象になっていたら、
URL指定のみの時も検索結果に出てこないはずでは。と思っているのですが
その認識がまず違うのでしょうか・・・。
(from osdn.net/users/miyukit)
debug モードでログを出したところ
DEBUG Add Child: http://aaa.co.jp/bbb/ccc/ddd/xxx.html
DEBUG Add Child: http://aaa.co.jp/bbb/ccc/ddd/yyy.html
とログに出力されているのですが検索結果には出てきません。
作成されたインデックスは http://aaa.co.jp/index.html の1ファイルです。
なおディレクトリ構成は
bbbディレクトリ
├ index.html(xxx.html、yyy.htmlへのリンクが記載されている)
├header.html(index.htmlのヘッダ部分)
└cccディレクトリ(ccc直下にファイルはない)
└dddディレクトリ
├xxx.html
└yyy.html
ウェブクロール設定は
URL:http://aaa.co.jp/bbb/
クロール対象とするURL:http://aaa.co.jp/bbb/.*
その他はデフォルトです
他に確認すること、ログの見方などご教授いただけないでしょうか。