クロール時、ファイルへのリンク元URLは得られますか?

いつもお世話になっております。

サイトをクロールしている時に、pdfなどのファイルが見つかった場合、そのファイルへのリンクが記載されている(リンク元)ページのアドレスは取得できるような仕組みになっていますでしょうか?(一つのファイルに対して、複数のページからリンクが張られている可能性もありますが)。

システム情報の検索を表示すると、項目一覧の中に
parent id
というのがありますが、これがそれでしょうか。

また、もしそのようなリンク元URLの情報がドキュメントに含まれていない場合、
そのような自作のフィールドを追加することは可能でしょうか?

よろしくお願い致します。

parent_idから_idを辿れば参照元はわかると思います。
独自のフィールド追加などは設定だけでできるWebスクレイピングなどを参照してください。

1 Like

いつも素早くご回答くださり、ありがとうございます。

結局、別のスクリプトでurlを入れることにしました。
クローラーでは検索の必要はなかったので、

  1. fess_config.propertiesに以下を設定し、
query.additional.response.fields=parent_url
query.additional.api.response.fields=parent_url
  1. doc.jsonに以下を追記し、
      "parent_url": {
        "type": "keyword"
      }
  1. 編集画面でも確認したかったので
    admin_searchlist_edit.jspに
<div class="form-group row">
    <label for="doc.parent_url" class="col-sm-3 text-sm-right col-form-label">parent_url</label>
    <div class="col-sm-9">
        <la:errors property="doc.parent_url"/>
        <la:textarea styleId="doc.parent_url" property="doc.parent_url" styleClass="form-control"/>
    </div>
</div>

を追記し、fessを再起動することで追加フィールド設定可能になりました。