ウェブクローリングの対象を数百~数千にしたいと思っているのですが、さすがに管理画面から一つ一つ手動作成していくのは現実的ではないと思っています。
設定すべき項目(「名前」「URL」「クロール対象とするURL」など)の一覧(csvやjson?)から、一括でウェブクローラーを作成できればと思うのですが、何か方法はないでしょうか。
ウェブクローリングの対象を数百~数千にしたいと思っているのですが、さすがに管理画面から一つ一つ手動作成していくのは現実的ではないと思っています。
設定すべき項目(「名前」「URL」「クロール対象とするURL」など)の一覧(csvやjson?)から、一括でウェブクローラーを作成できればと思うのですが、何か方法はないでしょうか。
管理APIを使う方法か、バックアップからバルクファイルをアップロードする方法か、などになると思います。
バルクファイルで更新する方法としては、適当にクロール設定を1つ作り、バックアップページから.fess_basic_config.bulkをダウンロードして、
{"index":{"_index":".fess_config.web_config","_type":"_doc","_id":"...
{"updatedTime":1568036453931,"virtualHosts":..
のような連続する2行が1つのクロール設定で、始めがIDなどの情報で、次が設定の内容になります。ウェブクロール設定は、_indexが.fess_config.web_configになります。_idとクロール設定の内容を変更して、必要なクロール設定数分を作り、他の内容は消して、バックアップページからアップロードすると登録されます。
このファイルは、elasticsearchのBulk APIの仕様に従います。
バックアップからバルクファイルをアップロードする方法
こちらで、問題なくクローラー・スケジュールを追加することができました。
ありがとうございました。
© 2020. All Rights Reserved - CodeLibs, Inc.