Webサイト・データ・ソース

Webデータ・ソースを使用すると、認証されていないWebページなど、公開されているWebサイト・コンテンツをエージェントのデータ・ソースとして使用できます。

Webサイト・データ・ソースの構成

  1. データ・ソースの「ソース名」および「説明」を指定します。

    ノート: データ・ソース名は、任意のUTF-8文字列にできます。

  2. 「エンドポイント」フィールドにルート(ホームページ)のURLを入力します。

  3. 特定のファイル拡張子をクロールから除外する場合は、ファイル拡張子の除外ドロップダウンから選択します。現在、.pdfおよび.docファイルを除外できます。

  4. 「URLフィルタ」に、クロールに含めるか除外するURLパターンを入力します。

    • 「含める」フィルタを使用して、検索の範囲を特定のサイト・セクションまたはパスに制限し、クローラが関連するコンテンツのみを収集するようにします。

    • 「除外する」フィルタを使用して、クロールされないセクションまたはパスをスキップします。

    「含める」フィルタは、クロールを重要なコンテンツに制限します。「除外する」フィルタでは、含めないものはスキップされます。「含める」フィルタと「除外する」フィルタの両方を組み合せると、クロールの範囲を制御し、速度を上げ、無関係なデータの収集を回避できます。

    URLフィルタの追加はオプションです。

  5. 「クロール深度」を入力して、開始エンドポイントからたどるリンクの最大数を指定します。「無制限」チェック・ボックスを選択して、エンドポイントを完全にクロールします。

  6. クロール頻度を指定して、データ・ソースをクロールする頻度(日数)を指定します。

  7. ファイアウォールまたは内部企業ネットワーク内で操作する場合は、データ・ソースのプロキシURLを構成します。

  8. Webソースを追加する前に、「テスト接続」をクリックし、接続が成功することを確認します。

Webソース