Webサイト・データ・ソース

Webデータ・ソースを使用すると、認証されていないWebページなど、公開されているWebサイト・コンテンツをエージェントのデータ・ソースとして使用できます。

Webサイト・データ・ソースの構成

データ・ソースの「ソース名」および「説明」を指定します。

ノート: データ・ソース名は、任意のUTF-8文字列にできます。
「エンドポイント」フィールドにルート(ホームページ)のURLを入力します。
特定のファイル拡張子をクロールから除外する場合は、ファイル拡張子の除外ドロップダウンから選択します。現在、.pdfおよび.docファイルを除外できます。
「URLフィルタ」に、クロールに含めるか除外するURLパターンを入力します。
- 「含める」フィルタを使用して、検索の範囲を特定のサイト・セクションまたはパスに制限し、クローラが関連するコンテンツのみを収集するようにします。
- 「除外する」フィルタを使用して、クロールされないセクションまたはパスをスキップします。
「含める」フィルタは、クロールを重要なコンテンツに制限します。「除外する」フィルタでは、含めないものはスキップされます。「含める」フィルタと「除外する」フィルタの両方を組み合せると、クロールの範囲を制御し、速度を上げ、無関係なデータの収集を回避できます。

URLフィルタの追加はオプションです。
「クロール深度」を入力して、開始エンドポイントからたどるリンクの最大数を指定します。「無制限」チェック・ボックスを選択して、エンドポイントを完全にクロールします。
クロール頻度を指定して、データ・ソースをクロールする頻度(日数)を指定します。
ファイアウォールまたは内部企業ネットワーク内で操作する場合は、データ・ソースのプロキシURLを構成します。
Webソースを追加する前に、「テスト接続」をクリックし、接続が成功することを確認します。

Webソース