Webサイト・データ・ソース
Webデータ・ソースを使用すると、認証されていないWebページなど、公開されているWebサイト・コンテンツをエージェントのデータ・ソースとして使用できます。
Webサイト・データ・ソースの構成
-
データ・ソースの「ソース名」および「説明」を指定します。
ノート: データ・ソース名は、任意のUTF-8文字列にできます。
-
「エンドポイント」フィールドにルート(ホームページ)のURLを入力します。
-
特定のファイル拡張子をクロールから除外する場合は、ファイル拡張子の除外ドロップダウンから選択します。現在、.pdfおよび.docファイルを除外できます。
-
「URLフィルタ」に、クロールに含めるか除外するURLパターンを入力します。
-
「含める」フィルタを使用して、検索の範囲を特定のサイト・セクションまたはパスに制限し、クローラが関連するコンテンツのみを収集するようにします。
-
「除外する」フィルタを使用して、クロールされないセクションまたはパスをスキップします。
「含める」フィルタは、クロールを重要なコンテンツに制限します。「除外する」フィルタでは、含めないものはスキップされます。「含める」フィルタと「除外する」フィルタの両方を組み合せると、クロールの範囲を制御し、速度を上げ、無関係なデータの収集を回避できます。
URLフィルタの追加はオプションです。
-
-
「クロール深度」を入力して、開始エンドポイントからたどるリンクの最大数を指定します。「無制限」チェック・ボックスを選択して、エンドポイントを完全にクロールします。
-
クロール頻度を指定して、データ・ソースをクロールする頻度(日数)を指定します。
-
ファイアウォールまたは内部企業ネットワーク内で操作する場合は、データ・ソースのプロキシURLを構成します。
-
Webソースを追加する前に、「テスト接続」をクリックし、接続が成功することを確認します。
