Web Crawlerの概要

Endeca Web Crawlerは、IASをインストールするとその一部としてデフォルトでインストールされます。Web Crawlerは、HTTPおよびHTTPSのWebサイトをクロールしてソース・データを収集し、そのデータをEndeca Information Discovery Integratorにとってアクセス可能なフォーマットで書き出します(XMLまたはレコード・ストア・インスタンス)。

Web CrawlerがEndecaレコードを書き出した後、Integrator ETL内でEndeca Record Store Readerコンポーネントを構成することによって、レコード・ストア・インスタンスからIntegrator ETLのグラフにレコードを読み込むことができます。これは、推奨統合モデルです。

Integrator ETLのグラフでXMLレコードを処理することもできますが、このモデルでは、XMLExtractコンポーネントを使用してXMLマッピングを作成するための追加構成が必要です。通常、XML出力はWebクロール後にレコードを確認するための簡便なフォーマットとして使用されます。

Web Crawlerはソース・ドキュメントをクロールして変換するだけでなく、出力されるEndecaレコードに対して、ソース・ドキュメントから抽出したメタデータ・プロパティでタグ付けします。

Endeca Web Crawlerは、次の種類のクロールをサポートします。

Endeca Web Crawlerの現在のバージョンでは、増分クロールやFTPサイトのクロールはサポートされません。

プラグインのサポート

Endeca Web Crawlerは大規模なクロールで使用されることを意図しており、高度にモジュール化されたアーキテクチャを使用して設計されているため、開発者は独自のプラグインを作成できます。プラグインを利用することによって、WebページからHTMLメタ・タグなどの追加コンテンツを抽出する手段が得られます。

SSLのサポート

SSLに対応したレコード・ストア・インスタンスから読み書きできるようにEndeca Web Crawlerを構成できます。詳細は、Integratorセキュリティ・ガイドの「Integrator Acquisition SystemでのSSLの構成」を参照してください。