Endeca Web Crawlerは、IASをインストールするとその一部としてデフォルトでインストールされます。Web Crawlerは、HTTPおよびHTTPSのWebサイトをクロールしてソース・データを収集し、そのデータをEndeca Information Discovery Integratorにとってアクセス可能なフォーマットで書き出します(XMLまたはレコード・ストア・インスタンス)。
Web CrawlerがEndecaレコードを書き出した後、Integrator ETL内でEndeca Record Store Readerコンポーネントを構成することによって、レコード・ストア・インスタンスからIntegrator ETLのグラフにレコードを読み込むことができます。これは、推奨統合モデルです。
Integrator ETLのグラフでXMLレコードを処理することもできますが、このモデルでは、XMLExtractコンポーネントを使用してXMLマッピングを作成するための追加構成が必要です。通常、XML出力はWebクロール後にレコードを確認するための簡便なフォーマットとして使用されます。
Web Crawlerはソース・ドキュメントをクロールして変換するだけでなく、出力されるEndecaレコードに対して、ソース・ドキュメントから抽出したメタデータ・プロパティでタグ付けします。
Endeca Web Crawlerの現在のバージョンでは、増分クロールやFTPサイトのクロールはサポートされません。
Endeca Web Crawlerは大規模なクロールで使用されることを意図しており、高度にモジュール化されたアーキテクチャを使用して設計されているため、開発者は独自のプラグインを作成できます。プラグインを利用することによって、WebページからHTMLメタ・タグなどの追加コンテンツを抽出する手段が得られます。
SSLに対応したレコード・ストア・インスタンスから読み書きできるようにEndeca Web Crawlerを構成できます。詳細は、Integratorセキュリティ・ガイドの「Integrator Acquisition SystemでのSSLの構成」を参照してください。