はじめに
この項では、Endeca Web Crawlerの概要について説明します。
Web Crawlerの概要
Endeca Web Crawlerは、IASをインストールするとその一部としてデフォルトでインストールされます。Web Crawlerは、HTTPおよびHTTPSのWebサイトをクロールしてソース・データを収集し、そのデータをEndeca Information Discovery Integratorにとってアクセス可能なフォーマットで書き出します(XMLまたはレコード・ストア・インスタンス)。
oracle.comのサンプルWebクロールの実行
サンプルWebクロールを実行して、Web Crawlerの構成と動作を確認できます。サンプルは
<install path>\IAS\workspace\conf\web-crawler\polite-crawl
ディレクトリにあります。
レコード・ストアに書き出すサンプルWebクロールの実行
このトピックでは、ディスク上のファイルではなくレコード・ストア・インスタンスに出力を書き出すサンプルWebクロールを実行します。このサンプルは
<install path>\IAS\<version>\sample\webcrawler-to-recordstore
に格納されています。
run-sample
スクリプトを実行することによって、サンプルのWeb Crawlerが実行されます。