oracle.comのサンプルWebクロールの実行

サンプルWebクロールを実行して、Web Crawlerの構成と動作を確認できます。サンプルは<install path>\IAS\workspace\conf\web-crawler\polite-crawlディレクトリにあります。

このサンプルは、<install path>\IAS\workspace\conf\web-crawler\defaultディレクトリにある事前構成済のシード・ファイル(endeca.lst)を使用して、http://www.oracle.comをクロールします。

このサンプル・クロールは、非圧縮のXMLとしてレコードを出力するように構成されています。XMLフォーマットを利用することによって、出力ファイルを簡単に参照でき、クロールによって収集されたレコードを確認できます。また、site.xmlファイルには、ワークスペース・ディレクトリ名としてpolite-crawl-workspaceが指定されています。

サンプル・クロールを実行するには:

  1. コマンド・プロンプト・ウィンドウを開きます。
  2. <install path>\IAS\<version>\binディレクトリに移動します。
  3. -dフラグを0に設定してweb-crawlerスクリプトを実行します。これにより、サイトのルートのみがクロールされます。
    Windowsでの例を次に示します。
    web-crawler -c C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\polite-crawl 
    -d 0 -s C:\Oracle\Endeca\IAS\workspace\conf\web-crawler\default\endeca.lst
    クロールが正常に開始されると、INFO進捗メッセージが表示されます。

完了すると、クロール完了と表示されます。<install path>\IAS\<version>\bin\polite-crawl-workspace\outputディレクトリに、polite-crawl.xmlという名前の出力ファイルが作成されます。