ディスク上の出力ファイルに書き出す(デフォルトの動作)のではなく、レコード・ストア・インスタンスに直接出力を書き出すようにWeb Crawlerを構成できます。この手順では、default.xmlのグローバルWeb Crawler構成を変更するのではなく、site.xmlファイルで単一のクロール構成を変更する方法について説明しています。
構成プロセスには、次の2つの主要タスクがあります。
- レコード・ストア・インスタンスを作成し、Web Crawlerの出力を受信するように構成します。
- Web Crawlerのデフォルトの出力設定をオーバーライドして、レコード・ストア・インスタンスに書き出すように構成します。
レコード・ストア・インスタンスを構成するには、構成ファイル内でWeb Crawlerの出力に関する2つのプロパティを設定する必要があります。Web Crawlerを構成するには、
site.xmlファイルに次の2つの変更を加える必要があります。
- レコード・ストアを実行するマシンのホストとポート、および書出し先レコード・ストアのインスタンス名を指定するための3つの出力プロパティを追加します。
- recordstore-outputterプラグイン用のplugin.includesプロパティを追加します。このプラグインは、Web Crawlerに対してレコード・ストア・インスタンスに書き出すように指示します。Web Crawlerに対して出力ファイルに書き出すように指示するoutput-endeca-recordは、これによってオーバーライドされます。
レコード・ストア・インスタンスに出力を書き出すようにWeb Crawlerを構成するには:
Webクロールで出力がレコード・ストア・インスタンスに書き出されたことを確認するには、レコード・ストアのコマンドライン・ユーティリティの
list-generationsタスクを実行します。前述の例に対してこのコマンドを実行すると、
WebCrawlerOutputインスタンスへのクロールの出力が次のように確認されます。
recordstore-cmd list-generations -a WebCrawlerOutput
ID STATUS CREATION TIME
1 COMPLETED Tue Mar 03 17:40:22 EST 2009
Webクロールの出力がレコード・ストア・インスタンスに格納された後は、Integrator内で利用可能なRecord Store Readerコンポーネントを使用して出力を処理できます。詳細は、『Integrator ETLユーザーズ・ガイド』の、Record Store Readerコンポーネントの構成に関する項を参照してください。
注意: Web Crawlerは、レコード・ストア・インスタンスをWebクロール用として自動的に管理しません。レコード・ストア・インスタンスの管理の詳細は、Integrator Acquisition System開発者ガイドを参照してください。