スナップショットは、データ・ストアにステージングされたデータのコピーで、1つ以上のプロセスで使用されます。
操作するデータをコピーする必要はありませんが、コピーすると、プロセッサのメトリックをドリルダウンして、処理の各ステージでデータ自体を確認できるため、Directorの結果ブラウザの表示機能へのアクセスが大幅に改善されます。
一般的に、監査プロセスを操作するときやデータ・クレンジングのルールを定義するときはデータのコピーを作成しますが、本番でデータ・クレンジング・プロセスを実行するときは、実行時間を短縮するためにストリーミング・モードで(つまり、リポジトリにデータをコピーせずに)プロセスを実行します。詳細は、「パフォーマンス・チューニング・ガイド」を参照してください。
スナップショットに関する次のプロパティを定義できます。
スナップショット構成を追加した後は、プロジェクト・ブラウザでスナップショットを右クリックし、「Run Snapshot」を選択することでスナップショットを実行できます。
あるいは、そのスナップショットを使用する最初のプロセスの実行時にスナップショットの実行を選択できます。
スナップショットは、プロジェクト・レベルで共有されます。これは、同じプロジェクトの多数のプロセスで同じスナップショットが使用されるが、異なるプロジェクトのプロセスでは使用されないことを意味します。スナップショット構成をコピーして新しいプロジェクトに貼り付けた場合は、独立したスナップショットとなり、プロセスでステージング・データを使用するには、そのスナップショットを実行する必要があります(データ・ソースからデータをストリーミングしていない場合)。
スナップショットを編集する(たとえば、操作するサンプルのサイズを変更する)には、右クリック・メニューのオプションを使用します。
スナップショット名の変更を選択し、そのスナップショットがプロセスで使用されている場合は、そのプロセスが無効になることに注意してください。名称変更されたスナップショットが自動的に参照されることはありません。プロセスではスナップショットが名称で参照されるため、内部IDが異なっていてもサーバー間で構成を簡単に移動できます。
スナップショットは、どのプロセスでも使用されておらずビューにマップされていない場合、必要に応じて、右クリック・メニューのオプションを使用して削除することもできます。
通常はすべての列のスナップショットを作成し、リーダーを構成することによって、特定のプロセスで使用する列を選択することをお薦めします。
スナップショットの一環としてデータをリポジトリにコピーする際は、様々な形式の非データを正規化できます。これを実行するには、非データとみなされる複数の文字をリストした参照データ・マップを指定します。通常、これらの文字は印刷不可能な文字です(ASCII文字の0-32など)。データ値が非データ文字のみで構成されている場合は、常に単一値に正規化されます。デフォルトの非データ処理参照データでは、すべての非データ値がNULL値に正規化されます。これにより、特定の種類の値が含まれているデータと、値が含まれていないデータを明確に区別できます。あるいは、データの直接のコピーとしてスナップショットを作成し、リーダー構成の一環として非データ処理をプロセス単位で指定します。これにより、ソース・データの純粋な分析が可能となり、非データ値の正規化が望ましい状況で同じデータを使用することもできます。
次の2タイプのスナップショットがあります。
サーバー側スナップショット(サーバーベースのデータ・ストアからのスナップショット)。
クライアント側スナップショット(クライアントベースのデータ・ストアからのスナップショット)。
サーバー側スナップショットは、EDQホスト・サーバーがコピーする必要があるデータにアクセスできる場合(たとえば、データが同じマシン上に存在するか、ホストとのローカル・ネットワーク接続がある別のマシンに存在する場合)に使用されます。
サーバー側スナップショットは、サーバーがデータ・ソースにアクセスできるときはいつでも、手動でまたは自動的に(たとえば、スケジュールされたジョブの一環として)再ロードできます。これは、プロセスの実行がスケジュールされている場合は、スナップショットが自動的に再実行され、データの変更内容が必要に応じて取得されることを意味します。
クライアント側スナップショットは、サーバー経由ではなくクライアント経由でアクセスされるデータのソースに対して使用されます。たとえば、操作するデータが、EDQホストがインストールされていないクライアント・マシン(つまり、クライアントはネットワーク上のEDQホストにアクセスする)に格納されている場合です。この場合、データはクライアント上のコネクタ経由でEDQホストのリポジトリにコピーされます。
クライアント側スナップショットは、接続されたクライアント・マシン上で、データ・ソースへのアクセス権があるユーザーが手動でのみ(つまり、スナップショットを右クリックして「Run」を選択することで)再ロードできます。
実行中のスナップショットは、右クリック・オプションを使用して取り消すことができます。取り消すと、プロジェクト・ブラウザ・ツリーのスナップショット・アイコン上に、取消インジケータが重なって表示されます(後述の例を参照)。そのスナップショットが後で正常に再実行されると、取消インジケータが削除されます。
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.