スナップショット

スナップショットは、データ・ストアにステージングされたデータのコピーで、1つ以上のプロセスで使用されます。

操作するデータをコピーする必要はありませんが、コピーすると、プロセッサのメトリックをドリルダウンして、処理の各ステージでデータ自体を確認できるため、ディレクタの結果ブラウザの表示機能へのアクセスが大幅に改善されます。

一般的に、監査プロセスで作業するときやデータ・クレンジングのルールを定義するときはデータのコピーを作成しますが、本番でデータ・クレンジング・プロセスを実行するときは、実行時間を短縮するためにストリーミング・モードで(つまり、リポジトリにデータをコピーせずに)プロセスを実行します。

スナップショットに関する次のプロパティを定義できます。

  • ソース・データのデータ・ストア(EDQホストに登録済の接続先データ・ストアのリスト)

  • スナップショットを作成する表またはビュー(または、新しいデータ・インタフェースのスナップショットを作成するSQLを指定できます)

  • スナップショットに含める列

  • スナップショットでソートおよびフィルタを有効にするかどうか。およびどの列で有効にするか。詳細は、「スナップショットでのソートおよびフィルタの有効化」を参照してください。

  • スナップショットでの基本的なフィルタ・オプション(または、データベース表からスナップショットを作成する独自のSQL WHERE句を記述できます)

  • (オプション)データのサンプリング(最初のnレコード、オフセット後の最初のnレコード、100レコードごとに1レコードなど)

  • (オプション)非データ処理

スナップショット構成を追加した後は、プロジェクト・ブラウザでスナップショットを右クリックし、スナップショットの実行を選択することでスナップショットを実行できます。

または、そのスナップショットを使用する最初のプロセスの実行時にスナップショットの実行を選択できます。

スナップショットの共有

スナップショットは、プロジェクト・レベルで共有されます。これは、同じプロジェクトの多数のプロセスで同じスナップショットが使用されるが、異なるプロジェクトのプロセスでは使用されないことを意味します。スナップショット構成をコピーして新しいプロジェクトに貼り付けた場合は、独立したスナップショットとなり、プロセスでステージング済データを使用するには、そのスナップショットを実行する必要があります(データ・ソースからデータをストリーミングしていない場合)。

スナップショットの編集/削除

スナップショットを編集するには(操作するサンプルのサイズを変更するなど)、右クリック・メニューのオプションを使用します。

スナップショット名の変更を選択し、そのスナップショットがプロセスで使用されている場合は、そのプロセスが無効になることに注意してください。名前が変更されたスナップショットが自動的に参照されることはありません。プロセスではスナップショットが名前で参照されるため、内部IDが異なっていてもサーバー間で構成を簡単に移動できます。

必要に応じて、右クリック・メニューのオプションを使用してスナップショットを削除することもできます。スナップショットが他の構成オブジェクトで使用されている場合、それらのオブジェクトでエラーが発生している可能性があるため、警告が表示されます。

通常はすべての列のスナップショットを作成し、リーダーを構成することによって、特定のプロセスで使用する列を選択することをお薦めします。

非データ処理

スナップショットの一環としてデータをリポジトリにコピーする際は、様々な形式の非データを正規化できます。これを実行するには、非データとみなされる複数の文字をリストした参照データ・マップを指定します。通常、これらの文字は印刷不可能な文字です(ASCII文字の0-32など)。データ値が非データ文字のみで構成されている場合は、常に単一値に正規化されます。デフォルトの非データ処理参照データでは、すべての非データ値がNULL値に正規化されます。これにより、特定の種類の値が含まれているデータと、値が含まれていないデータを明確に区別できます。

スナップショットの種類

スナップショットには、2つのタイプがあります。

  • サーバー側スナップショット(サーバーベースのデータ・ストアからのスナップショット)。

  • クライアント側スナップショット(クライアントベースのデータ・ストアからのスナップショット)。

サーバー側スナップショットは、EDQホスト・サーバーがコピーする必要があるデータにアクセスできる場合(たとえば、同じマシン上に存在するか、ホストとのローカル・ネットワーク接続がある別のマシンに存在する場合)に使用されます。

サーバー側スナップショットは、サーバーがデータ・ソースにアクセスできるときはいつでも、手動でまたは自動的に(たとえば、スケジュールされたジョブの一環として)再ロードできます。これは、プロセスの実行がスケジュールされている場合は、スナップショットが自動的に再実行され、データの変更内容が必要に応じて取得されることを意味します。

クライアント側スナップショットは、サーバー経由ではなくクライアント経由でアクセスされるデータのソースに対して使用されます。たとえば、操作するデータが、EDQホストがインストールされていないクライアント・マシン(つまり、クライアントはネットワーク上のEDQホストにアクセスする)に格納されている場合です。この場合、データはクライアント上のコネクタ経由でEDQホストのリポジトリにコピーされます。

クライアント側スナップショットは、接続されたクライアント・マシン上で、データ・ソースへのアクセス権があるユーザーが手動でのみ(つまり、スナップショットを右クリックして「実行」を選択することで)再ロードできます。

スナップショットの取消

実行中のスナップショットは、右クリック・オプションを使用して取り消すことができます。取り消すと、プロジェクト・ブラウザ・ツリーのスナップショット・アイコン上に、取消インジケータが重なって表示されます。そのスナップショットが後で正常に再実行されると、取消インジケータが削除されます。