1.3.6.13 レコード重複プロファイラ
レコード重複プロファイラを使用すると、選択した属性に基づいて、相互に完全に重複しているレコードを検出できます。
レコード重複プロファイラは、データ・セット内で完全に重複している(たとえば、データ移行時のエラーが原因で)レコードがあるかどうかをチェックするために使用します。
重複チェックで使用する属性は選択可能なので、レコード全体のサブセットに基づいて重複したレコードを検索することもできます。たとえば、氏名、住所および郵便番号に基づいて重複した顧客レコードを検索できます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
重複チェックで使用する属性を指定します。 |
オプション |
次のオプションを指定します。
一部(全部ではない)の属性がNull値で、それらが他のレコードと完全に一致するレコードは、常に重複とみなされます。 |
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
次のフラグが出力されます。
|
レコード重複プロファイラは、レコードのバッチについて重複を評価します。したがって、処理が完了するまで結果が生成されないため、これはリアルタイム・レスポンスが必要なプロセスには適していません。
リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、リーダー・プロセッサで構成されたコミット・ポイント(トランザクションまたは制限時間)に到達すると処理が終了します。返される統計は、トランザクションのバッチ内でのみの重複数を示します。
次の表に、このプロファイラによって生成される統計情報を示します。
統計 | 説明 |
---|---|
重複 |
分析対象の属性間で重複しているレコードの数。 |
重複なし |
分析対象の属性間で重複していないレコードの数。 |
例
この例では、レコード重複プロファイラを使用して、2つの属性ADDRESS1およびADDRESS2に基づいて顧客表内の重複を検出しています。
重複 | 重複なし |
---|---|
8 |
1993 |
重複した値からレコードにドリルダウンできます。
ADDRESS1 | ADDRESS2 | RecordDuplicate |
---|---|---|
Crescent Road, |
読込み |
Y |
Grange Road, |
North Berwick |
Y |
Grange Road, |
North Berwick |
Y |
Crescent Road, |
読込み |
Y |