レコード重複プロファイラ

レコード重複プロファイラを使用すると、選択した属性に基づいて、相互に完全に重複しているレコードを検出できます。

レコード重複プロファイラは、データ・セット内で完全に重複している(たとえば、データ移行時のエラーが原因で)レコードがあるかどうかをチェックするために使用します。

重複チェックで使用する属性は選択可能なので、レコード全体のサブセットに基づいて重複したレコードを検索することもできます。たとえば、氏名、住所および郵便番号に基づいて重複した顧客レコードを検索できます。

次の表に、構成オプションを示します。

構成 説明

入力

重複チェックで使用する属性を指定します。

オプション

次のオプションを指定します。

  • データなしを重複とみなす: すべての属性がNull値のレコードを相互に重複とみなすかどうかを決定します。値は「はい」または「いいえ」です。デフォルト値は「はい」です。

  • 大文字/小文字を区別しない: 重複分析で大文字と小文字の別を無視するかどうかを決定します。値は「はい」または「いいえ」です。デフォルト値は「はい」です。

一部(全部ではない)の属性がNull値で、それらが他のレコードと完全に一致するレコードは、常に重複とみなされます。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

なし。

フラグ

次のフラグが出力されます。

  • RecordDuplicate: どの属性が他と重複しているかを示します。使用可能な値はYまたはNです。

レコード重複プロファイラは、レコードのバッチについて重複を評価します。したがって、処理が完了するまで結果が生成されないため、これはリアルタイム・レスポンスが必要なプロセスには適していません。

リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、リーダー・プロセッサで構成されたコミット・ポイント(トランザクションまたは制限時間)に到達すると処理が終了します。返される統計は、トランザクションのバッチ内でのみの重複数を示します。

次の表に、このプロファイラによって生成される統計情報を示します。

統計 説明

重複

分析対象の属性間で重複しているレコードの数。

重複なし

分析対象の属性間で重複していないレコードの数。

この例では、レコード重複プロファイラを使用して、2つの属性ADDRESS1およびADDRESS2に基づいて顧客表内の重複を検出しています。

重複 重複なし

8

1993

重複した値からレコードにドリルダウンできます。

ADDRESS1 ADDRESS2 RecordDuplicate

Crescent Road,

読込み

Y

Grange Road,

North Berwick

Y

Grange Road,

North Berwick

Y

Crescent Road,

読込み

Y