識別

識別は、グループとマージを除くすべての照合プロセッサのサブプロセッサです。照合構成の識別ステップの目的は、ソース属性を識別子(後述の説明を参照)にマップし、その識別子を使用してデータ・ストリーム内またはデータ・ストリーム間のレコードを照合することです。

識別子

識別子を使用して、照合が必要な実社会のビジネス・エンティティ(例: 個人の氏名、住所、在庫品目)を表して識別します。

ビジネス・エンティテの識別方法は多数あるため、識別子の種類も多数あります。

システム識別子 - システム内で使用して、レコードまたはエンティティを識別します。多くの場合、データベースでは主キーになります。
実社会の識別子 - システムの外部で意味を持つエンティティの属性で、識別の目的で使用されます。
代替識別子 - システムの外部で意味を持つエンティティの属性で、必ずしも識別用ではないが識別の目的で使用できます。

たとえば、書籍に関する情報を格納するシステム内で、書籍は次の方法で識別できます。

主キー(システム識別子)
ISBN (実社会の識別子)
タイトル、著者および公開日の組合せ。(代替識別子)

EDQでは、これら各種の識別子は区別されません。照合対象のエンティティを識別するには、一部または全部のタイプの識別子を個別にまたは組み合せて使用できます。

EDQでは、エンティティを識別するために、そのエンティティの1つ以上の属性が識別子にマップされます。

識別子タイプ

様々なタイプのデータの照合に(例: 日付の比較、数値の照合)スペシャリストの比較を使用できるように、様々なタイプの識別子が存在しています。

識別子タイプのデフォルト・セットは基本型(日付、日付配列、文字列、文字配列、番号および番号配列)であることに注意してください。これらには、各ソース・データ・ストリームから1つの属性のみをマップできます。ただし、識別子タイプのセットは、特定の識別子や比較を追加するために拡張できます。たとえば、Address識別子タイプでは、スペシャリストの住所比較を使用して異なる構造の住所をマップできます。

「文字配列」を使用すると、単純な文字列を文字配列または別の文字配列を持つ文字配列と照合できます。「番号配列」と「日付配列」の両方でも同じことが適用されます。

使用

識別構成ステップを使用して、照合対象の属性を識別子にマップします。次に、識別子はクラスタリングおよび照合処理で使用されます。

これにより、データ・ストリーム間の属性名の差異を解決できます。たとえば、次に示すように、あるデータ・ストリーム内のlname属性と、別のデータ・ストリーム内のSURNAME属性は、両方ともsurname識別子にマップできます。

複数のデータ・ストリームを照合する場合は(リンクする場合など)、2つの識別子を作成することにより、あるデータ・ストリーム内の1つの属性を別のデータ・ストリーム内の複数の属性と照合できます。これにより、誤ったフィールドに入力されたデータに関する問題を照合プロセス内で解決できます。

識別子を追加するには、次の2つの方法があります。

構成ビュー・パネルから入力サブプロセッサを選択
識別子サブプロセッサ内から

重複除外照合プロセッサなどで1つのデータ・ストリームで作業しているときに、入力属性を表示しているときに、識別子を構成パネルから直接追加するのが最も簡単な方法です。統合、リンク、強化照合プロセッサなどで複数のデータ・ストリームを使用しているときは、各データ・ストリームの属性を、「識別」ダイアログで識別子にマップする必要があります。この場合、最初は入力属性ビューから必要な識別子を作成できますが、その識別子をマップするには前述の「識別」ダイアログを開く必要があります。

識別子の自動マッピング

自動マップ機能は、識別サブプロセッサ内で使用でき、入力サブプロセッサが選択されている場合は構成ビュー・パネルから使用できます。

自動マップが最も使用されるのは、入力データ・ストリーム内の全属性に対して識別子を作成する場合と、一貫性のある命名規則が使用されている場合です。自動マップでは、すべての作業データ入力ストリームと参照データ入力ストリーム内で検出された一意の属性名ごとに識別子が作成され、その名称のすべての入力属性が適切な名称にマップされます。