Identify

「Identify」は、「Group and Merge」を除くすべてのマッチ・プロセッサのサブプロセッサです。マッチ構成の「Identify」ステップの目的は、ソース属性を識別子(後述の説明を参照)にマップし、その識別子を使用してデータ・ストリーム内またはデータ・ストリーム間のレコードをマッチさせることです。

識別子

識別子を使用して、照合が必要な実社会のビジネス・エンティティ(例: 個人の氏名、住所、在庫品目)を表して識別します。

ビジネス・エンティテの識別方法は多数あるため、識別子の種類も多数あります。

たとえば、書籍に関する情報を格納するシステム内で、書籍は次の方法で識別できます。

EDQでは、これら各種の識別子は区別されません。マッチ対象のエンティティを識別するには、一部または全部のタイプの識別子を個別にまたは組み合せて使用できます。

EDQでは、エンティティを識別するために、そのエンティティの1つ以上の属性が識別子にマップされます。

識別子タイプ

様々なタイプのデータの照合に(例: 日付の比較、数値のマッチ)スペシャリストの比較を使用できるように、様々なタイプの識別子が存在しています。

識別子タイプのデフォルト・セットは基本型(日付、文字列および数値)であることに注意してください。これらには、各ソース・データ・ストリームから1つの属性のみをマップできます。ただし、識別子タイプのセットは、特定の識別子や比較を追加するために拡張できます。たとえば、「Address」識別子タイプでは、異なる構造の住所をマップでき、スペシャリストの住所比較で使用できます。「EDQでのマッチの拡張」を参照してください。

用途

「Identify」構成ステップを使用して、マッチ対象の属性を識別子にマップします。次に、識別子はクラスタリングおよびマッチ処理で使用されます。

これにより、データ・ストリーム間の属性名の差異を解決できます。たとえば、次に示すように、あるデータ・ストリーム内の「lname」属性と、別のデータ・ストリーム内の「SURNAME」属性は、両方とも「surname」識別子にマップできます。

複数のデータ・ストリームを照合する場合は(リンクする場合など)、2つの識別子を作成することにより、あるデータ・ストリーム内の1つの属性を別のデータ・ストリーム内の複数の属性と照合できることに注意してください。これにより、誤ったフィールドに入力されたデータに関するイシューをマッチ・プロセス内で解決できます。たとえば、氏名の「Forename」(名)属性と「Surname」(姓)属性が入れ替わっている顧客データは、次のように識別子をマップしてマッチをチェックできます。

構成

識別子を追加するには、次の2つの方法があります。

「Deduplicate」マッチ・プロセッサなどで1つのデータ・ストリームを使用しているときに、入力属性を表示する最も簡単な方法は、識別子を構成パネルから直接追加することです。「Consolidate」、「Link」、「Enhance」マッチ・プロセッサなどで複数のデータ・ストリームを使用しているときは、各データ・ストリームの属性を、「Identify」ダイアログで識別子にマップする必要があります。この場合、最初は入力属性ビューから必要な識別子を作成できますが、その識別子をマップするには前述の「Identify」ダイアログを開く必要があります。

識別子の自動マッピング

自動マップ機能は、「Identify」サブプロセッサ内で使用でき、「Input」サブプロセッサが選択されている場合は構成ビュー・パネルから使用できます。

自動マップが最も使用されるのは、入力データ・ストリーム内の全属性に対して識別子を作成する場合と、一貫性のある命名規則が使用されている場合です。自動マップでは、すべての作業データ入力ストリームと参照データ入力ストリーム内で検出された一意の属性名ごとに識別子が作成され、その名称のすべての入力属性が該当する名称にマップされます。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.