3 照合の使用方法

この章では、EDQ-CDSの照合機能を使用してデータを照合する方法について説明します。

この章の内容は次のとおりです。

EDQ-CDSは、実際のばらつきを示す顧客データを照合することを目的に設計されています。データ・セットの関連する一致がすべて提示され、レコード間の一致の可能性に応じて適切にスコア付けされます。そのために、提示されたデータに対して多岐にわたる照合アルゴリズムを適用するだけでなく、データの派生形に対しても照合技術を適用するなど、多種多様なメカニズムが使用されます。

たとえば、ある表記法で提示された名前は、その表記法とともに変換された名前も使用して照合され、効果的なスクリプト間照合が提供されます。同様に、住所は、ほぼ生の形式で(国際住所の単語および語句の標準化後、かつ充填単語の削除後に)照合されますが、推定される建物番号、サブ建物番号、郵便番号といったキー情報を住所から抽出して照合するという方法もあります。

照合の目的

一般に、EDQ-CDSで提供される照合サービスは、検索ではなく、重複防止のために設計されています。つまり、このすぐに使用できるサービスの目的は、レコードがシステムに追加されるとき、すでに存在すると思われる場合に介入することです。これが意味するところは、照合サービスでは、単一の属性(名前など)よりもずっと多くのものに的が絞られており、意図的に典型的な検索操作ほど広いネットにはキャストしないということです。一致していないが似たような詳細を保持し、まったく同じ名前であったとしても、2次的識別情報が一致の可能性が低いことを示す他のレコードがシステムに存在することがあります。このような場合、EDQ-CDSでは、可能性がある一致を解消する役割を担うユーザーまたはデータ・スチュワードによる追加の作業を最低限に抑えることを目指しています。これにより、この製品は、Oracle Customer Hubなどのマスター・データ管理システムのデータ品質保護コンポーネントとして動作することに理想的に適しており、そこでのサービスの目的は、できるだけ多くのレコードをできるだけノイズがない状態で自動的にリンクすることです。同じことが、Siebelなどのカスタマ・リレーションシップ・マネジメント・システムについても当てはまります。

注意:

さらに徹底的な照合を実行するためにEDQ-CDSの構成を変更できます。これは主に、必ずしも(名前フィールド以外に)十分な2次的情報を提供しなくてもよい、少量で高価値のデータ・セットで使用するために設計されています。

複数のロケールと言語

EDQ-CDSは、マルチロケール・システムとして設計されており、国際的でカルチャに依存する名前の転写、文字変換および異形認識技術を使用する他、住所の標準化および照合の際には国際的な辞書を使用します。

このシステムは国際データを使用するように設計されており、そのために名前および住所の標準化の国際的な辞書が用意されています。国際的な'ラテン語スクリプト'辞書では、次の'基本'ロケールなどが網羅されています。

  • 米国およびカナダ

  • イギリス

  • フランス

  • ドイツ

  • イタリア

  • スペイン

  • ポルトガル

  • ブラジル

  • ギリシャ

  • アイルランド

  • オーストリア

  • トルコ

  • 南アフリカ

  • オーストラリアおよびニュージーランド

  • スカンジナビア

  • アルゼンチン

  • メキシコ

これらの基本ロケールに加えて、EDQ-CDSでは、次のロケールからのデータを高度に処理するために、特殊なオプション機能が用意されています。

  • アラブ世界(アラビア語およびアラビア語/ラテン語混合)

  • 日本(漢字、カタカナおよびひらがな)

  • 中国(簡体字中国語および繁体字中国語)

  • ロシア

  • 韓国(ハングル)

一連の使用可能な言語は、EDQ-CDS - 参照データの初期化プロジェクトの構成によって決まるため、同じ参照データをいくつものEDQ-CDS照合サーバーで使用できます。デフォルトでは、基本ロケールの参照データ・セットはEDQサーバー・ランディング領域で事前に初期化されますが、これらのファイルの上にcdslists-initialized-full.zipを解凍する(サポートされているすべてのロケールおよび言語を網羅する場合)か、初期化ジョブを構成して実行すると、簡単に上書きできます。

照合の使用

EDQ-CDSに組み込まれている照合プロセスは、主に次のユースケースを対象に設計されています。

  • 重複防止 - キー生成および照合のWebサービスを使用して重複レコードがアプリケーションに入力されないようにします。

  • 重複削除のための定期的なバッチ照合 - バッチ照合ジョブを使用してアプリケーション内の全部または一部のデータに対して実行し、可能性があるマージのためにレコードをリンクします。

また、バッチ照合プロセスは、システムにロードされる前にレコードの重複を除外するためのテンプレートとして使用することもできます。それには、追加の構成とEDQの使用が必要となる可能性があります。このような状況でのベスト・プラクティスは、EDQ-CDSデータ品質ヘルス・チェックで使用できるようなデータ・プロファイリングおよび監査技術を使用して、照合前にデータを理解することです。ほとんどの場合、一連の使用可能な一致ルールでは、パフォーマンスと効果の間で最適なバランスを実現するために、対象範囲内のデータの詳細についてなんらかのチューニングが必要です。また、EDQの「一致レビュー」アプリケーションを使用して可能性がある一致をレビューし、レコードをまとめてマージするためのルールを作成することが必要になる場合もあります。

注意:

2つの主なユースケースでは、一致が識別された後にコール元アプリケーションによってマージが実行されるため、EDQ-CDSには、すぐに使用できるマージ(または存続)構成が用意されていません。

重複防止

EDQ-CDSでは、重複防止にステートレスWebサービスを使用して、大量の顧客データの複雑な複製や同期を回避します。これにより、次の要件がEDQと統合されているアプリケーションに課されます。

  1. レコードのタイプ(連絡先やアカウントなど)ごとのクラスタ・キー表の格納。これらは通常、レコードの主キーとクラスタ・キーの2列しかない表です。この表では、レコードごとに複数のキー値を許容する必要があります。

  2. 候補レコードを選択し、作成して照合サービスに送信する機能。内容は次のとおりです。

    1. 関連レコードについてのクラスタ・キー表への問合せと、キー値を駆動レコードと共有する全レコードの検索。

    2. これらの各レコードについて照合に必要なデータの作成。

    3. 駆動レコードとともにこれらの候補レコードの照合サービスへの送信。

最適な重複防止のプロセス・フロー

重複防止のためにEDQ-CDSの全機能にアクセスするには、統合が次のように機能する必要があります。

  1. リアルタイムの重複防止のためにシステムを準備するために、キー生成プロセスを使用してキー値をバッチ内のレコードごとに生成します。これは、データをアプリケーションに移入する際に発生するか、アプリケーションのクラスタ・キー表にキー値を生成するバッチ・プロセスとして発生します。

  2. アプリケーションでレコードが追加または更新されると、キー生成サービスがリアルタイムでコールされ、レコードについて多数のキー値を戻します。

  3. 次に、アプリケーションは、格納された既存のキーを使用して候補レコード(共通のキーを駆動レコードと共有するレコード)を選択し、駆動レコードとともに照合サービスに送信します。

  4. 照合サービスは、どの候補が駆動レコードに対して可能性が高い一致かを判別し、それらのレコードのIDと一致の強さを示すスコアを戻します。

  5. 次に、アプリケーションは、照合結果の使用方法(たとえば、'自動照合'するのか、レコードの挿入を続行するかどうかあるいは既存のレコードとマージするかどうかを判断できるように可能性がある一致をユーザーに提示するのか)を決定します。

  6. レコードを別のレコードとマージして変更されたマスター・レコードを作成する場合、レコードをコミットする前に正しいキー値を再生成するために、キー生成サービスを追加でコールする必要があります。

このモデルでは、複合マルチロケールEDQ技術を使用してキー値を生成し、パフォーマンスと照合効果の間で適切なバランスが維持されるようにすると同時に、コール元アプリケーションによってデータの整合性とトランザクション・コミットの制御が保持されるようにします。

バッチ照合

Siebel CRMを使用する場合、Siebel Data Quality Managerを使用してバッチ・ジョブを実行し、共有ステージング・データベースを使用して照合用のレコードを書き込み、一致結果を使用します。EDQ-CDSバッチ照合プロセスでは、Siebelの'全体照合' (すべてのレコードを互いに照合)モードと'増分照合' (選択したすべての候補に対して一部のレコードを照合)モードに自動的に調整します。

照合のチューニング

EDQ-CDS照合では、使用されるデータにどの識別子が移入されるかについて過度に気遣う必要はありません。EDQ-CDSでは、移入されないデータを不必要に強調するアルゴリズムを使用しないため、この調整を必要としません。

照合は、関連する入力属性(名前、住所、電子メールなどに関連するものなど)での一致を別々に考え、一致を見つけるために様々な方法をそれぞれに対して試行することで機能します。EDQでは、このような論理的に関連する属性に対するグループ化された照合ルールを"複合比較"と呼びます。次に、このような複合比較での一致を組み合せて、2つのレコードが全体的にどの程度一致しているかを判断します。照合の設計は、識別子が現実世界の原則に基づく可能性がどの程度強いかという情報に基づいています。一致のチューニングは通常、次のタスクのいずれかの実行に関わる問題です。

  • 複合比較の重み付けの調整

  • 複合比較の有効化または無効化

  • キー生成の構成の調整

  • 指定されたルールの有効化または無効化

  • 複合比較内の特定ルールのスコア調整

  • 複合比較への新しいルールの挿入(場合によっては、既存ルールの強化または弱化)

注意:

新しいルールの構成を挿入する場合でも、新しい比較を追加するのではなく、既存の比較および比較結果を使用することは十分可能ですが、どちらも可能です。

一致メタデータの出力

一致メタデータの出力には、一致の一因となった複合比較に関する情報とともに、2つのレコードが一致した理由について粒度の細かい詳細が提示されます。次のEDQ一致メタデータが複合比較(名前、住所、電子メール、電話など)ごとに出力されます。

  • [複合比較] 結果(例: N040 名の省略)

  • スコア(100点中)

  • カテゴリ(完全、あいまい、データなし、または競合)

キー生成の使用

キー生成は、照合の最終段階で実行される作業を最小限に抑えるために使用します。重要なデータ・フィールドにおける類似点に基づいて、レコードを切片(クラスタ)に分割することで機能します。同様の特性を共有する(したがって、同じクラスタに格納される)データのサブセットのみが照合時にレコード単位で比較されます。

疎クラスタを使用すると、各クラスタ内には大量のレコードが存在します。つまり、真の一致を見逃すリスクは減りますが、キーが生成されるレコードをすべて比較するためにより多くの処理が必要となります。より密なキー生成方式ではグループが小さくなるため、処理時間が短縮されますが、真の一致がいくつか検出されない可能性が高くなります。

EDQ-CDSには、キー・データ・フィールドの様々な組合せを構成で使用する個人、エンティティおよび住所の各データについて、多種多様なキー・メソッド・アルゴリズムが同梱されています。各キー・メソッド・アルゴリズムには、識別しやすくするために、また別のキー・メソッドのキーと同一にならないように、一意の接頭辞コードが割り当てられています。

レガシー・クラスタリング

リリース12.2.1より前では、キー生成はクラスタリングと呼ばれ、提供された機能は現在のキー生成よりずっと制限されていましたが、原則は同じです。"クラスタリング"の3つのメソッドのみが提供されましたが、簡単にカスタマイズする余地はありません。

これらの"レガシー"メソッドは、実行プロファイルで次のように設定することで引き続き使用できます。

phase.*.process.*.uselegacykeygen = Y

また、次を使用してレベルを設定する必要があります。

phase.Individual\ Keygen.process.*.clusterlevel = [1/2/3]

キー・メソッドの構造

パーティ・タイプごとに、キー・メソッドはキー・グループおよびキー・タイプに分類されます。

たとえば、個人の'名前と電話'キー・グループには、名前属性と電話属性の組合せを使用して作成されたキー・メソッドがすべて含まれます。このグループ内には、次の2つのキー・タイプがあります。

FNMGNMPNR: 姓metaphone、名metaphoneおよび電話番号の右端の文字に基づいたキー・メソッド

FNMPNL: 姓metaphoneおよび電話番号の左端の文字に基づいたキー・メソッド

各キー・タイプは、1つ以上の実際のキー・メソッドで構成され、それぞれ可変長のmetaphoneまたは左端/右端の文字を使用します。

たとえば、FNMPNLキー・タイプには、次のキー・メソッドが含まれます。

FNM4PNL6: 姓metaphoneの最初の4文字、電話番号の最後の6文字

FNM4PNL7: 姓metaphoneの最初の4文字、電話番号の最後の7文字

FNM4PNL8: 姓metaphoneの最初の4文字、電話番号の最後の8文字

これらは、使用される電話番号の部分文字列の長さが長くなり、その結果より密なキーを提供するので、それぞれ'厳密'、'標準'および'緩やか'と分類されます。

これらのうち最後のメソッドを使用して生成されたキー値は、次の形式をとります。

FNM4PNL8^MN^65065421

自動または'エンコードされた'キー・プロファイルは、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。

AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14

キー優先度は、特定のプロファイル内の相対的なものにすぎず、本質的な意味はありません。

カスタム属性のキー

カスタム属性のキーは、キー生成の際に必要に応じて作成できます(デフォルトでは、カスタム属性に対してキーは生成されません)。

これは、次のように実行プロファイルで指定します。

phase.*.process.*.customstringNkey = Y

phase.*.process.*.customdateNkey = Y

また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request customstringNkey="Y" customdateNkey="Y">

使用される実際のキー作成メソッドは、指定するキー・プロファイルによって決まります。

  • Strictプロファイルは、完全文字列に基づいてカスタム文字列のキーを、完全日付に基づいてカスタム日付のキーを作成します。

  • Looseプロファイルは、文字列のmetaphoneに基づいてカスタム文字列のキーを、年のみに基づいてカスタム日付のキーを作成します。

  • Typicalプロファイルは、文字列の最初の10文字に基づいてカスタム文字列のキーを、年および月に基づいてカスタム日付のキーを作成します。

カスタム属性は、レガシー・クラスタ・レベルを使用した場合、無視されます。

キー・メソッド分析

キー・メソッド分析により、顧客のデータを自動的に分析し、その特定のデータ・セットに対する最適なキー・プロファイルを決定する機能がCDS内に導入されます。キー分析は、次の主な手順で構成されます。

  1. 使用可能なキー・メソッドをすべて使用してデータのキー値を生成します。
  2. 高頻度のキー値やキー値の分布/多様性など、各種統計的メカニズムを使用して、それらのキー値のプロファイル、スコアおよびランクを作成します。
  3. 各キー・グループ内で最適なキー・メソッドを選択することで、推奨されるキー・プロファイルを作成して出力します。

カスタム属性は、キー生成に対して有効になっている場合、キー分析時に考慮されます(「カスタム属性のキー」を参照)。

既存の固定属性と同様に、使用可能なカスタム属性のキー・メソッドはすべて分析されます。

バッチ・キー分析の実行

ジョブの実行前に作成する必要がある、キー分析用の新しいステージング表がいくつかあります。これらの表を作成するSQLコマンドが既存のデフォルト・スクリプトedq_staging_tables.sqlに追加されています。このスクリプトは、EDQに同梱されていおり、<middleware_home>/edq/oracle.edq/scripts/cds下にインストールされます。

キー分析を実行するためのバッチ・ジョブは、次のとおりです。

  • バッチ個人キー分析

  • バッチ・エンティティ・キー分析

  • バッチ住所キー分析

これらのジョブは、キー生成および照合用の既存のバッチ・ジョブと同様の構造をしており、パーティ・データをステージング・スキーマ内の関連する候補表で受信し、その結果を同じスキーマ内の表に出力することを想定しています。

キー分析の仕組みの統計的性質のため、分析する顧客データ一式を常に受信する必要があります。ジョブは実際にはデータのサンプルで実行されますが、結果はそのサンプルにのみ適用され、完全なデータセットまで拡大できません。

次の実行プロファイル・パラメータは、キー分析が正常に実行されるようにYに設定する必要があります。

phase.Key\ Analysis.process.*.generateallkeys = Y

実行プロファイルには、SERVERIDパラメータとJOBIDパラメータを既存のステージング表に同様の方法で公開するために、キー分析用に様々な新しいSQL文が含まれていることにも注意してください。したがって、これらのパラメータも実行プロファイルにインラインで、他の表パラメータに対する変更とともに更新する必要があります。

キー・メソッド分析の出力

キー分析の出力により、次のステージング表が作成されます。

EDQCDS_KEY_ANALYSIS_PROFILE

この表にはジョブごとに1行あり、その行には推奨されるキー・プロファイルのみが含まれ、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。

AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14

これは、ユーザーが推奨を受け入れることにした場合、キー生成および照合に使用されるプロファイルです。

注意:

キー分析では、実際には推奨されたプロファイルのキー値が出力されません。これは、関連するバッチ・キー生成ジョブを実行し、それに応じて推奨されたプロファイルを渡して、個別に実行する必要があります。

EDQCDS_KEY_ANALYSIS_REPORT

この表には、分析されたキー・メソッドごとに1行が含まれ、プロファイルに対して選択されたかどうかと、その場合には割り当てられた優先度とともに各メソッドの統計およびスコアの詳細が示されます。生成されたキー・メソッド(つまり、パーティ・データに関連する空白以外の属性が含まれるキー・メソッド)のみが示されます。

このレポートは、主にサポートおよび診断目的で提供されています。

EDQCDS_KEY_ANALYSIS_TOP_VALUES

この表には、分析されたキー・メソッドごとの件数による上位20個のキー値が含まれます。生成されたキー・メソッド(つまり、パーティ・データに関連する空白以外の属性が含まれるキー・メソッド)のみが示されます。

このレポートは、ユーザーがデータに関する潜在的なDQ問題を識別するのに役立ちます。つまり、非常に大量のキー値は、スパイクや汎用データ値(電話番号'000000'や電子メール・アドレス'sales@'など)を示す可能性があります。

個人のキー・タイプ

個人データの照合用のキー・メソッドは、次のキー・タイプに基づいています。

接頭辞 クラスタ名 レベル 説明

LMP

姓Meta、郵便番号

1

姓の4文字double-metaphone+郵便番号の最初の5文字+住所1の最初の3文字。

注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値のpostalcodeが数値として再解釈されるのを回避するために、数値のpostalcodesにおいてのみ先行ゼロが削除されます。たとえば、Excelでは、数値のpostalcodesを先行ゼロを削除して数値として再度書式設定します。これは、edq-cds-daas.properties実行プロファイルでデフォルトで有効になっています。英字が存在する場合、先行ゼロは削除されません。

PLN

電話の最後のN文字

1

電話/Fax/職場/携帯番号の最後のN桁を6に設定。

EF9

電子メールの最初の9文字

1

電子メール・アドレスの最初の9文字。

TAX

税番号

1

税番号の最初の10文字。

EID1

EID2

EID3

除去識別子

1

英数字以外の文字はすべて削除されます。

UID1

UID2

UID3

一意識別子

1

英数字以外の文字はすべて削除されます。

NID

国民識別子

1

国民番号の最初の10文字。

FLP

名前(標準化された)、姓、郵便番号

2

標準化された名前の最初の文字+姓の最初の3文字+郵便番号の最初の5文字。

FLY

名前(標準化された)、姓、市区

2

標準化された名前の最初の3文字+姓の最初の3文字+市区名の最初の10文字。

FA1

名前(標準化された)、住所1

2

標準化された名前の最初の3文字+住所行1の最初の10文字。

LMC

姓Meta、会社の最初の単語

2

姓の最初の4文字+アカウント名の最初の単語。

A5F

住所1、住所2、市区

3

住所行1の最初の5文字+住所行2の最初の5文字+市区名の最初の5文字。

OSP

元のスクリプト名、郵便番号

3

元のスクリプト名の最初の4文字+郵便番号の最初の4文字。

FLM

フルネームMeta

3

フルネーム・トークンをソートしてからdouble-metaphoneアルゴリズムが適用されて、最長3文字のトークンが生成されます。順序付けられた各トークンのペアに対して、2つのmetaphoneトークンの連結であるクラスタ値が生成されます。

表3-1 住所のみ

キー・タイプ 説明

AD1AD2CTL

精製されたaddress1 (空白なし、左端の文字)、精製されたaddress2 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

ADACTLPRE

標準化されたadminarea (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字)

表3-2 名前と企業

キー・タイプ 説明

ANLGNLFNL

accountname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

ANWFNMGNL

accountname (左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字)

ANWFNM

accountname (左端の文字)、familyname (Double metaphone、左端の文字)、

ANMGNLFNL

accountname (最初の単語、Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

表3-3 名前とDOB

キー・タイプ 説明

DBYGNLFNL

標準化されたDOB (年)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

DBXGNLFNL

標準化されたDOB (完全日付)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

DBNGNLFNL

標準化されたDOB (年と月)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

表3-4 名前のみ

キー・タイプ 説明

FMP

標準化されたfullname (トークンの配列、metaphoneのペア、左端の文字)

GNWFNL

標準化されたgivenname (左端の単語)、正規化されたfamilyname (空白なし、左端の文字)

表3-5 名前と電話

キー・タイプ 説明

FNMGNMPNR

familyname (Double metaphone、左端の文字)、標準化されたgivenname (最初の単語、Double metaphone、左端の文字)、標準化されたphonenumbers (右端の文字(配列))

FNMPNL

familyname (Double metaphone、左端の文字)、標準化されたphonenumbers (左端の文字(配列))

表3-6 フルネームと住所

キー・タイプ 説明

AD1FNLGNL

精製されたaddress1 (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)

FNLGNLPCL

familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

CTLFNLGNL

標準化されたcity (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)

表3-7 自宅住所

キー・タイプ 説明

AD1FNMPCL

精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

AD1FNMCTL

精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたcity (空白なし、左端の文字)

表3-8 国民ID

キー・タイプ 説明

NIL

標準化されたnationalidnumber (左端の文字(配列))

NIP

標準化されたnationalidnumber (左端と右端の文字のペア(配列))

表3-9 電話

キー・タイプ 説明

PNR

標準化されたphonenumbers (右端の文字(配列))

表3-10 スクリプト名

キー・タイプ 説明

OSLPCL

scriptfullname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

表3-11 税番号

キー・タイプ 説明

TNL

標準化されたtaxnumber (左端の文字(配列))

TNP

標準化されたtaxnumber (左端と右端の文字のペア(配列))

表3-12 UID

キー・タイプ 説明

UID(1/2/3)

標準化されたuid[1, 2, 3] (左端の文字(配列))

表3-13 カスタム文字列

キー・タイプ 説明

CM[1-6]

標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし))

CL[1-6]

標準化されたcustomstring[1-6] (空白なし、左端の文字)

表3-14 カスタム日付

キー・タイプ 説明

CY[1-6]

標準化されたcustomdate[1-6] (年)

CX[1-6]

標準化されたcustomdate[1-6] (完全日付)

CN[1-6]

標準化されたcustomdate[1-6] (年と月)

注意:

キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでおり、空白が削除されているデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。

次のレコード・データを使用して、個人キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性

firstname

Jim

middlename

Frederick

lastname

Smith

mobilephone

077777 123456

email

jsmith@mymail.com

taxnumber

888666444

accountname

Acme Ltd

address1

14 high St

city

Cambridge

postalcode

CB1 2AB

uid1

00021-53563

eid1

gbr0008873323

nationalidnumber

AB 12 34 56 C

Typicalキー・プロファイルを使用して生成されるキー値は次のとおりです。

キー・タイプ キー・メソッド 優先度 クラスタ値

UI1

UI10

1

UI10^0002153563

AD1FNLGNL

AD110FNL3GNL3

42

AD110FNL3GNL3^14HIGH^SMI^JAM

AD1FNMPCL

AD12FNM3PCL5

55

AD12FNM3PCL5^14^SM0^CB12A

AD1AD2CTL

AD17AD25CTL5

59

AD17AD25CTL5^14HIGH^^CAMBR

ANWFNM

ANW1FNM4

54

ANW1FNM4^ACME^SM0

CTLFNLGNL

CTL10FNL3GNL3

51

CTL10FNL3GNL3^CAMBRIDGE^SMI^JAM

ENP

ENP15

40

ENP15^JSMITHMYMAILCOM

FNLGNLPCL

FNL3GNL1PCL5

44

FNL3GNL1PCL5^SMI^J^CB12A

FNMPNL

FNM4PNL7

46

FNM4PNL7^SM0^0777771

NIL

NIL10

36

NIL10^AB123456C

PNR

PNR6

47

PNR6^123456

TNL

TNL1

37

TNL10^888666444

エンティティのキー・タイプ

エンティティ・データの照合用に、次のキー・タイプが用意されています。

表3-15 名前と住所

キー・タイプ 説明

AD1EMTPCL

精製されたaddress1 (空白なし、左端の文字)、精製されたentityname (トークンの配列、Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

ENLPCL

精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

FANENLCTL

精製されたfulladdress (空白なし、数字なし、ノイズ削除済、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

AD1ENLPCL

精製されたaddress1 (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

表3-16 名前Metaphoneと住所

キー・タイプ 説明

CTLFALNSM

標準化されたcity (空白なし、左端の文字)、精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)

FALNSM

精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)

CTLNSM

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)

表3-17 名前のみ

キー・タイプ 説明

NSL

精製されたfullname (空白なし、左端の文字)

ENMSNM

精製されたentityname (Double metaphone、左端の文字)、精製されたentitysubname (Double metaphone、左端の文字)

FMT

精製されたfullname (トークンの配列、Double metaphone、左端の文字)

表3-18 名前と市区と電話

キー・タイプ 説明

CTLENLPNR

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (右端の文字(配列))

CTLENLPNL

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (左端の文字(配列))

表3-19 電話

キー・タイプ 説明

PNR

標準化されたphonenumbers (右端の文字(配列))

表3-20 Webサイト

キー・タイプ 説明

WSL

websitestem (左端の文字(配列))

表3-21 スクリプト名

キー・タイプ 説明

OSL

script fullname (トークンの配列、左端の文字)

表3-22 VAT番号

キー・タイプ 説明

VNL

標準化されたvatnumber (左端の文字(配列))

VNP

標準化されたvatnumber (左端と右端の文字のペア(配列))

表3-23 税番号

キー・タイプ 説明

TNL

標準化されたtaxnumber (左端の文字(配列))

TNP

標準化されたtaxnumber (左端と右端の文字のペア(配列))

表3-24 UID

キー・タイプ 説明

UID[1,2,3]

標準化されたuid[1, 2, 3] (左端の文字(配列))

表3-25 カスタム文字列

キー・タイプ 説明

CM[1-6]

標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし))

CL[1-6]

標準化されたcustomstring[1-6] (空白なし、左端の文字)

表3-26 カスタム日付

キー・タイプ 説明

CY[1-6]

標準化されたcustomdate[1-6] (年)

CX[1-6]

標準化されたcustomdate[1-6] (完全日付)

CN[1-6]

標準化されたcustomdate[1-6] (年と月)

注意:

キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。

次のレコード・データを使用して、エンティティ・キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性

name

Oracle UK

subname

Cambridge

phone

+441223228400

website

http://www.oracle.com/uk

taxnumber

RGW432D243224

vatnumber

999111

address1

296 Cambridge Science Park

city

Cambridge

postalcode

CB4 0WD

uid1

00021-53563

eid1

gbr0008873323

次のキー値は、Typicalキー・プロファイルを使用して生成されます。

キー・タイプ キー・メソッド 優先度 キー値

AD1PCL

AD13PCL4

43

AD13PCL4^296^CB40

AD1EMTPCL

AD14EMT4PCL3

41

AD14EMT4PCL3^296C^ARKL^CB4

CTLNSM

CTL0NSM6

49

CTL0NSM6^CAMBRIDGE^ARKLKM

CTLENLPNL

CTL1ENL1PNL7

47

CTL1ENL1PNL7^C^O^4412232

ENLPCL

ENL4PCL3

42

ENL4PCL3^ORAC^CB4

FALNSM

FAL10NSM4

39

FAL10NSM4^296CAMBRID^ARKL

NSL25^ORACLECAMBRIDGE

NSL

NSL25

40

NSL25^ORACLECAMBRIDGE

PNR

PNR6

58

PNR6^228400

TNL

TNL10

35

TNL10^RGW432D243

UI1

UI10

1

UI10^0002153563

VNL

VNL10

36

VNL10^999111

WSL

WSL8

57

WSL8^ORACLE

住所のキー・タイプ

住所データの照合用に、次のキー・メソッド・タイプが用意されています。

表3-27 住所行

キー・タイプ 説明

AD1AD2

精製されたaddress 1 (空白なし、左端の文字)、精製されたaddress 2 (空白なし、左端の文字)

表3-28 住所と市区

キー・タイプ 説明

AD1CTL

精製されたaddress 1 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

CTLPCLPRE

標準化されたcity (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字)

PMSPCC

導出されたpremise/精製されたaddress 1 (導出されたpremiseの最初の数字語/ premiseの左端の文字/精製されたaddress1の最初の数字語/精製されたaddress1の左端の文字)、標準化されたpostalcode/標準化されたcity (標準化されたpostalcodeの左端の文字/標準化されたcityの左端の文字)

表3-29 完全住所

キー・タイプ 説明

FAL

精製されたfulladdress (空白なし、左端の文字)

FAN

精製されたfulladdress (空白なし、数字なし、ノイズ削除、左端の文字)

表3-30 郵便番号

キー・タイプ 説明

PCL

標準化されたpostalcode (空白なし、左端の文字)

注意:

  • 数字語とは、1つ以上の数字が含まれる単語です。たとえば、234および2Aはいずれも数字語です。

  • キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。

次のレコード・データを使用して、住所キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性

address1

2529 CINCINNATI ST

address2

APT 6

city

LOS ANGELES

adminarea

CA

postalcode

90033

注意:

キーの生成時、STaddress1フィールドから精製され、APTaddress2フィールドから精製されます。これは、これらのフィールドが住所行の残りの行よりも重要ではない識別子である共通の住所指定コンポーネントであり、削除するとより正確なクラスタになるためです。

Typical住所キー・プロファイルを使用して生成されるキー値は次のとおりです。

キー・タイプ キー・メソッド 優先度 キー値

AD1AD2

AD110AD210

12

AD110AD210^2529CINCIN^6

AD1CTL

AD15CTL8

9

AD15CTL8^2529C^LOSANGEL

CTLPCLPRE

CTL8PCL5PRE0

10

CTL8PCL5PRE0^LOSANGEL^90033^2529

FAL

FAL10

11

FAL10^2529CINCIN

FAN

FAN10

13

FAN10^CINCINNATI

PCL

PCL0

15

PCL0^90033

PMSPCC

PMS6PCC5

8

PMS6PCC5^2529^90033

個人照合の使用

CDSにおける個人用の照合の設計は、いくつかの論理識別子(複合比較)間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。

  • 名前

  • 住所

  • アカウント名

  • DOB

  • 電話番号

  • Email

  • 国民ID番号

  • 税番号

カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトでは有効になっていません)。

EDQ-CDSでは、事前構成済の一致ルールを複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。

2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、生年月日が競合する2つのレコードは、名前および住所が完全に一致するのに生年月日がない2つのレコードよりもスコアが低くなります。

論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子に関連する複合比較での一致がある2つのレコードが同じものである可能性がどの程度かを定義します。

個人の名前論理識別子での照合

個人名複合比較での照合用のルールには、同じ個人名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 異なる表記法/スクリプトで書き込まれた名前(例: 'Зоран'と'Zoran')。

  • 同じ名前の異形(例: 'Bill'と'William')。

  • 様々なレベルの名前の完全性(例: 'Joseph Andrew Harris'と'Joseph Harris')。

  • 異なる順序の名前トークン(例: 'Lacazette Jacques'と'Jacques Lacazette')。

  • 名前の省略形式(例: 'Chris'と'Christian')。

  • 印刷上の相違(例: 'Michael'および'Micheal')。

  • 頭文字の使用(例: 'A M'と'Alexander Martin')。

  • 婚姻による姓の変更(例: 同じ住所の'Paula Jones'と'Paula Lewis')。

  • 前述の差異の様々な組合せ。

注意:

この表では、名および姓の入力属性間のセパレータを示すためにパイプ文字を使用します(例: 名 = Martin、姓 = Smithは'Martin|Smith'と表記します)。パイプ文字が使用されていない場合は、フルネームが一致ルールで使用されていることを意味します。

注意:

このリストの先頭付近には、競合の名前ルールがいくつか示されており、これらのルールは明らかに異なる性別である2つの名前間の一致にマイナスの重み付けをして、このような一致を回避するように設計されています。

名前の照合ルール サンプルの名前一致 タイプ

スクリプト・フルネームの完全一致

外国語のアルファベットを使用したサンプルの名前および住所。

完全一致

名前の完全一致

Martin|Fox = Martin|Fox

完全一致

標準化された名

Bill|Lewis = William|Lewis

完全一致

名の省略

Chris|Smith = Christina|Smith

あいまい

名前の競合、指定された性別が異なる

Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け)

競合

名前の競合、導出された性別が異なる

Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け)

競合

標準化された名の省略

Abell|Hernandez = Abelson|Hernandez

あいまい

スクリプト・フルネームの順不同

外国語のアルファベットを使用したサンプル入力。

あいまい

似たような名

Yngrid|Martin = Ingrid|Martin

あいまい

似たような姓

Yngrid Elisabeth|Martin = Ingrid Martin

あいまい

追加された名

Michael John|Smith = John|Smith

あいまい

標準化されたフルネーム

Mehmood Mahomed = Mahmoud Mohammed

あいまい

スクリプト・フルネームに追加された名前がある

外国語のアルファベットからの文字を使用した入力。

あいまい

追加された名前

Mary Jones Steward = Mary Jones

あいまい

スクリプト・フルネームの誤植

外国語のアルファベットからの文字を使用した入力。

あいまい

標準化された名の省略、姓の誤植

Abell|Hernandez = Abelson|Hernandes

あいまい

フルネームの誤植、全単語

Mary Cloire Jonez = Mary Claire Jones

あいまい

名の最初の3文字、姓の誤植

Ros Susan|Jonez = Rose Susan|Jones

あいまい

順序どおりのフルネームの頭文字、追加された名前

G A|Smith = Gordon Alfred|Smith

あいまい

標準化された姓のみ、女性

Jacklin|Jones = Jacqueline|Smith

あいまい

他の論理識別子での照合

住所

個人名照合における住所複合比較での照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 建物およびサブ建物の抽出

  • STREET、ROADなど、よく使用される単語の標準化

  • STREET、ROADなど、よく使用される単語の削除

  • 印刷上の相違

注意:

この表では、address1、address2、address3、city、adminarea、postalcodeの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode=CB4 0WDは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WDと表します。

表3-31 他の論理識別子での照合

住所のルール名 タイプ

住所の完全一致

296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

完全一致

建物、サブ建物、住所の類似、郵便番号

Flat 1|296 Cambridge Science Park||Cambridge||CB4 0WD = Flat 1|296 Cambridge Sci Park||Cambridge||CB4 0WD

あいまい

建物、サブ建物なし、住所の類似、郵便番号

296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Sci Park|Milton Road||Cambridge||CB4 0WD

あいまい

精製された住所1および住所2の完全一致、郵便番号の先頭から一致

296 Milton Road|||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD

あいまい

精製された住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致

296 Milton Road|Science Park||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD

あいまい

建物、サブ建物、郵便番号の先頭から一致

Flat 1|352 Milton Road||Cambridge||CB4 0WD = 352 Milton Road|Flat 1||||CB4 0WD

あいまい

建物、サブ建物なし、郵便番号の先頭から一致

296 Cambridge Science Park|||Cambridge||CB4 0Wd = 296 The Science Park|||||CB4 0WD

あいまい

精製された住所1の完全一致、郵便番号の先頭から一致

296 Cambridge Science Park|Flat 1||Cambridge||CB4 0WD = 296 Cambridge Science Park|Flat 6||Cambridge||CB4 0WD

あいまい

住所(全単語)

296 Science Park|Milton Road||Cambridge||CB4 0WD = Science Park|Milton Road||||CB4 0WD

あいまい

住所(全単語)の誤植

296 Science Park|Milton Road||Cambridge||CB4 0WD = Sciense Park|Milton Road||||CB4 0WD

あいまい

住所の類似、郵便番号

296 Science Pk|Milton Rd||Cambridge||CB4 0WD = Sceince Park|Milton Road||Cmbridge||CB4 0WD

あいまい

住所の類似、住所1の最初の単語

297 Cambridge Science Park||Milton Road|||CB30WS = 296 Cambridge Science Park|Milton Road||||CB4 0WD

あいまい

郵便番号

296 Science Park|||||CB4 0WD = |Milton Road||||CB4 0WD

あいまい

郵便番号の先頭から一致

296 Science Park|||||CB4 0WD = |||||CB4

あいまい

市区の完全一致

352 Mill Road|||Cambridge||CB1 3NN = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

あいまい

住所のデータなし

||||| = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

データなし

住所の競合

19 Teme Ave|||Malvern|Worcs|WR14 2XA = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

競合

アカウント名

アカウント名での照合では、次のような一致が許容されます。

  • 完全一致

  • 印刷上の相違

  • 全単語が共通

表3-32 アカウント名

アカウント名のルール タイプ

アカウント名の完全一致

Widgets and Gadgets Ltd = Widgets and Gadgets Ltd

完全一致

アカウント名の誤植

Widgets and Gadgets Ltd = Widgets and Gagets Ltd

あいまい

アカウント名(全単語)

Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshafts Ltd

あいまい

アカウント名(全単語)の順不同

Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshafts Ltd

あいまい

アカウント名(全単語)の誤植

Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshfts Ltd

あいまい

アカウント名(全単語)の順不同、誤植

Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshfts Ltd

あいまい

アカウント名のデータなし

Oracle Ltd =

データなし

アカウント名の競合

Federal Mogul Camshafts Castings Ltd = Wigets and Gadgets Ltd

競合

電話番号

表3-33 電話番号

電話の照合ルール タイプ

電話の完全一致

01223456678 = 01223456678

完全一致

電話の最後のN文字

+44223456678 = 01223456678

あいまい

電話のデータなし

01223456678 =

データなし

電話の競合

01223456678=01684345678

競合

Email

電子メールの照合では、次のような一致が許容されます。

  • 完全一致

  • ユーザー名のみ完全一致

  • 誤植

表3-34 電子メール

電子メールの一致ルール タイプ

電子メールの完全一致

someonesname@company.com = someonesname@company.com

完全一致

電子メール・ユーザーの完全一致

someonesname@company.com = someonesname@adomain.com

あいまい

電子メールの誤植

someonesname@companion.com = someonesname@company.com

あいまい

電子メールのデータなし

someonesname@company.com =

データなし

電子メールの競合

someonesname@company.com = aperson@adomain.com

競合

生年月日

生年月日の照合では、次のような一致が許容されます。

  • 完全一致

  • 日/月の転置の一致

生年月日の一致ルールには、日付が大きくことなるほど深刻なペナルティを科される競合ルールもあります。

表3-35 生年月日

生年月日の一致ルール タイプ

日付の完全一致

11/01/1976 = 11/01/1976

完全一致

日付の類似

01/11/1976 = 11/01/1976

あいまい

日付のデータなし

11/01/1976 =

データなし

日付の大きすぎる差異

11/12/2001 = 11/01/1976

競合

日付の競合

11/01/1976 = 20/01/1976

競合

国民ID番号

表3-36 国民ID番号

国民ID番号のルール タイプ

国民ID番号の完全一致

ABC112345 = ABC112345

完全一致

国民ID番号の誤植

ABC12345 = ABC112345

あいまい

国民ID番号のデータなし

ABC12345 =

データなし

国民ID番号の競合

ABD2535 = BCD2145

競合

税番号

表3-37 税番号

税番号のルール タイプ

税番号の完全一致

ABC112345 = ABC112345

完全一致

税番号の誤植

ABC12345 = ABC112345

あいまい

税番号のデータなし

ABC12345 =

データなし

税番号の競合

ABD2535 = BCD2145

競合

個人照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。

次に例を示します。表3-38のレコードを比較しました。表3-39に結果を示します。

表3-38 レコードの比較

レコード 1 レコード 2

Firstname

John

Firstname

J

Lastname

Smith

Lastname

Smith

Phonenumber

01223456789

Phonenumber

+44223456789

address1

35 Mill Road

address1

35 Mill Road

city

Cambridge

city

Cambridge

postalcode

CB1 2JJ

postalcode

CB1 2JJ

表3-39 比較の結果

結果

matchscore

95

rulename

N040 名の省略, A010 住所の完全一致, C070 アカウント名のデータなし, D030 生年月日のデータなし, P020 電話の最後のN文字, E040 電子メールのデータなし, I030 国民ID番号のデータなし, T030 税番号のデータなし

ruleattributes

NAME,ADDRESS,PHONE

comparisonresults

名前あいまい,住所完全,電話あいまい

namescore

95

nameresult

N040 名の省略

namecategory

あいまい

addressscore

100

addressresult

A010 住所の完全一致

phoneresult

P020 電話の最後のN文字

phonescore

90

phonecategory

Fuzzyfamilyname

*データがない結果は、簡潔するために省略されています。

注意:

フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。

comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。

ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。

2次識別子一致ルール 説明

DOB; 電子メール

生年月日および電子メールが完全に一致します。

住所;電子メール

住所および電子メールが完全に一致します。

電子メール;電話番号

電子メールおよび電話番号が完全に一致します。

会社;アドレス

短い会社名のすべてのトークンが長い会社名と一致し、住所も完全に一致します。

税番号

税番号が完全に一致します。

国民ID番号

国民ID番号が完全に一致します。

電子メール

電子メールが完全に一致します。

住所

住所が完全に一致します。

電話

電話番号が完全に一致します。

建物、サブ建物、郵便番号の先頭から一致

抽出された建物、サブ建物および郵便番号で住所が一致

注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値のpostalcodeが数値として再解釈されるのを回避するために、数値のpostalcodesにおいてのみ先行ゼロが削除されます。たとえば、Excelでは、数値のpostalcodesを先行ゼロを削除して数値として再度書式設定します。これは、edq-cds-daas.properties実行プロファイルでデフォルトで有効になっています。英字が存在する場合、先行ゼロは削除されません。

建物、サブ建物なし、郵便番号の先頭から一致

住所が抽出された建物および郵便番号で一致し、どちらのsubpremiseフィールドにもデータが存在しません。

DOB

生年月日が完全に一致します。

電話の最後のN桁

最後のN桁を使用して一致する電話番号(デフォルト、最後の6桁)。

会社;郵便番号

短い会社名のすべてのトークンが長い会社名と一致し、郵便番号も完全に一致します。

住所(全単語)

短い住所の全単語が長い住所と一致します。

DOBの類似

生年月日が類似(デフォルトの比較設定を使用した日/月の転位一致)。

税番号の誤植

税番号が1または2の文字編集距離と一致します。

国民ID番号の誤植

国民ID番号が1または2の文字編集距離と一致します。

電子メールの誤植

電子メールが1または2の文字編集距離と一致します。

住所(全単語)の誤植

短いアドレスの全単語が20%の文字エラー・トレランスで長いアドレスと一致します。

住所の類似、郵便番号

文字一致率65以上で住所が一致し、郵便番号が完全に一致します。

住所の類似、住所1の最初の単語

文字一致率65以上で住所が一致し、住所の最初の行で少なくとも1つのトークンが一致します。

会社

短い会社名のすべてのトークンが長い会社名と一致します。

前述の論理識別子に加えて、照合にカスタム・フィールドを使用するように個人照合を構成できます。カスタム・フィールドはデフォルトでは、照合またはクラスタリングに対して有効になっていません(詳細は「カスタマ追加属性による照合の使用」を参照)

一意のカスタム識別子を使用して個々のレコードの照合または除去を実行することもできます(「ID照合の使用」を参照)。

エンティティ照合の使用

個人と同様、CDSにおけるエンティティ用の照合の設計は、複合比較を使用したいくつかの論理識別子間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。

  • エンティティ名

  • 住所

  • 電話番号

  • Webサイト・アドレス

  • 税番号

  • VAT番号

カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトではそれらの照合は有効になっていません)。

EDQ-CDSでは、事前構成済のルールを論理識別子に関連する複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。

2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、Webアドレスが競合する2つのレコードは、名前および住所が完全に一致するのにWebアドレスがない2つのレコードよりもスコアが低くなります。

論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子での一致がある2つのレコードが同じ個人である可能性がどの程度かを定義します。

注意:

異なる表記法間でエンティティを照合することは(個人とは対照的に)かなり難しく、これは、文字変換プロセス(および転写でさえ)が成功する可能性がずっと低いためです。非常に多くの場合、2つの異なる言語で書き込まれたときに企業が同じであることを認識する唯一の方法は、あらゆる可能性がある企業名と適切な翻訳(文字変換や転写ではなく)の大規模な辞書を保持することです。ほとんどの場合、このようなデータは簡単に使用できませんが、使用可能な場合は、結果を向上させるためにEDQ-CDSにプラグインできます。

エンティティ名照合

エンティティ名の照合用のルールには、同じエンティティ名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 異なる表記法で書き込まれたエンティティ名。

  • 接尾辞あり/なしのエンティティ名(例: 'Oracle LTD'と'Oracle')。

  • 省略された用語または接尾辞を含むエンティティ名(例: 'Oracle Limited'と'Oracle LTD')。

  • エンティティ名での文字順およびスペルの相違/間違い(例: 'Oracle'と'Oralce')。

  • 名前の完全性が様々なレベルのエンティティ名(例: 'ABC Technology Consultants LTD'と'ABC Technology LTD')。

  • 異なる順序で出現するエンティティ名トークン(例: 'Cambridge Science Park LTD'と'Science Park Cambridge')。

  • 名前の一部または全部が頭字語になっているエンティティ名(例: 'Oracle Catering'と'O.C.')。

注意:

次の表では、名前の照合ルールで'フルネーム'を使用していますが、これは、エンティティのフルネーム識別子(エンティティ名属性とサブ名属性の連結)に適用されることを意味します。パイプ(|)文字は、サンプルの一致を示すのにサブ名属性が必要となる場合にエンティティ名とサブ名を区切るために使用します。

エンティティ名の照合ルール サンプルのエンティティ名一致 タイプ

スクリプト・フルネームの完全一致

外国語のアルファベットからの文字を使用した入力。

フルネームの完全一致

TCHIBO GMBH = TCHIBO GMBH

標準化されたフルネームの完全一致

ORACLE UK LTD | READING = ORACLE UK LIMITED | READING

あいまい

接尾辞なしのスクリプト・フルネームの完全一致

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのフルネームの完全一致

ORACLE = ORACLE CORPORATION

あいまい

接尾辞なしの似たようなフルネーム

ORACLE CAMBRIDGE SCIENCE PARK = ORACLE CAMBRIDGE PARK SCIENCE

あいまい

スクリプト・フルネームの順不同

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのスクリプト・フルネーム(全単語)の順不同

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのフルネーム(全単語)の順不同

CAMBRIDGE SCIENCE PARK LTD = SCIENCE PARK CAMBRIDGE

あいまい

スクリプト・フルネームに追加された名前がある

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのスクリプト・エンティティ名の完全一致

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのエンティティ名の完全一致

ORACLE CORPORATION | CAMBRIDGE = ORACLE | READING

あいまい

フルネーム(全単語)の誤植による短縮

Oracle Inc | Cambridge =Oracl | Cambridge

あいまい

接尾辞なしのスクリプト・エンティティ名の先頭から一致

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのエンティティ名の先頭から一致

ABC TECHNOLOGY CONSULTANTS LTD = ABC TECHNOLOGY LTD

あいまい

接尾辞なしのスクリプト・フルネーム(全単語)の誤植による短縮

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのフルネーム(全単語)の誤植による短縮

Federal Mogull | Camshafts Inc = Federal Mogul Camshafts Castings Ltd

あいまい

スクリプト・フルネームの誤植

外国語のアルファベットからの文字を使用した入力。

あいまい

フルネームの誤植

ABD SERVICES LTD = ABC SERVICES LTD

あいまい

接尾辞なしのスクリプト・フルネームの誤植

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのフルネームの誤植

ABD ENGINEERING LTD = ABC ENGINEERING

あいまい

接尾辞なしのスクリプト・エンティティ名の先頭から一致

外国語のアルファベットからの文字を使用した入力。

あいまい

接尾辞なしのエンティティ名の先頭から一致

ABC LIMITED | CAMBRIDGE = ABC PHARMACEUTICALS LIMITED | READING

あいまい

標準化されたフルネーム(頭字語)の完全一致

CSC= Computer Science Corporation

あいまい

精製されたエンティティ名(最長共通部分文字列12文字以上)

Colebrook & Burgess (North Shields) Ltd. = Colebrook & Burgess (Teesside) Ltd.

あいまい

接尾辞なしのフルネーム(頭字語)の完全一致

CSC = Computer Science Collaborations Ltd

あいまい

接尾辞なしのフルネーム(頭字語を含む)

Oracle CK = Oracle Collaborative Koopers

あいまい

接尾辞なしのエンティティ名の軽い誤植

Oracle Collaborative Coopers = Orracl Colabarativ Kupers

あいまい

接尾辞なしのエンティティ名(最初のトークン)

DANVERS BANCORP INC = DANVERS MUNICIPAL FEDERAL CREDIT UNION

あいまい

精製されたエンティティ名(最初の3文字)の完全一致、最長共通部分文字列6文字以上

Lincoln Co-Operative Chemists Ltd. = Lincolnshire Co-Operative Ltd.

あいまい

精製されたエンティティ名(1文字以上のトークン)の完全一致

Burgess Video Ltd. = Sue Burgess Ltd.

あいまい

エンティティ名のデータなし

Oracle Corporation =

データなし

エンティティ名の競合

Oracle Corporation = Sue Burgess Ltd.

競合

エンティティ用のその他の論理識別子での照合

住所

エンティティ名照合における住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 建物およびサブ建物の抽出

  • STREET、ROADなど、よく使用される単語の標準化

  • STREET、ROADなど、よく使用される単語の削除

  • 印刷上の相違

注意:

この表では、address1、address2、address3、city、adminarea、postalcode、countryの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode =CB4 0WD、country = United Kingdomは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD|United Kingdomと表します

2次識別子一致ルール 説明

住所

住所が完全に一致します。

建物、サブ建物、郵便番号の先頭から一致

抽出された建物、サブ建物および郵便番号で住所が一致

注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値のpostalcodeが数値として再解釈されるのを回避するために、数値のpostalcodesにおいてのみ先行ゼロが削除されます。たとえば、Excelでは、数値のpostalcodesを先行ゼロを削除して数値として再度書式設定します。英字が存在する場合、先行ゼロは削除されません。

建物、サブ建物なし、郵便番号の先頭から一致

住所が抽出された建物および郵便番号で一致し、どちらのsubpremiseフィールドにもデータが存在しません。

住所(全単語)

短い住所の全単語が長い住所と一致します。

住所(全単語)の誤植

短いアドレスの全単語が20%の文字エラー・トレランスで長いアドレスと一致します。

Webサイト;電話番号

Webサイト・アドレスおよび電話番号が完全に一致します。

税番号

税番号が完全に一致します。

VAT番号

VAT番号が完全に一致します。

住所1の誤植;市区;国

住所が類似し、市区および国の両方が完全に一致します。

住所の類似、郵便番号

文字一致率65以上で住所が一致し、郵便番号が完全に一致します。

電話

電話番号が完全に一致します。

電話の最後のN桁

最後のN桁を使用して一致する電話番号(デフォルト、最後の6桁)。

税番号の誤植

税番号が1または2の文字編集距離と一致します。

VAT番号の誤植

VAT番号が1または2の文字編集距離と一致します。

郵便番号

郵便番号が完全に一致します。

市区;国

市区および国が完全に一致します。

Webサイト

Webサイト・アドレスが完全に一致します。

Webサイト(根幹)

Webサイト・アドレスの根幹部分が完全に一致します。

市区

フル市区名が完全に一致します。

住所の類似、住所1の最初の単語

文字一致率65以上で住所が一致し、住所の最初の行で少なくとも1つの単語が一致します。

国名が完全に一致します。

住所なし

レコードの一方または両方に住所がないときに住所が一致します。

住所の競合

住所がまったく一致しません。デフォルトでは、このルールは名前の完全な一致を含む最初のいくつかのプライマリ識別子グループに対してのみ有効です。たとえば、住所が異なる場合は、名前が同じで、非常に緩やかな一致であることを理解する必要があります。

表3-40 住所照合

住所の照合ルール タイプ

住所の完全一致

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

完全一致

サブ建物、建物、郵便番号の先頭から一致、住所の類似

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom

あいまい

建物、サブ建物なし、郵便番号の先頭から一致、住所の類似

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom

あいまい

サブ建物、建物、郵便番号の先頭から一致

Flat 1|352 Milton Road||Cambridge||CB4 0WD| = 352 Milton Road|Flat 1||||CB4 0WD|

あいまい

建物、サブ建物なし、郵便番号の先頭から一致

296 Milton Road|Science Park||Cambridge||CB4 0WD| = 296 Milton Road|||||CB4 0WD|

あいまい

住所(全単語)

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所(全単語)の誤植

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Millton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所1の誤植、市区、国の完全一致またはデータなし

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Mil||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所の類似、郵便番号

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Milton||Cam|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

郵便番号

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

市区と国

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire||United Kingdom

あいまい

市区

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire||

あいまい

住所の類似、住所1の最初の単語

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Milton Road|Cambridge|Cambridgeshire||United Kingdom|

あいまい

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Arbury Road|Cambridge|Cambridgeshire|||United Kingdom

あいまい

住所のデータなし

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = ||||||

データなし

住所の競合

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic|||Arbury|||

競合

表3-41 Webサイト・アドレス

Webサイト・アドレスの照合ルール タイプ

Webサイトの完全一致

www.tcnltd.com = www.tcnltd.com

完全一致

Webサイト(根幹)の完全一致

www.tcnltd.co.uk = www.tcnltd.com

あいまい

Webサイトのデータなし

www.tcnltd.com =

データなし

Webサイトの競合

www.abc.com = www.tcnltd.com

競合

電話番号

電話番号の照合では、次のような一致が許容されます。

  • 完全一致

  • 最後のN文字の照合

表3-42 電話番号

電話の照合ルール タイプ

電話の完全一致

01223456678 = 01223456678

完全一致

電話の最後のN文字

+44223456678 = 01223456678

あいまい

電話のデータなし

01223456678 =

データなし

電話の競合

01223456678=01684345678

競合

表3-43 VAT番号

VAT番号のルール タイプ

VAT番号のルール

ABC112345 = ABC112345

完全一致

VAT番号の完全一致

ABC12345 = ABC112345

あいまい

VAT番号のデータなし

ABC12345 =

データなし

VAT番号の競合

ABD2535 = BCD2145

競合

表3-44 税番号

税番号のルール タイプ

税番号の完全一致

ABC112345 = ABC112345

完全一致

税番号の誤植

ABC12345 = ABC112345

あいまい

税番号のデータなし

ABC12345 =

データなし

税番号の競合

ABD2535 = BCD2145

競合

エンティティ照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。次はその例です。

表3-45 レコードの比較

レコード 1 レコード 2

名前

Widgets and Gadgets Ltd

名前

Gadgets and Widgets Ltd

サブ名

Cambridge

サブ名

Cambridge

電話

012234567890

電話

+4412234567890

Webサイト

www.widgetsandgadgets.com

Webサイト

www.widgetsandgadgets.org

税番号

ABC 1234 12

税番号

ABC 1234 12

Address1

29 Mill Road

Address1

Flat 3

Address2

Flat 3

Address2

29 Mill Road

市区

市区

Cambridge

郵便番号

郵便番号

CB1 3GH

表3-46 比較の結果

結果

ruleattributes

NAME,ADDRESS,PHONE,WEBSITE,TAXNUMBER

matchscore

97

rulename

N090 接尾辞なしのフルネーム(全単語)の順不同、A040 サブ建物、建物、郵便番号の先頭から一致、W020 Webサイト(根幹)の完全一致、P020 電話の最後のN文字、T010 税番号の完全一致、V030

comparisonresults

名前あいまい、住所あいまい、Webサイトあいまい、電話番号あいまい、税番号完全

nameresult

N090 接尾辞なしのフルネーム(全単語)の順不同

namescore

20

namecategory

あいまい

addressresult

A040 サブ建物、建物、郵便番号の先頭から一致

addressscore

50

addresscategory

あいまい

phonenumberresult

P020 電話の最後のN文字

phonenumberscore

70

phonenumbercategory

あいまい

websiteresult

W020 Webサイト(根幹)の完全一致

websitescore

70

websitecategory

あいまい

taxnumberresult

T010 税番号の完全一致

taxnumberscore

100

taxnumbercategory

完全一致

*データがない結果は、簡潔するために省略されています。

comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。

ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。

注意:

フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。

一意のカスタム・キー生成を使用してエンティティ・レコードの照合または除去を実行することもできます(「ID照合の使用」を参照)。

ID照合の使用

EDQ-CDSにおけるIDの照合ルールにより、他のフィールドでの照合(する/しない)に関係なく、なんらかの名前の一致を必要とせずに、一意のカスタム識別子にのみ基づいた照合(または除去)が可能になります。これらは、これまでの各項で説明した論理識別子で照合されるルールより前に実行され、まったく切り離されています。

照合および除去は、エンティティ照合および個人照合用に用意されていますが、住所照合用には用意されていません。

注意:

  • 一意のID (UID)照合は常に、EIDまたはIEID照合の前に実行します。したがって、2つのレコードが一意の識別子によって照合される場合、それらのレコードは除去できません。

  • これらの識別子は常に、標準化された形式で比較されます。たとえば、大/小文字やその他の英数字以外の文字のみが異なる値は同一と見なされます。たとえば、次の値は、ID照合の目的においては同一です。

    • AB123456789

    • ab123-456-789

    • ab12345 6789

    • ab#123456789

一意のID照合の使用

UIDの一致ルールは、個人照合プロセスの一致グループ[I005] UIDとエンティティ照合プロセスの[E005] UID一致グループに含まれます。たとえば、個人照合の一致グループは次のとおりです。

  • [I005A] Match UID1

  • [I005B] Match UID2

  • [I005C] Match UID3

これらのルールを使用するには、レコードの必要なデータを1つ以上のuid属性にマップします。照合ルールは常に、他の属性が1つも一致しない場合でも、共通の一意の識別子を共有する2つのレコードを照合します。

注意:

  • uid属性は、パイプ区切りリストの形式で複数の値を受け入れます。複数の属性値のいずれかが一致した場合、2つのレコード間で一致が戻されます。

  • uid属性間の照合はできません。たとえば、uid1の値は、uid2の値またはuid3の値と照合できません。

一連のレコードのPassport Numberフィールドは、uid1属性として構成されています。したがって、次のレコードは一致として戻されます。

レコードID uid1 (パスポート番号) 一致?

1

Fred

Smith

12345678

はい

2

John

Doe

12345678

はい

uid1フィールドで複数の値を保持する次のレコードも照合されます。

レコードID uid1 (パスポート番号) 一致?

1

Fred

Smith

12312312 | 67867867

はい

2

John

Doe

67867867 | 23423423

はい

同じ一連のレコードのSSNフィールドは、uid2属性として構成されています。レコード1のuid1値がレコード2のuid2値と一致しても、uid1フィールドとuid2フィールドは互いと照合されません。

レコードID uid1 (パスポート番号) uid2 (SSN) 一致?

1

Fred

Smith

12312312

67867867

いいえ

2

John

Doe

67867867

12312312

いいえ

除去ID照合の使用

除去ID (EID)の一致ルールは、エンティティおよび個人の照合プロセスの[ELIM015] EID ELIMINATIONSグループに含まれます。

  • [ELIM015A] ELIMINATE EID1

  • [ELIM015B] ELIMINATE EID2

  • [ELIM015C] ELIMINATE EID3

これらのルールを使用するには、レコードの必要なデータを1つ以上のeid属性にマップします。EIDの照合ルールは常に、その他すべての属性が一致する場合でも、eid属性で共通の値を共有しない2つのレコードについて"一致なし"の結果を戻します。この例外は、uid属性を使用して2つのレコードが照合された場合で、これはUID照合がEID照合より前に実行されるためです。

注意:

  • eid属性は、パイプ区切りリストの形式で複数の値を受け入れます。"一致なし"の結果は、属性の値が1つも一致しない場合に2つのレコード間で戻されます。

  • 異なるeid属性間で値を比較することで可能性がある一致を除去することはできません。たとえば、eid1値は、eid2の値またはeid3の値と比較できません。

一連のレコードのSSNフィールドは、eid1属性として構成されています。したがって、次のレコードは可能性がある一致として除去されます。

レコードID eid1 (SSN) 除去?

1

John

Doe

12345678

はい

2

John

Doe

87654321

はい

eid1フィールドで複数の値を保持する次のレコードも、いずれの値も一致しないため、可能性がある一致として除去されます。

レコードID eid1 (SSN) 除去?

1

John

Doe

12312312 | 23423423

はい

2

John

Doe

45645645| 67867867

はい

同じ一連のレコードのPassportフィールドは、eid2属性として構成されています。eid1フィールドとeid2フィールドは比較されないため、"一致なし"の結果が戻され、レコードは可能性がある一致として除去されます。

レコードID eid1 (SSN) eid2 (パスポート番号) 除去?

1

John

Doe

12312312

67867867

はい

2

John

Doe

67867867

12312312

はい

最後に、次のレコードのeid1フィールドに2つの同一値があるため、これらは可能性がある一致として除去されません

レコードID eid1 (SSN) 除去?

1

John

Doe

12312312 | 23423423

いいえ

2

John

Doe

45645645| 12312312

いいえ

反転除去ID照合の使用

反転除去ID (IEID)の一致ルールは、エンティティおよび個人の照合プロセスのINVERTED EID ELIMINATIONSグループに含まれます。

反転ID照合は、除去ID (EID)と同じような機能ですが、識別子の値が同じ場合に"一致なし"の結果を生成ます。反転ID照合を使用すると、レコードが共通の値を共有する一致を除去します。

これらのルールを使用するには、レコード内の必要なデータを1つ以上のieid属性にマップします。IEIDの照合ルールは常に、反転EID (IEID)値が同一であるレコードについて"一致なし"の結果を戻します。

カスタマ追加属性による照合の使用

カスタマ追加の文字列属性と日付属性による照合により、EDQの構成方法を改善し、標準インタフェースに存在しない属性に関するEDQ-CDS構成のカスタマイズの必要性を減らします。

個人およびエンティティの各候補インタフェースには、6つのカスタム文字列属性と3つのカスタム日付属性が含まれます。一致インタフェースには、カスタム文字列およびカスタム日付ごとに結果、カテゴリおよびスコアのカスタム属性が含まれます。

標準化

カスタム文字列は、タイプidentifierまたはtextとして指定でき、標準化方法に影響します。identifierカスタム文字列は英数字以外の文字が削除され、大文字に変換される一方、textカスタム文字列は単に正規化されます。

この動作は、次のように実行プロファイルで指定します。

phase.*.process.*.customstringNtype = text

また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request customstringNtype="identifier">

カスタム日付は、dateデータ型への変換と同様に標準化されます。

マッチング

カスタム属性は必要に応じて、キー作成(「カスタム属性のキー」を参照)に使用されたかどうかに関係なく、照合時に使用できます(デフォルトでは、カスタム属性に対して照合は実行されません)。

カスタム属性を照合する方法は2つあります。

  • 完全一致のみ

  • 完全一致とあいまい一致

カスタム属性ごとに2つの複合比較があります。

  • customstringNexact/customdateNexact

  • customstringNfuzzy/customdateNfuzzy

したがって、カスタム属性ごとに実行される照合の有効/無効およびタイプと、対応する重み付けは、次のように、これらの複合比較ごとに関連する'exact'パラメータまたは'fuzzy'パラメータを使用して実行プロファイルで指定します。

phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.enabled = Y
phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.weighting = 1
phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.enabled   = N
phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.weighting = 1

つまり、特定のカスタム属性で照合するためには、対応する'exact'または'fuzzy'の(両方ではなく)いずれかの複合比較を有効にする必要があります。

また、これらの設定は、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request 
   overallscore.customstring1exact.enabled="Y"
   overallscore.customstring1exact.weighting="1"
   overallscore.customstring1fuzzy.enabled="N"
   overallscore.customstring1fuzzy.weighting="1"
>

住所照合の使用

住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 省略された用語または接尾辞を含む住所。

  • 住所での文字順およびスペルの相違/間違い。

  • 完全性が様々なレベルの住所。

  • 抽出された建物およびサブ建物が一致し、住所の他の構成要素が異なる順序であるか、一方にない住所。

次の表に、用意されているルールをすべて示します。

住所の一致ルール・コード 住所の一致ルールの説明

[A010]

住所の完全一致、郵便番号の完全一致

[A020]

住所の完全一致、郵便番号なし

[A030]

住所行1および2の完全一致、市区の完全一致、郵便番号の完全一致

[A040]

住所行1および2の完全一致、市区の完全一致、郵便番号の先頭から一致

[A050]

住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A060]

住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし

[A070]

住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A080]

住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致

[A090]

住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし

[A100]

住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A110]

住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし

[A120]

住所1の完全一致、住所2の競合なし、郵便番号の完全一致

[A130]

住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致

[A140]

住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A150]

住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致

[A160]

住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致

[A170]

住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致

[A180]

住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致

[A190]

住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の競合なし

[A200]

住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A210]

住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致

[A220]

住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致

[A230]

住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致

[A240]

住所1 (共通の文字列7字以上)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A250]

住所(全単語)、郵便番号の完全一致

[A260]

住所の類似、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A270]

住所1 (全単語)、住所2の競合なし、郵便番号の完全一致

[A280]

住所1 (全単語)、住所2の競合なし、郵便番号の先頭から一致

[A290]

住所(全単語)の誤植、郵便番号の完全一致

[A300]

住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし

[A310]

住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし

[A320]

住所1の完全一致、郵便番号の完全一致

[A330]

住所1の完全一致、郵便番号の先頭から一致

[A340]

サブ建物の完全一致、建物の完全一致、郵便番号の完全一致

[A350]

サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致

[A360]

住所(全単語)

[A370]

住所(全単語)の誤植

[A380]

住所の類似、郵便番号

[A390]

住所の類似、住所1の最初の単語

次の表に、必須のキー・フィールドを太字テキストで強調表示して、一致ルール・コードのみによる一致の例を示します。

住所の一致ルール・コード 住所のコンポーネント レコード 照合されるレコード

[A010]

address1

901 GOLF CLUB RD

901 GOLF CLUB RD

[Null]

city

WESTWOOD

WESTWOOD

[Null]

subadminarea

PLUMAS

PLUMAS

[Null]

adminarea

CA

CA

[Null]

postalcode

96137

96137

[Null]

country

US

US

[A020]

[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。

[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。

[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。

[A030]

address1

1201 BEECH ST

1201 BEECH ST

[Null]

address2

APT 104F

APT 104F

[Null]

city

PALO ALTO

PALO ALTO

[Null]

subadminarea

SANTA CLARA

SAN MATEO

[Null]

adminarea

CA

CA

[Null]

postalcode

94303

94303

[Null]

country

US

US

[A040]

[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。

[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。

[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。

[A050]

address1

5 Hogskoleringen

Hogskoleringen 5

[Null]

city

Trondheim

Trondheim

[Null]

adminarea

[Null]

SØR-TRØNDELAG

[Null]

postalcode

7491

7491

[Null]

country

Norway

Norway

[A060]

[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A070]

address1

Heinrichboeckingstr 10-14

Heinrichboeckingstr 10-14

[Null]

address2

Service Zentrum Merzig

[Null]

city

Saarbrücken

Saarbrücken

[Null]

adminarea

[Null]

SAARLAND

[Null]

postalcode

66121

66121

[Null]

country

ドイツ

ドイツ

[A080]

[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A090]

[A070]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A070]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A070]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A100]

address1

HOGSKOLERINGE 5

HOGSKOLERINGEN 5

[Null]

city

Trondheim

Trondheim

[Null]

postalcode

9491

9491

[Null]

country

Norway

Norway

[A110]

[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A120]

address1

Marshfield Bank

Marshfield Bank

[Null]

address2

WOOLSTANWOOD

[Null]

[Null]

city

Crewe

Crewe

[Null]

postalcode

CW28UY

CW28UY

[Null]

country

UK

UK

[A130]

[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A140]

address1

Apt Y302

APT Y302

[Null]

address2

1605 Sherringtowne Ave

1605 Sherington Ave

[Null]

city

NEWPORT BEACH

NEWPORT BEACH

[Null]

adminarea

Orange

Orange

[Null]

postalcode

92663-9087

92663-9087

[Null]

country

US

US

[A150]

[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A160]

address1

1728 Corporate Xing

1728 Corporate Xing

[Null]

address2

Suite1

[Null]

[Null]

city

O Fallon

O Fallon

[Null]

adminarea

ILLINOIS

IL

[Null]

postalcode

62269-3734

62269-3734

[Null]

city

US

US

[A170]

[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A180]

address1

Block 16

16 Dunsinane Ave

[Null]

address2

Dunsinane Avenue

[Null]

[Null]

address3

Dunsinane Industrial Estate

[Null]

[Null]

city

Dunsinane

Dunsinane

[Null]

postalcode

DD23QT

DD23QT

[Null]

country

UK

UK

[A190]

[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A200]

address1

26701 QUAIL CRK

26701 QUAIL CRK APT 107

[Null]

address2

APT 107

[Null]

[Null]

city

ALISO VIEJO

LAGUNA HILLS

[Null]

postalcode

92656-1089

92656-1089

[Null]

country

US

US

[A210]

[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A220]

address1

Folkes Road

Unit 12 Folkes Road

[Null]

address2

Hayes Trading Estate

Lye

[Null]

address3

Lye

[Null]

[Null]

city

Stourbridge

Stourbridge

[Null]

postalcode

DY98RN

DY98RN

[Null]

country

UK

UK

[A230]

[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A240]

address1

101/61 NAWANAKORN INDUSTRY

101/61 NAVANAKORN INDUSTRY

[Null]

address2

SELFLEMENT PHAHONYOTHIN

PAHOLYOTHIN KLONGNUENG

[Null]

city

KLONGLAUNG

KHLONG LUANG

[Null]

postalcode

12120

12120

[Null]

country

Thailand

Thailand

[A250]

address1

Blyth House

Blyth House

[Null]

address2

130 Hordern Road

Hordern Road

[Null]

city

Wolverhampton

Wolverhampton

[Null]

postalcode

WV60HS

WV60HS

[Null]

country

UK

UK

[A260]

address1

21001 State Route 739

21001 Sr Rt 739

[Null]

address2

7

[Null]

[Null]

city

Raymond

Raymond

[Null]

postalcode

43067

43067

[Null]

country

United States

United States

[A270]

address1

Lancaster House Aviation Way

Aviation Way

[Null]

address2

[Null]

Southend Airport

[Null]

city

SOUTHEND ON SEA

SOUTHEND ON SEA

[Null]

postalcode

SS26UN

SS26UN

[Null]

country

UK

UK

[A280]

[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A290]

address1

Blythe House

Blyth House

[Null]

address2

130 Hordern Road

Hordern Road

[Null]

city

Wolverhampton

Wolverhampton

[Null]

postalcode

WV60HS

WV60HS

[Null]

country

UK

UK

[A300]

[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A310]

[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。

[A320]

address1

Network House

Network House

[Null]

address2

1 Ariel Way

Wood Lane

[Null]

city

London

London

[Null]

postalcode

W127SL

W127SL

[Null]

country

UK

UK

[A330]

[A320]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A340]

address1

College Business Park

College Business Park

[Null]

address2

Park

Coldhams Lane

[Null]

city

Cambridge

[Null]

[Null]

postalcode

CB13HD

CB13HD

[Null]

country

イギリス

イギリス

[A350]

[A340]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。

[A360]

address1

938 Miller St

Medical Ctr Blvd

[Null]

address2

Medical Center Boulevard

[Null]

[Null]

city

Winston Salem

Winston- Salem

[Null]

postalcode

27157

27157

[Null]

country

United States

United States

[A370]

address1

Humberstone Avenue

24 Humberston Avenue

[Null]

address2

Humberstone

Humberston

[Null]

city

GRIMSBY

GRIMSBY

[Null]

postalcode

DN364SX

DN364SP

[Null]

country

UK

UK

[A380]

address1

5 Sidings Court

Greyfriars House

[Null]

address2

White Rose Way

Sidings Court

[Null]

city

DONCASTER

DONCASTER

[Null]

postalcode

DN45NU

DN45NU

[Null]

country

UK

UK

[A390]

address1

120 Howard St

120 Howard St

[Null]

address2

[Null]

STE 200

[Null]

city

San Fransisco

San Fransisco

[Null]

adminarea

CA

CA

[Null]

postalcode

94105-1622

94105-1615

[Null]

country

United States

United States

注意:

個人およびエンティティの照合とは異なり、住所照合では、同じように照合するために別々の論理識別子間の照合を分割するのに向いていないため、複合比較照合機能を使用しません。