3 照合の使用方法
この章の内容は次のとおりです。
EDQ-CDSは、実際のばらつきを示す顧客データを照合することを目的に設計されています。データ・セットの関連する一致がすべて提示され、レコード間の一致の可能性に応じて適切にスコア付けされます。そのために、提示されたデータに対して多岐にわたる照合アルゴリズムを適用するだけでなく、データの派生形に対しても照合技術を適用するなど、多種多様なメカニズムが使用されます。
たとえば、ある表記法で提示された名前は、その表記法とともに変換された名前も使用して照合され、効果的なスクリプト間照合が提供されます。同様に、住所は、ほぼ生の形式で(国際住所の単語および語句の標準化後、かつ充填単語の削除後に)照合されますが、推定される建物番号、サブ建物番号、郵便番号といったキー情報を住所から抽出して照合するという方法もあります。
照合の目的
一般に、EDQ-CDSで提供される照合サービスは、検索ではなく、重複防止のために設計されています。つまり、このすぐに使用できるサービスの目的は、レコードがシステムに追加されるとき、すでに存在すると思われる場合に介入することです。これが意味するところは、照合サービスでは、単一の属性(名前など)よりもずっと多くのものに的が絞られており、意図的に典型的な検索操作ほど広いネットにはキャストしないということです。一致していないが似たような詳細を保持し、まったく同じ名前であったとしても、2次的識別情報が一致の可能性が低いことを示す他のレコードがシステムに存在することがあります。このような場合、EDQ-CDSでは、可能性がある一致を解消する役割を担うユーザーまたはデータ・スチュワードによる追加の作業を最低限に抑えることを目指しています。これにより、この製品は、Oracle Customer Hubなどのマスター・データ管理システムのデータ品質保護コンポーネントとして動作することに理想的に適しており、そこでのサービスの目的は、できるだけ多くのレコードをできるだけノイズがない状態で自動的にリンクすることです。同じことが、Siebelなどのカスタマ・リレーションシップ・マネジメント・システムについても当てはまります。
注意:
さらに徹底的な照合を実行するためにEDQ-CDSの構成を変更できます。これは主に、必ずしも(名前フィールド以外に)十分な2次的情報を提供しなくてもよい、少量で高価値のデータ・セットで使用するために設計されています。
複数のロケールと言語
EDQ-CDSは、マルチロケール・システムとして設計されており、国際的でカルチャに依存する名前の転写、文字変換および異形認識技術を使用する他、住所の標準化および照合の際には国際的な辞書を使用します。
このシステムは国際データを使用するように設計されており、そのために名前および住所の標準化の国際的な辞書が用意されています。国際的な'ラテン語スクリプト'辞書では、次の'基本'ロケールなどが網羅されています。
-
米国およびカナダ
-
イギリス
-
フランス
-
ドイツ
-
イタリア
-
スペイン
-
ポルトガル
-
ブラジル
-
ギリシャ
-
アイルランド
-
オーストリア
-
トルコ
-
南アフリカ
-
オーストラリアおよびニュージーランド
-
スカンジナビア
-
アルゼンチン
-
メキシコ
これらの基本ロケールに加えて、EDQ-CDSでは、次のロケールからのデータを高度に処理するために、特殊なオプション機能が用意されています。
-
アラブ世界(アラビア語およびアラビア語/ラテン語混合)
-
日本(漢字、カタカナおよびひらがな)
-
中国(簡体字中国語および繁体字中国語)
-
ロシア
-
韓国(ハングル)
一連の使用可能な言語は、EDQ-CDS - 参照データの初期化プロジェクトの構成によって決まるため、同じ参照データをいくつものEDQ-CDS照合サーバーで使用できます。デフォルトでは、基本ロケールの参照データ・セットはEDQサーバー・ランディング領域で事前に初期化されますが、これらのファイルの上にcdslists-initialized-full.zip
を解凍する(サポートされているすべてのロケールおよび言語を網羅する場合)か、初期化ジョブを構成して実行すると、簡単に上書きできます。
照合の使用
EDQ-CDSに組み込まれている照合プロセスは、主に次のユースケースを対象に設計されています。
-
重複防止 - キー生成および照合のWebサービスを使用して重複レコードがアプリケーションに入力されないようにします。
-
重複削除のための定期的なバッチ照合 - バッチ照合ジョブを使用してアプリケーション内の全部または一部のデータに対して実行し、可能性があるマージのためにレコードをリンクします。
また、バッチ照合プロセスは、システムにロードされる前にレコードの重複を除外するためのテンプレートとして使用することもできます。それには、追加の構成とEDQの使用が必要となる可能性があります。このような状況でのベスト・プラクティスは、EDQ-CDSデータ品質ヘルス・チェックで使用できるようなデータ・プロファイリングおよび監査技術を使用して、照合前にデータを理解することです。ほとんどの場合、一連の使用可能な一致ルールでは、パフォーマンスと効果の間で最適なバランスを実現するために、対象範囲内のデータの詳細についてなんらかのチューニングが必要です。また、EDQの「一致レビュー」アプリケーションを使用して可能性がある一致をレビューし、レコードをまとめてマージするためのルールを作成することが必要になる場合もあります。
注意:
2つの主なユースケースでは、一致が識別された後にコール元アプリケーションによってマージが実行されるため、EDQ-CDSには、すぐに使用できるマージ(または存続)構成が用意されていません。
重複防止
EDQ-CDSでは、重複防止にステートレスWebサービスを使用して、大量の顧客データの複雑な複製や同期を回避します。これにより、次の要件がEDQと統合されているアプリケーションに課されます。
-
レコードのタイプ(連絡先やアカウントなど)ごとのクラスタ・キー表の格納。これらは通常、レコードの主キーとクラスタ・キーの2列しかない表です。この表では、レコードごとに複数のキー値を許容する必要があります。
-
候補レコードを選択し、作成して照合サービスに送信する機能。内容は次のとおりです。
-
関連レコードについてのクラスタ・キー表への問合せと、キー値を駆動レコードと共有する全レコードの検索。
-
これらの各レコードについて照合に必要なデータの作成。
-
駆動レコードとともにこれらの候補レコードの照合サービスへの送信。
-
最適な重複防止のプロセス・フロー
重複防止のためにEDQ-CDSの全機能にアクセスするには、統合が次のように機能する必要があります。
-
リアルタイムの重複防止のためにシステムを準備するために、キー生成プロセスを使用してキー値をバッチ内のレコードごとに生成します。これは、データをアプリケーションに移入する際に発生するか、アプリケーションのクラスタ・キー表にキー値を生成するバッチ・プロセスとして発生します。
-
アプリケーションでレコードが追加または更新されると、キー生成サービスがリアルタイムでコールされ、レコードについて多数のキー値を戻します。
-
次に、アプリケーションは、格納された既存のキーを使用して候補レコード(共通のキーを駆動レコードと共有するレコード)を選択し、駆動レコードとともに照合サービスに送信します。
-
照合サービスは、どの候補が駆動レコードに対して可能性が高い一致かを判別し、それらのレコードのIDと一致の強さを示すスコアを戻します。
-
次に、アプリケーションは、照合結果の使用方法(たとえば、'自動照合'するのか、レコードの挿入を続行するかどうかあるいは既存のレコードとマージするかどうかを判断できるように可能性がある一致をユーザーに提示するのか)を決定します。
-
レコードを別のレコードとマージして変更されたマスター・レコードを作成する場合、レコードをコミットする前に正しいキー値を再生成するために、キー生成サービスを追加でコールする必要があります。
このモデルでは、複合マルチロケールEDQ技術を使用してキー値を生成し、パフォーマンスと照合効果の間で適切なバランスが維持されるようにすると同時に、コール元アプリケーションによってデータの整合性とトランザクション・コミットの制御が保持されるようにします。
照合のチューニング
EDQ-CDS照合では、使用されるデータにどの識別子が移入されるかについて過度に気遣う必要はありません。EDQ-CDSでは、移入されないデータを不必要に強調するアルゴリズムを使用しないため、この調整を必要としません。
照合は、関連する入力属性(名前、住所、電子メールなどに関連するものなど)での一致を別々に考え、一致を見つけるために様々な方法をそれぞれに対して試行することで機能します。EDQでは、このような論理的に関連する属性に対するグループ化された照合ルールを"複合比較"と呼びます。次に、このような複合比較での一致を組み合せて、2つのレコードが全体的にどの程度一致しているかを判断します。照合の設計は、識別子が現実世界の原則に基づく可能性がどの程度強いかという情報に基づいています。一致のチューニングは通常、次のタスクのいずれかの実行に関わる問題です。
-
複合比較の重み付けの調整
-
複合比較の有効化または無効化
-
キー生成の構成の調整
-
指定されたルールの有効化または無効化
-
複合比較内の特定ルールのスコア調整
-
複合比較への新しいルールの挿入(場合によっては、既存ルールの強化または弱化)
注意:
新しいルールの構成を挿入する場合でも、新しい比較を追加するのではなく、既存の比較および比較結果を使用することは十分可能ですが、どちらも可能です。
キー生成の使用
キー生成は、照合の最終段階で実行される作業を最小限に抑えるために使用します。重要なデータ・フィールドにおける類似点に基づいて、レコードを切片(クラスタ)に分割することで機能します。同様の特性を共有する(したがって、同じクラスタに格納される)データのサブセットのみが照合時にレコード単位で比較されます。
疎クラスタを使用すると、各クラスタ内には大量のレコードが存在します。つまり、真の一致を見逃すリスクは減りますが、キーが生成されるレコードをすべて比較するためにより多くの処理が必要となります。より密なキー生成方式ではグループが小さくなるため、処理時間が短縮されますが、真の一致がいくつか検出されない可能性が高くなります。
EDQ-CDSには、キー・データ・フィールドの様々な組合せを構成で使用する個人、エンティティおよび住所の各データについて、多種多様なキー・メソッド・アルゴリズムが同梱されています。各キー・メソッド・アルゴリズムには、識別しやすくするために、また別のキー・メソッドのキーと同一にならないように、一意の接頭辞コードが割り当てられています。
レガシー・クラスタリング
リリース12.2.1より前では、キー生成はクラスタリングと呼ばれ、提供された機能は現在のキー生成よりずっと制限されていましたが、原則は同じです。"クラスタリング"の3つのメソッドのみが提供されましたが、簡単にカスタマイズする余地はありません。
これらの"レガシー"メソッドは、実行プロファイルで次のように設定することで引き続き使用できます。
phase.*.process.*.uselegacykeygen = Y
また、次を使用してレベルを設定する必要があります。
phase.Individual\ Keygen.process.*.clusterlevel = [1/2/3]
キー・メソッドの構造
パーティ・タイプごとに、キー・メソッドはキー・グループおよびキー・タイプに分類されます。
たとえば、個人の'名前と電話'キー・グループには、名前属性と電話属性の組合せを使用して作成されたキー・メソッドがすべて含まれます。このグループ内には、次の2つのキー・タイプがあります。
FNMGNMPNR: 姓metaphone、名metaphoneおよび電話番号の右端の文字に基づいたキー・メソッド
FNMPNL: 姓metaphoneおよび電話番号の左端の文字に基づいたキー・メソッド
各キー・タイプは、1つ以上の実際のキー・メソッドで構成され、それぞれ可変長のmetaphoneまたは左端/右端の文字を使用します。
たとえば、FNMPNLキー・タイプには、次のキー・メソッドが含まれます。
FNM4PNL6
: 姓metaphoneの最初の4文字、電話番号の最後の6文字
FNM4PNL7
: 姓metaphoneの最初の4文字、電話番号の最後の7文字
FNM4PNL8
: 姓metaphoneの最初の4文字、電話番号の最後の8文字
これらは、使用される電話番号の部分文字列の長さが長くなり、その結果より密なキーを提供するので、それぞれ'厳密'、'標準'および'緩やか'と分類されます。
これらのうち最後のメソッドを使用して生成されたキー値は、次の形式をとります。
FNM4PNL8^MN^65065421
自動または'エンコードされた'キー・プロファイルは、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。
AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14
キー優先度は、特定のプロファイル内の相対的なものにすぎず、本質的な意味はありません。
カスタム属性のキー
カスタム属性のキーは、キー生成の際に必要に応じて作成できます(デフォルトでは、カスタム属性に対してキーは生成されません)。
これは、次のように実行プロファイルで指定します。
phase.*.process.*.customstringNkey = Y
phase.*.process.*.customdateNkey = Y
また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。
<dn:request customstringNkey="Y" customdateNkey="Y">
使用される実際のキー作成メソッドは、指定するキー・プロファイルによって決まります。
-
Strictプロファイルは、完全文字列に基づいてカスタム文字列のキーを、完全日付に基づいてカスタム日付のキーを作成します。
-
Looseプロファイルは、文字列のmetaphoneに基づいてカスタム文字列のキーを、年のみに基づいてカスタム日付のキーを作成します。
-
Typicalプロファイルは、文字列の最初の10文字に基づいてカスタム文字列のキーを、年および月に基づいてカスタム日付のキーを作成します。
カスタム属性は、レガシー・クラスタ・レベルを使用した場合、無視されます。
キー・メソッド分析
キー・メソッド分析により、顧客のデータを自動的に分析し、その特定のデータ・セットに対する最適なキー・プロファイルを決定する機能がCDS内に導入されます。キー分析は、次の主な手順で構成されます。
- 使用可能なキー・メソッドをすべて使用してデータのキー値を生成します。
- 高頻度のキー値やキー値の分布/多様性など、各種統計的メカニズムを使用して、それらのキー値のプロファイル、スコアおよびランクを作成します。
- 各キー・グループ内で最適なキー・メソッドを選択することで、推奨されるキー・プロファイルを作成して出力します。
カスタム属性は、キー生成に対して有効になっている場合、キー分析時に考慮されます(「カスタム属性のキー」を参照)。
既存の固定属性と同様に、使用可能なカスタム属性のキー・メソッドはすべて分析されます。
バッチ・キー分析の実行
ジョブの実行前に作成する必要がある、キー分析用の新しいステージング表がいくつかあります。これらの表を作成するSQLコマンドが既存のデフォルト・スクリプトedq_staging_tables.sql
に追加されています。このスクリプトは、EDQに同梱されていおり、<middleware_home>/edq/oracle.edq/scripts/cds
下にインストールされます。
キー分析を実行するためのバッチ・ジョブは、次のとおりです。
-
バッチ個人キー分析
-
バッチ・エンティティ・キー分析
-
バッチ住所キー分析
これらのジョブは、キー生成および照合用の既存のバッチ・ジョブと同様の構造をしており、パーティ・データをステージング・スキーマ内の関連する候補表で受信し、その結果を同じスキーマ内の表に出力することを想定しています。
キー分析の仕組みの統計的性質のため、分析する顧客データ一式を常に受信する必要があります。ジョブは実際にはデータのサンプルで実行されますが、結果はそのサンプルにのみ適用され、完全なデータセットまで拡大できません。
次の実行プロファイル・パラメータは、キー分析が正常に実行されるようにY
に設定する必要があります。
phase.Key\ Analysis.process.*.generateallkeys = Y
実行プロファイルには、SERVERID
パラメータとJOBID
パラメータを既存のステージング表に同様の方法で公開するために、キー分析用に様々な新しいSQL文が含まれていることにも注意してください。したがって、これらのパラメータも実行プロファイルにインラインで、他の表パラメータに対する変更とともに更新する必要があります。
キー・メソッド分析の出力
キー分析の出力により、次のステージング表が作成されます。
EDQCDS_KEY_ANALYSIS_PROFILE
この表にはジョブごとに1行あり、その行には推奨されるキー・プロファイルのみが含まれ、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。
AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14
これは、ユーザーが推奨を受け入れることにした場合、キー生成および照合に使用されるプロファイルです。
注意:
キー分析では、実際には推奨されたプロファイルのキー値が出力されません。これは、関連するバッチ・キー生成ジョブを実行し、それに応じて推奨されたプロファイルを渡して、個別に実行する必要があります。
EDQCDS_KEY_ANALYSIS_REPORT
この表には、分析されたキー・メソッドごとに1行が含まれ、プロファイルに対して選択されたかどうかと、その場合には割り当てられた優先度とともに各メソッドの統計およびスコアの詳細が示されます。生成されたキー・メソッド(つまり、パーティ・データに関連する空白以外の属性が含まれるキー・メソッド)のみが示されます。
このレポートは、主にサポートおよび診断目的で提供されています。
個人のキー・タイプ
個人データの照合用のキー・メソッドは、次のキー・タイプに基づいています。
接頭辞 | クラスタ名 | レベル | 説明 |
---|---|---|---|
|
姓Meta、郵便番号 |
1 |
姓の4文字double-metaphone+郵便番号の最初の5文字+住所1の最初の3文字。 注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値の |
|
電話の最後のN文字 |
1 |
電話/Fax/職場/携帯番号の最後のN桁を6に設定。 |
|
電子メールの最初の9文字 |
1 |
電子メール・アドレスの最初の9文字。 |
|
税番号 |
1 |
税番号の最初の10文字。 |
|
除去識別子 |
1 |
英数字以外の文字はすべて削除されます。 |
|
一意識別子 |
1 |
英数字以外の文字はすべて削除されます。 |
|
国民識別子 |
1 |
国民番号の最初の10文字。 |
|
名前(標準化された)、姓、郵便番号 |
2 |
標準化された名前の最初の文字+姓の最初の3文字+郵便番号の最初の5文字。 |
|
名前(標準化された)、姓、市区 |
2 |
標準化された名前の最初の3文字+姓の最初の3文字+市区名の最初の10文字。 |
|
名前(標準化された)、住所1 |
2 |
標準化された名前の最初の3文字+住所行1の最初の10文字。 |
|
姓Meta、会社の最初の単語 |
2 |
姓の最初の4文字+アカウント名の最初の単語。 |
|
住所1、住所2、市区 |
3 |
住所行1の最初の5文字+住所行2の最初の5文字+市区名の最初の5文字。 |
|
元のスクリプト名、郵便番号 |
3 |
元のスクリプト名の最初の4文字+郵便番号の最初の4文字。 |
|
フルネームMeta |
3 |
フルネーム・トークンをソートしてからdouble-metaphoneアルゴリズムが適用されて、最長3文字のトークンが生成されます。順序付けられた各トークンのペアに対して、2つのmetaphoneトークンの連結であるクラスタ値が生成されます。 |
表3-1 住所のみ
キー・タイプ | 説明 |
---|---|
AD1AD2CTL |
精製されたaddress1 (空白なし、左端の文字)、精製されたaddress2 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字) |
ADACTLPRE |
標準化されたadminarea (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字) |
表3-2 名前と企業
キー・タイプ | 説明 |
---|---|
ANLGNLFNL |
accountname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字) |
ANWFNMGNL |
accountname (左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字) |
ANWFNM |
accountname (左端の文字)、familyname (Double metaphone、左端の文字)、 |
ANMGNLFNL |
accountname (最初の単語、Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字) |
表3-3 名前とDOB
キー・タイプ | 説明 |
---|---|
DBYGNLFNL |
標準化されたDOB (年)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字) |
DBXGNLFNL |
標準化されたDOB (完全日付)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字) |
DBNGNLFNL |
標準化されたDOB (年と月)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字) |
表3-4 名前のみ
キー・タイプ | 説明 |
---|---|
FMP |
標準化されたfullname (トークンの配列、metaphoneのペア、左端の文字) |
GNWFNL |
標準化されたgivenname (左端の単語)、正規化されたfamilyname (空白なし、左端の文字) |
表3-5 名前と電話
キー・タイプ | 説明 |
---|---|
FNMGNMPNR |
familyname (Double metaphone、左端の文字)、標準化されたgivenname (最初の単語、Double metaphone、左端の文字)、標準化されたphonenumbers (右端の文字(配列)) |
FNMPNL |
familyname (Double metaphone、左端の文字)、標準化されたphonenumbers (左端の文字(配列)) |
表3-6 フルネームと住所
キー・タイプ | 説明 |
---|---|
AD1FNLGNL |
精製されたaddress1 (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字) |
FNLGNLPCL |
familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
CTLFNLGNL |
標準化されたcity (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字) |
表3-7 自宅住所
キー・タイプ | 説明 |
---|---|
AD1FNMPCL |
精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
AD1FNMCTL |
精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたcity (空白なし、左端の文字) |
表3-8 国民ID
キー・タイプ | 説明 |
---|---|
NIL |
標準化されたnationalidnumber (左端の文字(配列)) |
NIP |
標準化されたnationalidnumber (左端と右端の文字のペア(配列)) |
表3-9 電話
キー・タイプ | 説明 |
---|---|
PNR |
標準化されたphonenumbers (右端の文字(配列)) |
表3-10 スクリプト名
キー・タイプ | 説明 |
---|---|
OSLPCL |
scriptfullname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
表3-11 税番号
キー・タイプ | 説明 |
---|---|
TNL |
標準化されたtaxnumber (左端の文字(配列)) |
TNP |
標準化されたtaxnumber (左端と右端の文字のペア(配列)) |
表3-12 UID
キー・タイプ | 説明 |
---|---|
UID(1/2/3) |
標準化されたuid[1, 2, 3] (左端の文字(配列)) |
表3-13 カスタム文字列
キー・タイプ | 説明 |
---|---|
CM[1-6] |
標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし)) |
CL[1-6] |
標準化されたcustomstring[1-6] (空白なし、左端の文字) |
表3-14 カスタム日付
キー・タイプ | 説明 |
---|---|
CY[1-6] |
標準化されたcustomdate[1-6] (年) |
CX[1-6] |
標準化されたcustomdate[1-6] (完全日付) |
CN[1-6] |
標準化されたcustomdate[1-6] (年と月) |
注意:
キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでおり、空白が削除されているデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。
例
次のレコード・データを使用して、個人キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。
属性 | 値 |
---|---|
|
Jim |
|
Frederick |
|
Smith |
|
077777 123456 |
|
jsmith@mymail.com |
|
888666444 |
|
Acme Ltd |
|
14 high St |
|
Cambridge |
|
CB1 2AB |
|
00021-53563 |
|
gbr0008873323 |
|
AB 12 34 56 C |
Typicalキー・プロファイルを使用して生成されるキー値は次のとおりです。
キー・タイプ | キー・メソッド | 優先度 | クラスタ値 |
---|---|---|---|
|
UI10 |
1 |
UI10^0002153563 |
|
AD110FNL3GNL3 |
42 |
AD110FNL3GNL3^14HIGH^SMI^JAM |
|
AD12FNM3PCL5 |
55 |
AD12FNM3PCL5^14^SM0^CB12A |
|
AD17AD25CTL5 |
59 |
AD17AD25CTL5^14HIGH^^CAMBR |
|
ANW1FNM4 |
54 |
ANW1FNM4^ACME^SM0 |
|
CTL10FNL3GNL3 |
51 |
CTL10FNL3GNL3^CAMBRIDGE^SMI^JAM |
ENP |
ENP15 |
40 |
ENP15^JSMITHMYMAILCOM |
FNLGNLPCL |
FNL3GNL1PCL5 |
44 |
FNL3GNL1PCL5^SMI^J^CB12A |
FNMPNL |
FNM4PNL7 |
46 |
FNM4PNL7^SM0^0777771 |
NIL |
NIL10 |
36 |
NIL10^AB123456C |
PNR |
PNR6 |
47 |
PNR6^123456 |
TNL |
TNL1 |
37 |
TNL10^888666444 |
エンティティのキー・タイプ
エンティティ・データの照合用に、次のキー・タイプが用意されています。
表3-15 名前と住所
キー・タイプ | 説明 |
---|---|
AD1EMTPCL |
精製されたaddress1 (空白なし、左端の文字)、精製されたentityname (トークンの配列、Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
ENLPCL |
精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
FANENLCTL |
精製されたfulladdress (空白なし、数字なし、ノイズ削除済、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字) |
AD1ENLPCL |
精製されたaddress1 (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字) |
表3-16 名前Metaphoneと住所
キー・タイプ | 説明 |
---|---|
CTLFALNSM |
標準化されたcity (空白なし、左端の文字)、精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字) |
FALNSM |
精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字) |
CTLNSM |
標準化されたcity (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字) |
表3-17 名前のみ
キー・タイプ | 説明 |
---|---|
NSL |
精製されたfullname (空白なし、左端の文字) |
ENMSNM |
精製されたentityname (Double metaphone、左端の文字)、精製されたentitysubname (Double metaphone、左端の文字) |
FMT |
精製されたfullname (トークンの配列、Double metaphone、左端の文字) |
表3-18 名前と市区と電話
キー・タイプ | 説明 |
---|---|
CTLENLPNR |
標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (右端の文字(配列)) |
CTLENLPNL |
標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (左端の文字(配列)) |
表3-19 電話
キー・タイプ | 説明 |
---|---|
PNR |
標準化されたphonenumbers (右端の文字(配列)) |
表3-20 Webサイト
キー・タイプ | 説明 |
---|---|
WSL |
websitestem (左端の文字(配列)) |
表3-21 スクリプト名
キー・タイプ | 説明 |
---|---|
OSL |
script fullname (トークンの配列、左端の文字) |
表3-22 VAT番号
キー・タイプ | 説明 |
---|---|
VNL |
標準化されたvatnumber (左端の文字(配列)) |
VNP |
標準化されたvatnumber (左端と右端の文字のペア(配列)) |
表3-23 税番号
キー・タイプ | 説明 |
---|---|
TNL |
標準化されたtaxnumber (左端の文字(配列)) |
TNP |
標準化されたtaxnumber (左端と右端の文字のペア(配列)) |
表3-24 UID
キー・タイプ | 説明 |
---|---|
UID[1,2,3] |
標準化されたuid[1, 2, 3] (左端の文字(配列)) |
表3-25 カスタム文字列
キー・タイプ | 説明 |
---|---|
CM[1-6] |
標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし)) |
CL[1-6] |
標準化されたcustomstring[1-6] (空白なし、左端の文字) |
表3-26 カスタム日付
キー・タイプ | 説明 |
---|---|
CY[1-6] |
標準化されたcustomdate[1-6] (年) |
CX[1-6] |
標準化されたcustomdate[1-6] (完全日付) |
CN[1-6] |
標準化されたcustomdate[1-6] (年と月) |
注意:
キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。
例
次のレコード・データを使用して、エンティティ・キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。
属性 | 値 |
---|---|
|
Oracle UK |
|
Cambridge |
|
+441223228400 |
|
http://www.oracle.com/uk |
|
RGW432D243224 |
|
999111 |
|
296 Cambridge Science Park |
|
Cambridge |
|
CB4 0WD |
|
00021-53563 |
|
gbr0008873323 |
次のキー値は、Typicalキー・プロファイルを使用して生成されます。
キー・タイプ | キー・メソッド | 優先度 | キー値 |
---|---|---|---|
|
|
43 |
AD13PCL4^296^CB40 |
|
|
41 |
AD14EMT4PCL3^296C^ARKL^CB4 |
|
|
49 |
CTL0NSM6^CAMBRIDGE^ARKLKM |
|
|
47 |
CTL1ENL1PNL7^C^O^4412232 |
|
|
42 |
ENL4PCL3^ORAC^CB4 |
|
|
39 |
FAL10NSM4^296CAMBRID^ARKL NSL25^ORACLECAMBRIDGE |
|
|
40 |
NSL25^ORACLECAMBRIDGE |
|
PNR6 |
58 |
PNR6^228400 |
|
|
35 |
TNL10^RGW432D243 |
|
|
1 |
UI10^0002153563 |
|
|
36 |
VNL10^999111 |
|
|
57 |
WSL8^ORACLE |
住所のキー・タイプ
住所データの照合用に、次のキー・メソッド・タイプが用意されています。
表3-27 住所行
キー・タイプ | 説明 |
---|---|
AD1AD2 |
精製されたaddress 1 (空白なし、左端の文字)、精製されたaddress 2 (空白なし、左端の文字) |
表3-28 住所と市区
キー・タイプ | 説明 |
---|---|
AD1CTL |
精製されたaddress 1 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字) |
CTLPCLPRE |
標準化されたcity (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字) |
PMSPCC |
導出されたpremise/精製されたaddress 1 (導出されたpremiseの最初の数字語/ premiseの左端の文字/精製されたaddress1の最初の数字語/精製されたaddress1の左端の文字)、標準化されたpostalcode/標準化されたcity (標準化されたpostalcodeの左端の文字/標準化されたcityの左端の文字) |
表3-29 完全住所
キー・タイプ | 説明 |
---|---|
FAL |
精製されたfulladdress (空白なし、左端の文字) |
FAN |
精製されたfulladdress (空白なし、数字なし、ノイズ削除、左端の文字) |
表3-30 郵便番号
キー・タイプ | 説明 |
---|---|
PCL |
標準化されたpostalcode (空白なし、左端の文字) |
注意:
-
数字語とは、1つ以上の数字が含まれる単語です。たとえば、234および2Aはいずれも数字語です。
-
キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。
例
次のレコード・データを使用して、住所キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。
属性 | 値 |
---|---|
|
2529 CINCINNATI ST |
|
APT 6 |
|
LOS ANGELES |
|
CA |
|
90033 |
注意:
キーの生成時、ST
はaddress1
フィールドから精製され、APT
はaddress2
フィールドから精製されます。これは、これらのフィールドが住所行の残りの行よりも重要ではない識別子である共通の住所指定コンポーネントであり、削除するとより正確なクラスタになるためです。
Typical住所キー・プロファイルを使用して生成されるキー値は次のとおりです。
キー・タイプ | キー・メソッド | 優先度 | キー値 |
---|---|---|---|
AD1AD2 |
AD110AD210 |
12 |
AD110AD210^2529CINCIN^6 |
AD1CTL |
AD15CTL8 |
9 |
|
CTLPCLPRE |
CTL8PCL5PRE0 |
10 |
CTL8PCL5PRE0^LOSANGEL^90033^2529 |
FAL |
FAL10 |
11 |
|
FAN |
FAN10 |
13 |
FAN10^CINCINNATI |
PCL |
PCL0 |
15 |
PCL0^90033 |
PMSPCC |
PMS6PCC5 |
8 |
PMS6PCC5^2529^90033 |
個人照合の使用
CDSにおける個人用の照合の設計は、いくつかの論理識別子(複合比較)間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。
-
名前
-
住所
-
アカウント名
-
DOB
-
電話番号
-
Email
-
国民ID番号
-
税番号
カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトでは有効になっていません)。
EDQ-CDSでは、事前構成済の一致ルールを複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。
2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、生年月日が競合する2つのレコードは、名前および住所が完全に一致するのに生年月日がない2つのレコードよりもスコアが低くなります。
論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子に関連する複合比較での一致がある2つのレコードが同じものである可能性がどの程度かを定義します。
個人の名前論理識別子での照合
個人名複合比較での照合用のルールには、同じ個人名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。
-
異なる表記法/スクリプトで書き込まれた名前(例: 'Зоран'と'Zoran')。
-
同じ名前の異形(例: 'Bill'と'William')。
-
様々なレベルの名前の完全性(例: 'Joseph Andrew Harris'と'Joseph Harris')。
-
異なる順序の名前トークン(例: 'Lacazette Jacques'と'Jacques Lacazette')。
-
名前の省略形式(例: 'Chris'と'Christian')。
-
印刷上の相違(例: 'Michael'および'Micheal')。
-
頭文字の使用(例: 'A M'と'Alexander Martin')。
-
婚姻による姓の変更(例: 同じ住所の'Paula Jones'と'Paula Lewis')。
-
前述の差異の様々な組合せ。
注意:
この表では、名および姓の入力属性間のセパレータを示すためにパイプ文字を使用します(例: 名 = Martin、姓 = Smithは'Martin|Smith'と表記します)。パイプ文字が使用されていない場合は、フルネームが一致ルールで使用されていることを意味します。
注意:
このリストの先頭付近には、競合の名前ルールがいくつか示されており、これらのルールは明らかに異なる性別である2つの名前間の一致にマイナスの重み付けをして、このような一致を回避するように設計されています。
名前の照合ルール | サンプルの名前一致 | タイプ |
---|---|---|
スクリプト・フルネームの完全一致 |
完全一致 |
|
名前の完全一致 |
Martin|Fox = Martin|Fox |
完全一致 |
標準化された名 |
Bill|Lewis = William|Lewis |
完全一致 |
名の省略 |
Chris|Smith = Christina|Smith |
あいまい |
名前の競合、指定された性別が異なる |
Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け) |
競合 |
名前の競合、導出された性別が異なる |
Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け) |
競合 |
標準化された名の省略 |
Abell|Hernandez = Abelson|Hernandez |
あいまい |
スクリプト・フルネームの順不同 |
あいまい |
|
似たような名 |
Yngrid|Martin = Ingrid|Martin |
あいまい |
似たような姓 |
Yngrid Elisabeth|Martin = Ingrid Martin |
あいまい |
追加された名 |
Michael John|Smith = John|Smith |
あいまい |
標準化されたフルネーム |
Mehmood Mahomed = Mahmoud Mohammed |
あいまい |
スクリプト・フルネームに追加された名前がある |
あいまい |
|
追加された名前 |
Mary Jones Steward = Mary Jones |
あいまい |
スクリプト・フルネームの誤植 |
|
あいまい |
標準化された名の省略、姓の誤植 |
Abell|Hernandez = Abelson|Hernandes |
あいまい |
フルネームの誤植、全単語 |
Mary Cloire Jonez = Mary Claire Jones |
あいまい |
名の最初の3文字、姓の誤植 |
Ros Susan|Jonez = Rose Susan|Jones |
あいまい |
順序どおりのフルネームの頭文字、追加された名前 |
G A|Smith = Gordon Alfred|Smith |
あいまい |
標準化された姓のみ、女性 |
Jacklin|Jones = Jacqueline|Smith |
あいまい |
他の論理識別子での照合
住所
個人名照合における住所複合比較での照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。
-
建物およびサブ建物の抽出
-
STREET、ROADなど、よく使用される単語の標準化
-
STREET、ROADなど、よく使用される単語の削除
-
印刷上の相違
注意:
この表では、address1、address2、address3、city、adminarea、postalcodeの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode=CB4 0WDは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WDと表します。
表3-31 他の論理識別子での照合
住所のルール名 | 例 | タイプ |
---|---|---|
住所の完全一致 |
296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD |
完全一致 |
建物、サブ建物、住所の類似、郵便番号 |
Flat 1|296 Cambridge Science Park||Cambridge||CB4 0WD = Flat 1|296 Cambridge Sci Park||Cambridge||CB4 0WD |
あいまい |
建物、サブ建物なし、住所の類似、郵便番号 |
296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Sci Park|Milton Road||Cambridge||CB4 0WD |
あいまい |
精製された住所1および住所2の完全一致、郵便番号の先頭から一致 |
296 Milton Road|||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD |
あいまい |
精製された住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致 |
296 Milton Road|Science Park||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD |
あいまい |
建物、サブ建物、郵便番号の先頭から一致 |
Flat 1|352 Milton Road||Cambridge||CB4 0WD = 352 Milton Road|Flat 1||||CB4 0WD |
あいまい |
建物、サブ建物なし、郵便番号の先頭から一致 |
296 Cambridge Science Park|||Cambridge||CB4 0Wd = 296 The Science Park|||||CB4 0WD |
あいまい |
精製された住所1の完全一致、郵便番号の先頭から一致 |
296 Cambridge Science Park|Flat 1||Cambridge||CB4 0WD = 296 Cambridge Science Park|Flat 6||Cambridge||CB4 0WD |
あいまい |
住所(全単語) |
296 Science Park|Milton Road||Cambridge||CB4 0WD = Science Park|Milton Road||||CB4 0WD |
あいまい |
住所(全単語)の誤植 |
296 Science Park|Milton Road||Cambridge||CB4 0WD = Sciense Park|Milton Road||||CB4 0WD |
あいまい |
住所の類似、郵便番号 |
296 Science Pk|Milton Rd||Cambridge||CB4 0WD = Sceince Park|Milton Road||Cmbridge||CB4 0WD |
あいまい |
住所の類似、住所1の最初の単語 |
297 Cambridge Science Park||Milton Road|||CB30WS = 296 Cambridge Science Park|Milton Road||||CB4 0WD |
あいまい |
郵便番号 |
296 Science Park|||||CB4 0WD = |Milton Road||||CB4 0WD |
あいまい |
郵便番号の先頭から一致 |
296 Science Park|||||CB4 0WD = |||||CB4 |
あいまい |
市区の完全一致 |
352 Mill Road|||Cambridge||CB1 3NN = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD |
あいまい |
住所のデータなし |
||||| = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD |
データなし |
住所の競合 |
19 Teme Ave|||Malvern|Worcs|WR14 2XA = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD |
競合 |
アカウント名
アカウント名での照合では、次のような一致が許容されます。
-
完全一致
-
印刷上の相違
-
全単語が共通
表3-32 アカウント名
アカウント名のルール | 例 | タイプ |
---|---|---|
アカウント名の完全一致 |
Widgets and Gadgets Ltd = Widgets and Gadgets Ltd |
完全一致 |
アカウント名の誤植 |
Widgets and Gadgets Ltd = Widgets and Gagets Ltd |
あいまい |
アカウント名(全単語) |
Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshafts Ltd |
あいまい |
アカウント名(全単語)の順不同 |
Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshafts Ltd |
あいまい |
アカウント名(全単語)の誤植 |
Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshfts Ltd |
あいまい |
アカウント名(全単語)の順不同、誤植 |
Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshfts Ltd |
あいまい |
アカウント名のデータなし |
Oracle Ltd = |
データなし |
アカウント名の競合 |
Federal Mogul Camshafts Castings Ltd = Wigets and Gadgets Ltd |
競合 |
電話番号
表3-33 電話番号
電話の照合ルール | 例 | タイプ |
---|---|---|
電話の完全一致 |
01223456678 = 01223456678 |
完全一致 |
電話の最後のN文字 |
+44223456678 = 01223456678 |
あいまい |
電話のデータなし |
01223456678 = |
データなし |
電話の競合 |
01223456678=01684345678 |
競合 |
電子メールの照合では、次のような一致が許容されます。
-
完全一致
-
ユーザー名のみ完全一致
-
誤植
表3-34 電子メール
電子メールの一致ルール | 例 | タイプ |
---|---|---|
電子メールの完全一致 |
someonesname@company.com = someonesname@company.com |
完全一致 |
電子メール・ユーザーの完全一致 |
someonesname@company.com = someonesname@adomain.com |
あいまい |
電子メールの誤植 |
someonesname@companion.com = someonesname@company.com |
あいまい |
電子メールのデータなし |
someonesname@company.com = |
データなし |
電子メールの競合 |
someonesname@company.com = aperson@adomain.com |
競合 |
生年月日
生年月日の照合では、次のような一致が許容されます。
-
完全一致
-
日/月の転置の一致
生年月日の一致ルールには、日付が大きくことなるほど深刻なペナルティを科される競合ルールもあります。
表3-35 生年月日
生年月日の一致ルール | 例 | タイプ |
---|---|---|
日付の完全一致 |
11/01/1976 = 11/01/1976 |
完全一致 |
日付の類似 |
01/11/1976 = 11/01/1976 |
あいまい |
日付のデータなし |
11/01/1976 = |
データなし |
日付の大きすぎる差異 |
11/12/2001 = 11/01/1976 |
競合 |
日付の競合 |
11/01/1976 = 20/01/1976 |
競合 |
国民ID番号
表3-36 国民ID番号
国民ID番号のルール | 例 | タイプ |
---|---|---|
国民ID番号の完全一致 |
ABC112345 = ABC112345 |
完全一致 |
国民ID番号の誤植 |
ABC12345 = ABC112345 |
あいまい |
国民ID番号のデータなし |
ABC12345 = |
データなし |
国民ID番号の競合 |
ABD2535 = BCD2145 |
競合 |
税番号
表3-37 税番号
税番号のルール | 例 | タイプ |
---|---|---|
税番号の完全一致 |
ABC112345 = ABC112345 |
完全一致 |
税番号の誤植 |
ABC12345 = ABC112345 |
あいまい |
税番号のデータなし |
ABC12345 = |
データなし |
税番号の競合 |
ABD2535 = BCD2145 |
競合 |
個人照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。
表3-38 レコードの比較
レコード 1 | — | レコード 2 | — |
---|---|---|---|
Firstname |
John |
Firstname |
J |
Lastname |
Smith |
Lastname |
Smith |
Phonenumber |
01223456789 |
Phonenumber |
+44223456789 |
address1 |
35 Mill Road |
address1 |
35 Mill Road |
city |
Cambridge |
city |
Cambridge |
postalcode |
CB1 2JJ |
postalcode |
CB1 2JJ |
表3-39 比較の結果
値 | 結果 |
---|---|
matchscore |
95 |
rulename |
N040 名の省略, A010 住所の完全一致, C070 アカウント名のデータなし, D030 生年月日のデータなし, P020 電話の最後のN文字, E040 電子メールのデータなし, I030 国民ID番号のデータなし, T030 税番号のデータなし |
ruleattributes |
NAME,ADDRESS,PHONE |
comparisonresults |
名前あいまい,住所完全,電話あいまい |
namescore |
95 |
nameresult |
N040 名の省略 |
namecategory |
あいまい |
addressscore |
100 |
addressresult |
A010 住所の完全一致 |
phoneresult |
P020 電話の最後のN文字 |
phonescore |
90 |
phonecategory |
Fuzzyfamilyname |
*データがない結果は、簡潔するために省略されています。
注意:
フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。
comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。
ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。
2次識別子一致ルール | 説明 |
---|---|
DOB; 電子メール |
生年月日および電子メールが完全に一致します。 |
住所;電子メール |
住所および電子メールが完全に一致します。 |
電子メール;電話番号 |
電子メールおよび電話番号が完全に一致します。 |
会社;アドレス |
短い会社名のすべてのトークンが長い会社名と一致し、住所も完全に一致します。 |
税番号 |
税番号が完全に一致します。 |
国民ID番号 |
国民ID番号が完全に一致します。 |
電子メール |
電子メールが完全に一致します。 |
住所 |
住所が完全に一致します。 |
電話 |
電話番号が完全に一致します。 |
建物、サブ建物、郵便番号の先頭から一致 |
抽出された建物、サブ建物および郵便番号で住所が一致 注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値の |
建物、サブ建物なし、郵便番号の先頭から一致 |
住所が抽出された建物および郵便番号で一致し、どちらの |
DOB |
生年月日が完全に一致します。 |
電話の最後のN桁 |
最後のN桁を使用して一致する電話番号(デフォルト、最後の6桁)。 |
会社;郵便番号 |
短い会社名のすべてのトークンが長い会社名と一致し、郵便番号も完全に一致します。 |
住所(全単語) |
短い住所の全単語が長い住所と一致します。 |
DOBの類似 |
生年月日が類似(デフォルトの比較設定を使用した日/月の転位一致)。 |
税番号の誤植 |
税番号が1または2の文字編集距離と一致します。 |
国民ID番号の誤植 |
国民ID番号が1または2の文字編集距離と一致します。 |
電子メールの誤植 |
電子メールが1または2の文字編集距離と一致します。 |
住所(全単語)の誤植 |
短いアドレスの全単語が20%の文字エラー・トレランスで長いアドレスと一致します。 |
住所の類似、郵便番号 |
文字一致率65以上で住所が一致し、郵便番号が完全に一致します。 |
住所の類似、住所1の最初の単語 |
文字一致率65以上で住所が一致し、住所の最初の行で少なくとも1つのトークンが一致します。 |
会社 |
短い会社名のすべてのトークンが長い会社名と一致します。 |
前述の論理識別子に加えて、照合にカスタム・フィールドを使用するように個人照合を構成できます。カスタム・フィールドはデフォルトでは、照合またはクラスタリングに対して有効になっていません(詳細は「カスタマ追加属性による照合の使用」を参照)
一意のカスタム識別子を使用して個々のレコードの照合または除去を実行することもできます(「ID照合の使用」を参照)。
エンティティ照合の使用
個人と同様、CDSにおけるエンティティ用の照合の設計は、複合比較を使用したいくつかの論理識別子間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。
-
エンティティ名
-
住所
-
電話番号
-
Webサイト・アドレス
-
税番号
-
VAT番号
カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトではそれらの照合は有効になっていません)。
EDQ-CDSでは、事前構成済のルールを論理識別子に関連する複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。
2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、Webアドレスが競合する2つのレコードは、名前および住所が完全に一致するのにWebアドレスがない2つのレコードよりもスコアが低くなります。
論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子での一致がある2つのレコードが同じ個人である可能性がどの程度かを定義します。
注意:
異なる表記法間でエンティティを照合することは(個人とは対照的に)かなり難しく、これは、文字変換プロセス(および転写でさえ)が成功する可能性がずっと低いためです。非常に多くの場合、2つの異なる言語で書き込まれたときに企業が同じであることを認識する唯一の方法は、あらゆる可能性がある企業名と適切な翻訳(文字変換や転写ではなく)の大規模な辞書を保持することです。ほとんどの場合、このようなデータは簡単に使用できませんが、使用可能な場合は、結果を向上させるためにEDQ-CDSにプラグインできます。
エンティティ名照合
エンティティ名の照合用のルールには、同じエンティティ名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。
-
異なる表記法で書き込まれたエンティティ名。
-
接尾辞あり/なしのエンティティ名(例: 'Oracle LTD'と'Oracle')。
-
省略された用語または接尾辞を含むエンティティ名(例: 'Oracle Limited'と'Oracle LTD')。
-
エンティティ名での文字順およびスペルの相違/間違い(例: 'Oracle'と'Oralce')。
-
名前の完全性が様々なレベルのエンティティ名(例: 'ABC Technology Consultants LTD'と'ABC Technology LTD')。
-
異なる順序で出現するエンティティ名トークン(例: 'Cambridge Science Park LTD'と'Science Park Cambridge')。
-
名前の一部または全部が頭字語になっているエンティティ名(例: 'Oracle Catering'と'O.C.')。
注意:
次の表では、名前の照合ルールで'フルネーム'を使用していますが、これは、エンティティのフルネーム識別子(エンティティ名属性とサブ名属性の連結)に適用されることを意味します。パイプ(|)文字は、サンプルの一致を示すのにサブ名属性が必要となる場合にエンティティ名とサブ名を区切るために使用します。
エンティティ名の照合ルール | サンプルのエンティティ名一致 | タイプ |
---|---|---|
スクリプト・フルネームの完全一致 |
||
フルネームの完全一致 |
TCHIBO GMBH = TCHIBO GMBH |
|
標準化されたフルネームの完全一致 |
ORACLE UK LTD | READING = ORACLE UK LIMITED | READING |
あいまい |
接尾辞なしのスクリプト・フルネームの完全一致 |
あいまい |
|
接尾辞なしのフルネームの完全一致 |
ORACLE = ORACLE CORPORATION |
あいまい |
接尾辞なしの似たようなフルネーム |
ORACLE CAMBRIDGE SCIENCE PARK = ORACLE CAMBRIDGE PARK SCIENCE |
あいまい |
スクリプト・フルネームの順不同 |
|
あいまい |
接尾辞なしのスクリプト・フルネーム(全単語)の順不同 |
あいまい |
|
接尾辞なしのフルネーム(全単語)の順不同 |
CAMBRIDGE SCIENCE PARK LTD = SCIENCE PARK CAMBRIDGE |
あいまい |
スクリプト・フルネームに追加された名前がある |
あいまい |
|
接尾辞なしのスクリプト・エンティティ名の完全一致 |
あいまい |
|
接尾辞なしのエンティティ名の完全一致 |
ORACLE CORPORATION | CAMBRIDGE = ORACLE | READING |
あいまい |
フルネーム(全単語)の誤植による短縮 |
Oracle Inc | Cambridge =Oracl | Cambridge |
あいまい |
接尾辞なしのスクリプト・エンティティ名の先頭から一致 |
あいまい |
|
接尾辞なしのエンティティ名の先頭から一致 |
ABC TECHNOLOGY CONSULTANTS LTD = ABC TECHNOLOGY LTD |
あいまい |
接尾辞なしのスクリプト・フルネーム(全単語)の誤植による短縮 |
あいまい |
|
接尾辞なしのフルネーム(全単語)の誤植による短縮 |
Federal Mogull | Camshafts Inc = Federal Mogul Camshafts Castings Ltd |
あいまい |
スクリプト・フルネームの誤植 |
あいまい |
|
フルネームの誤植 |
ABD SERVICES LTD = ABC SERVICES LTD |
あいまい |
接尾辞なしのスクリプト・フルネームの誤植 |
あいまい |
|
接尾辞なしのフルネームの誤植 |
ABD ENGINEERING LTD = ABC ENGINEERING |
あいまい |
接尾辞なしのスクリプト・エンティティ名の先頭から一致 |
あいまい |
|
接尾辞なしのエンティティ名の先頭から一致 |
ABC LIMITED | CAMBRIDGE = ABC PHARMACEUTICALS LIMITED | READING |
あいまい |
標準化されたフルネーム(頭字語)の完全一致 |
CSC= Computer Science Corporation |
あいまい |
精製されたエンティティ名(最長共通部分文字列12文字以上) |
Colebrook & Burgess (North Shields) Ltd. = Colebrook & Burgess (Teesside) Ltd. |
あいまい |
接尾辞なしのフルネーム(頭字語)の完全一致 |
CSC = Computer Science Collaborations Ltd |
あいまい |
接尾辞なしのフルネーム(頭字語を含む) |
Oracle CK = Oracle Collaborative Koopers |
あいまい |
接尾辞なしのエンティティ名の軽い誤植 |
Oracle Collaborative Coopers = Orracl Colabarativ Kupers |
あいまい |
接尾辞なしのエンティティ名(最初のトークン) |
DANVERS BANCORP INC = DANVERS MUNICIPAL FEDERAL CREDIT UNION |
あいまい |
精製されたエンティティ名(最初の3文字)の完全一致、最長共通部分文字列6文字以上 |
Lincoln Co-Operative Chemists Ltd. = Lincolnshire Co-Operative Ltd. |
あいまい |
精製されたエンティティ名(1文字以上のトークン)の完全一致 |
Burgess Video Ltd. = Sue Burgess Ltd. |
あいまい |
エンティティ名のデータなし |
Oracle Corporation = |
データなし |
エンティティ名の競合 |
Oracle Corporation = Sue Burgess Ltd. |
競合 |
エンティティ用のその他の論理識別子での照合
住所
エンティティ名照合における住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。
-
建物およびサブ建物の抽出
-
STREET、ROADなど、よく使用される単語の標準化
-
STREET、ROADなど、よく使用される単語の削除
-
印刷上の相違
注意:
この表では、address1、address2、address3、city、adminarea、postalcode、countryの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode =CB4 0WD、country = United Kingdomは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD|United Kingdomと表します
2次識別子一致ルール | 説明 |
---|---|
住所 |
住所が完全に一致します。 |
建物、サブ建物、郵便番号の先頭から一致 |
抽出された建物、サブ建物および郵便番号で住所が一致 注意: 照合サービスでは、先行ゼロが自動的に削除される外部プログラムによって数値の |
建物、サブ建物なし、郵便番号の先頭から一致 |
住所が抽出された建物および郵便番号で一致し、どちらの |
住所(全単語) |
短い住所の全単語が長い住所と一致します。 |
住所(全単語)の誤植 |
短いアドレスの全単語が20%の文字エラー・トレランスで長いアドレスと一致します。 |
Webサイト;電話番号 |
Webサイト・アドレスおよび電話番号が完全に一致します。 |
税番号 |
税番号が完全に一致します。 |
VAT番号 |
VAT番号が完全に一致します。 |
住所1の誤植;市区;国 |
住所が類似し、市区および国の両方が完全に一致します。 |
住所の類似、郵便番号 |
文字一致率65以上で住所が一致し、郵便番号が完全に一致します。 |
電話 |
電話番号が完全に一致します。 |
電話の最後のN桁 |
最後のN桁を使用して一致する電話番号(デフォルト、最後の6桁)。 |
税番号の誤植 |
税番号が1または2の文字編集距離と一致します。 |
VAT番号の誤植 |
VAT番号が1または2の文字編集距離と一致します。 |
郵便番号 |
郵便番号が完全に一致します。 |
市区;国 |
市区および国が完全に一致します。 |
Webサイト |
Webサイト・アドレスが完全に一致します。 |
Webサイト(根幹) |
Webサイト・アドレスの根幹部分が完全に一致します。 |
市区 |
フル市区名が完全に一致します。 |
住所の類似、住所1の最初の単語 |
文字一致率65以上で住所が一致し、住所の最初の行で少なくとも1つの単語が一致します。 |
国 |
国名が完全に一致します。 |
住所なし |
レコードの一方または両方に住所がないときに住所が一致します。 |
住所の競合 |
住所がまったく一致しません。デフォルトでは、このルールは名前の完全な一致を含む最初のいくつかのプライマリ識別子グループに対してのみ有効です。たとえば、住所が異なる場合は、名前が同じで、非常に緩やかな一致であることを理解する必要があります。 |
表3-40 住所照合
住所の照合ルール | 例 | タイプ |
---|---|---|
住所の完全一致 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom |
完全一致 |
サブ建物、建物、郵便番号の先頭から一致、住所の類似 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom |
あいまい |
建物、サブ建物なし、郵便番号の先頭から一致、住所の類似 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom |
あいまい |
サブ建物、建物、郵便番号の先頭から一致 |
Flat 1|352 Milton Road||Cambridge||CB4 0WD| = 352 Milton Road|Flat 1||||CB4 0WD| |
あいまい |
建物、サブ建物なし、郵便番号の先頭から一致 |
296 Milton Road|Science Park||Cambridge||CB4 0WD| = 296 Milton Road|||||CB4 0WD| |
あいまい |
住所(全単語) |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom |
あいまい |
住所(全単語)の誤植 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Millton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom |
あいまい |
住所1の誤植、市区、国の完全一致またはデータなし |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Mil||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom |
あいまい |
住所の類似、郵便番号 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Milton||Cam|Cambridgeshire|CB4 1AB|United Kingdom |
あいまい |
郵便番号 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom |
あいまい |
市区と国 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire||United Kingdom |
あいまい |
市区 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire|| |
あいまい |
住所の類似、住所1の最初の単語 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Milton Road|Cambridge|Cambridgeshire||United Kingdom| |
あいまい |
国 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Arbury Road|Cambridge|Cambridgeshire|||United Kingdom |
あいまい |
住所のデータなし |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |||||| |
データなし |
住所の競合 |
Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic|||Arbury||| |
競合 |
表3-41 Webサイト・アドレス
Webサイト・アドレスの照合ルール | 例 | タイプ |
---|---|---|
Webサイトの完全一致 |
www.tcnltd.com = www.tcnltd.com |
完全一致 |
Webサイト(根幹)の完全一致 |
www.tcnltd.co.uk = www.tcnltd.com |
あいまい |
Webサイトのデータなし |
www.tcnltd.com = |
データなし |
Webサイトの競合 |
www.abc.com = www.tcnltd.com |
競合 |
電話番号
電話番号の照合では、次のような一致が許容されます。
-
完全一致
-
最後のN文字の照合
表3-42 電話番号
電話の照合ルール | 例 | タイプ |
---|---|---|
電話の完全一致 |
01223456678 = 01223456678 |
完全一致 |
電話の最後のN文字 |
+44223456678 = 01223456678 |
あいまい |
電話のデータなし |
01223456678 = |
データなし |
電話の競合 |
01223456678=01684345678 |
競合 |
表3-43 VAT番号
VAT番号のルール | 例 | タイプ |
---|---|---|
VAT番号のルール |
ABC112345 = ABC112345 |
完全一致 |
VAT番号の完全一致 |
ABC12345 = ABC112345 |
あいまい |
VAT番号のデータなし |
ABC12345 = |
データなし |
VAT番号の競合 |
ABD2535 = BCD2145 |
競合 |
表3-44 税番号
税番号のルール | 例 | タイプ |
---|---|---|
税番号の完全一致 |
ABC112345 = ABC112345 |
完全一致 |
税番号の誤植 |
ABC12345 = ABC112345 |
あいまい |
税番号のデータなし |
ABC12345 = |
データなし |
税番号の競合 |
ABD2535 = BCD2145 |
競合 |
エンティティ照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。次はその例です。
表3-45 レコードの比較
レコード 1 | — | レコード 2 | — |
---|---|---|---|
名前 |
Widgets and Gadgets Ltd |
名前 |
Gadgets and Widgets Ltd |
サブ名 |
Cambridge |
サブ名 |
Cambridge |
電話 |
012234567890 |
電話 |
+4412234567890 |
Webサイト |
www.widgetsandgadgets.com |
Webサイト |
www.widgetsandgadgets.org |
税番号 |
ABC 1234 12 |
税番号 |
ABC 1234 12 |
Address1 |
29 Mill Road |
Address1 |
Flat 3 |
Address2 |
Flat 3 |
Address2 |
29 Mill Road |
市区 |
市区 |
Cambridge |
|
郵便番号 |
郵便番号 |
CB1 3GH |
表3-46 比較の結果
値 | 結果 |
---|---|
ruleattributes |
NAME,ADDRESS,PHONE,WEBSITE,TAXNUMBER |
matchscore |
97 |
rulename |
N090 接尾辞なしのフルネーム(全単語)の順不同、A040 サブ建物、建物、郵便番号の先頭から一致、W020 Webサイト(根幹)の完全一致、P020 電話の最後のN文字、T010 税番号の完全一致、V030 |
comparisonresults |
名前あいまい、住所あいまい、Webサイトあいまい、電話番号あいまい、税番号完全 |
nameresult |
N090 接尾辞なしのフルネーム(全単語)の順不同 |
namescore |
20 |
namecategory |
あいまい |
addressresult |
A040 サブ建物、建物、郵便番号の先頭から一致 |
addressscore |
50 |
addresscategory |
あいまい |
phonenumberresult |
P020 電話の最後のN文字 |
phonenumberscore |
70 |
phonenumbercategory |
あいまい |
websiteresult |
W020 Webサイト(根幹)の完全一致 |
websitescore |
70 |
websitecategory |
あいまい |
taxnumberresult |
T010 税番号の完全一致 |
taxnumberscore |
100 |
taxnumbercategory |
完全一致 |
*データがない結果は、簡潔するために省略されています。
comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。
ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。
注意:
フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。
一意のカスタム・キー生成を使用してエンティティ・レコードの照合または除去を実行することもできます(「ID照合の使用」を参照)。
ID照合の使用
EDQ-CDSにおけるIDの照合ルールにより、他のフィールドでの照合(する/しない)に関係なく、なんらかの名前の一致を必要とせずに、一意のカスタム識別子にのみ基づいた照合(または除去)が可能になります。これらは、これまでの各項で説明した論理識別子で照合されるルールより前に実行され、まったく切り離されています。
照合および除去は、エンティティ照合および個人照合用に用意されていますが、住所照合用には用意されていません。
注意:
-
一意のID (UID)照合は常に、EIDまたはIEID照合の前に実行します。したがって、2つのレコードが一意の識別子によって照合される場合、それらのレコードは除去できません。
-
これらの識別子は常に、標準化された形式で比較されます。たとえば、大/小文字やその他の英数字以外の文字のみが異なる値は同一と見なされます。たとえば、次の値は、ID照合の目的においては同一です。
-
AB123456789
-
ab123-456-789
-
ab12345 6789
-
ab#123456789
-
一意のID照合の使用
UIDの一致ルールは、個人照合プロセスの一致グループ[I005] UID
とエンティティ照合プロセスの[E005] UID
一致グループに含まれます。たとえば、個人照合の一致グループは次のとおりです。
-
[I005A] Match UID1
-
[I005B] Match UID2
-
[I005C] Match UID3
これらのルールを使用するには、レコードの必要なデータを1つ以上のuid属性にマップします。照合ルールは常に、他の属性が1つも一致しない場合でも、共通の一意の識別子を共有する2つのレコードを照合します。
注意:
-
uid
属性は、パイプ区切りリストの形式で複数の値を受け入れます。複数の属性値のいずれかが一致した場合、2つのレコード間で一致が戻されます。 -
uid
属性間の照合はできません。たとえば、uid1
の値は、uid2
の値またはuid3
の値と照合できません。
例
一連のレコードのPassport Number
フィールドは、uid1
属性として構成されています。したがって、次のレコードは一致として戻されます。
レコードID | 名 | 姓 | uid1 (パスポート番号) | 一致? |
---|---|---|---|---|
1 |
Fred |
Smith |
12345678 |
はい |
2 |
John |
Doe |
12345678 |
はい |
uid1
フィールドで複数の値を保持する次のレコードも照合されます。
レコードID | 名 | 姓 | uid1 (パスポート番号) | 一致? |
---|---|---|---|---|
1 |
Fred |
Smith |
12312312 | 67867867 |
はい |
2 |
John |
Doe |
67867867 | 23423423 |
はい |
同じ一連のレコードのSSN
フィールドは、uid2
属性として構成されています。レコード1のuid1
値がレコード2のuid2
値と一致しても、uid1
フィールドとuid2
フィールドは互いと照合されません。
レコードID | 名 | 姓 | uid1 (パスポート番号) | uid2 (SSN) | 一致? |
---|---|---|---|---|---|
1 |
Fred |
Smith |
12312312 |
67867867 |
いいえ |
2 |
John |
Doe |
67867867 |
12312312 |
いいえ |
除去ID照合の使用
除去ID (EID)の一致ルールは、エンティティおよび個人の照合プロセスの[ELIM015] EID ELIMINATIONS
グループに含まれます。
-
[ELIM015A] ELIMINATE EID1
-
[ELIM015B] ELIMINATE EID2
-
[ELIM015C] ELIMINATE EID3
これらのルールを使用するには、レコードの必要なデータを1つ以上のeid
属性にマップします。EIDの照合ルールは常に、その他すべての属性が一致する場合でも、eid
属性で共通の値を共有しない2つのレコードについて"一致なし"の結果を戻します。この例外は、uid
属性を使用して2つのレコードが照合された場合で、これはUID照合がEID照合より前に実行されるためです。
注意:
-
eid
属性は、パイプ区切りリストの形式で複数の値を受け入れます。"一致なし"の結果は、属性の値が1つも一致しない場合に2つのレコード間で戻されます。 -
異なる
eid
属性間で値を比較することで可能性がある一致を除去することはできません。たとえば、eid1
値は、eid2
の値またはeid3
の値と比較できません。
例
一連のレコードのSSN
フィールドは、eid1
属性として構成されています。したがって、次のレコードは可能性がある一致として除去されます。
レコードID | 名 | 姓 | eid1 (SSN) | 除去? |
---|---|---|---|---|
1 |
John |
Doe |
12345678 |
はい |
2 |
John |
Doe |
87654321 |
はい |
eid1
フィールドで複数の値を保持する次のレコードも、いずれの値も一致しないため、可能性がある一致として除去されます。
レコードID | 名 | 姓 | eid1 (SSN) | 除去? |
---|---|---|---|---|
1 |
John |
Doe |
12312312 | 23423423 |
はい |
2 |
John |
Doe |
45645645| 67867867 |
はい |
同じ一連のレコードのPassport
フィールドは、eid2
属性として構成されています。eid1
フィールドとeid2
フィールドは比較されないため、"一致なし"の結果が戻され、レコードは可能性がある一致として除去されます。
レコードID | 名 | 姓 | eid1 (SSN) | eid2 (パスポート番号) | 除去? |
---|---|---|---|---|---|
1 |
John |
Doe |
12312312 |
67867867 |
はい |
2 |
John |
Doe |
67867867 |
12312312 |
はい |
最後に、次のレコードのeid1
フィールドに2つの同一値があるため、これらは可能性がある一致として除去されません。
レコードID | 名 | 姓 | eid1 (SSN) | 除去? |
---|---|---|---|---|
1 |
John |
Doe |
12312312 | 23423423 |
いいえ |
2 |
John |
Doe |
45645645| 12312312 |
いいえ |
カスタマ追加属性による照合の使用
カスタマ追加の文字列属性と日付属性による照合により、EDQの構成方法を改善し、標準インタフェースに存在しない属性に関するEDQ-CDS構成のカスタマイズの必要性を減らします。
個人およびエンティティの各候補インタフェースには、6つのカスタム文字列属性と3つのカスタム日付属性が含まれます。一致インタフェースには、カスタム文字列およびカスタム日付ごとに結果、カテゴリおよびスコアのカスタム属性が含まれます。
標準化
カスタム文字列は、タイプidentifier
またはtext
として指定でき、標準化方法に影響します。identifier
カスタム文字列は英数字以外の文字が削除され、大文字に変換される一方、text
カスタム文字列は単に正規化されます。
この動作は、次のように実行プロファイルで指定します。
phase.*.process.*.customstringNtype = text
また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。
<dn:request customstringNtype="identifier">
カスタム日付は、date
データ型への変換と同様に標準化されます。
マッチング
カスタム属性は必要に応じて、キー作成(「カスタム属性のキー」を参照)に使用されたかどうかに関係なく、照合時に使用できます(デフォルトでは、カスタム属性に対して照合は実行されません)。
カスタム属性を照合する方法は2つあります。
-
完全一致のみ
-
完全一致とあいまい一致
カスタム属性ごとに2つの複合比較があります。
-
customstringNexact
/customdateNexact
-
customstringNfuzzy
/customdateNfuzzy
したがって、カスタム属性ごとに実行される照合の有効/無効およびタイプと、対応する重み付けは、次のように、これらの複合比較ごとに関連する'exact'パラメータまたは'fuzzy'パラメータを使用して実行プロファイルで指定します。
phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.enabled = Y phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.weighting = 1 phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.enabled = N phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.weighting = 1
つまり、特定のカスタム属性で照合するためには、対応する'exact'または'fuzzy'の(両方ではなく)いずれかの複合比較を有効にする必要があります。
また、これらの設定は、次のようにリアルタイムでメッセージ単位にオーバーライドできます。
<dn:request overallscore.customstring1exact.enabled="Y" overallscore.customstring1exact.weighting="1" overallscore.customstring1fuzzy.enabled="N" overallscore.customstring1fuzzy.weighting="1" >
住所照合の使用
住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。
-
省略された用語または接尾辞を含む住所。
-
住所での文字順およびスペルの相違/間違い。
-
完全性が様々なレベルの住所。
-
抽出された建物およびサブ建物が一致し、住所の他の構成要素が異なる順序であるか、一方にない住所。
次の表に、用意されているルールをすべて示します。
住所の一致ルール・コード | 住所の一致ルールの説明 |
---|---|
[A010] |
住所の完全一致、郵便番号の完全一致 |
[A020] |
住所の完全一致、郵便番号なし |
[A030] |
住所行1および2の完全一致、市区の完全一致、郵便番号の完全一致 |
[A040] |
住所行1および2の完全一致、市区の完全一致、郵便番号の先頭から一致 |
[A050] |
住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A060] |
住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし |
[A070] |
住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A080] |
住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致 |
[A090] |
住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし |
[A100] |
住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A110] |
住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし |
[A120] |
住所1の完全一致、住所2の競合なし、郵便番号の完全一致 |
[A130] |
住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致 |
[A140] |
住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A150] |
住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致 |
[A160] |
住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致 |
[A170] |
住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致 |
[A180] |
住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致 |
[A190] |
住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の競合なし |
[A200] |
住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A210] |
住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致 |
[A220] |
住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致 |
[A230] |
住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致 |
[A240] |
住所1 (共通の文字列7字以上)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A250] |
住所(全単語)、郵便番号の完全一致 |
[A260] |
住所の類似、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A270] |
住所1 (全単語)、住所2の競合なし、郵便番号の完全一致 |
[A280] |
住所1 (全単語)、住所2の競合なし、郵便番号の先頭から一致 |
[A290] |
住所(全単語)の誤植、郵便番号の完全一致 |
[A300] |
住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし |
[A310] |
住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし |
[A320] |
住所1の完全一致、郵便番号の完全一致 |
[A330] |
住所1の完全一致、郵便番号の先頭から一致 |
[A340] |
サブ建物の完全一致、建物の完全一致、郵便番号の完全一致 |
[A350] |
サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致 |
[A360] |
住所(全単語) |
[A370] |
住所(全単語)の誤植 |
[A380] |
住所の類似、郵便番号 |
[A390] |
住所の類似、住所1の最初の単語 |
次の表に、必須のキー・フィールドを太字テキストで強調表示して、一致ルール・コードのみによる一致の例を示します。
住所の一致ルール・コード | 住所のコンポーネント | レコード | 照合されるレコード |
---|---|---|---|
[A010] |
address1 |
901 GOLF CLUB RD |
901 GOLF CLUB RD |
[Null] |
city |
WESTWOOD |
WESTWOOD |
[Null] |
subadminarea |
PLUMAS |
PLUMAS |
[Null] |
adminarea |
CA |
CA |
[Null] |
postalcode |
96137 |
96137 |
[Null] |
country |
US |
US |
[A020] |
[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。 |
[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。 |
[A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。 |
[A030] |
address1 |
1201 BEECH ST |
1201 BEECH ST |
[Null] |
address2 |
APT 104F |
APT 104F |
[Null] |
city |
PALO ALTO |
PALO ALTO |
[Null] |
subadminarea |
SANTA CLARA |
SAN MATEO |
[Null] |
adminarea |
CA |
CA |
[Null] |
postalcode |
94303 |
94303 |
[Null] |
country |
US |
US |
[A040] |
[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。 |
[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。 |
[A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。 |
[A050] |
address1 |
5 Hogskoleringen |
Hogskoleringen 5 |
[Null] |
city |
Trondheim |
Trondheim |
[Null] |
adminarea |
[Null] |
SØR-TRØNDELAG |
[Null] |
postalcode |
7491 |
7491 |
[Null] |
country |
Norway |
Norway |
[A060] |
[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A070] |
address1 |
Heinrichboeckingstr 10-14 |
Heinrichboeckingstr 10-14 |
[Null] |
address2 |
Service Zentrum Merzig |
|
[Null] |
city |
Saarbrücken |
Saarbrücken |
[Null] |
adminarea |
[Null] |
SAARLAND |
[Null] |
postalcode |
66121 |
66121 |
[Null] |
country |
ドイツ |
ドイツ |
[A080] |
[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A090] |
[A070]と同様ですが、 |
[A070]と同様ですが、 |
[A070]と同様ですが、 |
[A100] |
address1 |
HOGSKOLERINGE 5 |
HOGSKOLERINGEN 5 |
[Null] |
city |
Trondheim |
Trondheim |
[Null] |
postalcode |
9491 |
9491 |
[Null] |
country |
Norway |
Norway |
[A110] |
[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A120] |
address1 |
Marshfield Bank |
Marshfield Bank |
[Null] |
address2 |
WOOLSTANWOOD |
[Null] |
[Null] |
city |
Crewe |
Crewe |
[Null] |
postalcode |
CW28UY |
CW28UY |
[Null] |
country |
UK |
UK |
[A130] |
[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A140] |
address1 |
Apt Y302 |
APT Y302 |
[Null] |
address2 |
1605 Sherringtowne Ave |
1605 Sherington Ave |
[Null] |
city |
NEWPORT BEACH |
NEWPORT BEACH |
[Null] |
adminarea |
Orange |
Orange |
[Null] |
postalcode |
92663-9087 |
92663-9087 |
[Null] |
country |
US |
US |
[A150] |
[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A160] |
address1 |
1728 Corporate Xing |
1728 Corporate Xing |
[Null] |
address2 |
Suite1 |
[Null] |
[Null] |
city |
O Fallon |
O Fallon |
[Null] |
adminarea |
ILLINOIS |
IL |
[Null] |
postalcode |
62269-3734 |
62269-3734 |
[Null] |
city |
US |
US |
[A170] |
[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A180] |
address1 |
Block 16 |
16 Dunsinane Ave |
[Null] |
address2 |
Dunsinane Avenue |
[Null] |
[Null] |
address3 |
Dunsinane Industrial Estate |
[Null] |
[Null] |
city |
Dunsinane |
Dunsinane |
[Null] |
postalcode |
DD23QT |
DD23QT |
[Null] |
country |
UK |
UK |
[A190] |
[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A200] |
address1 |
26701 QUAIL CRK |
26701 QUAIL CRK APT 107 |
[Null] |
address2 |
APT 107 |
[Null] |
[Null] |
city |
ALISO VIEJO |
LAGUNA HILLS |
[Null] |
postalcode |
92656-1089 |
92656-1089 |
[Null] |
country |
US |
US |
[A210] |
[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A220] |
address1 |
Folkes Road |
Unit 12 Folkes Road |
[Null] |
address2 |
Hayes Trading Estate |
Lye |
[Null] |
address3 |
Lye |
[Null] |
[Null] |
city |
Stourbridge |
Stourbridge |
[Null] |
postalcode |
DY98RN |
DY98RN |
[Null] |
country |
UK |
UK |
[A230] |
[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A240] |
address1 |
101/61 NAWANAKORN INDUSTRY |
101/61 NAVANAKORN INDUSTRY |
[Null] |
address2 |
SELFLEMENT PHAHONYOTHIN |
PAHOLYOTHIN KLONGNUENG |
[Null] |
city |
KLONGLAUNG |
KHLONG LUANG |
[Null] |
postalcode |
12120 |
12120 |
[Null] |
country |
Thailand |
Thailand |
[A250] |
address1 |
Blyth House |
Blyth House |
[Null] |
address2 |
130 Hordern Road |
Hordern Road |
[Null] |
city |
Wolverhampton |
Wolverhampton |
[Null] |
postalcode |
WV60HS |
WV60HS |
[Null] |
country |
UK |
UK |
[A260] |
address1 |
21001 State Route 739 |
21001 Sr Rt 739 |
[Null] |
address2 |
7 |
[Null] |
[Null] |
city |
Raymond |
Raymond |
[Null] |
postalcode |
43067 |
43067 |
[Null] |
country |
United States |
United States |
[A270] |
address1 |
Lancaster House Aviation Way |
Aviation Way |
[Null] |
address2 |
[Null] |
Southend Airport |
[Null] |
city |
SOUTHEND ON SEA |
SOUTHEND ON SEA |
[Null] |
postalcode |
SS26UN |
SS26UN |
[Null] |
country |
UK |
UK |
[A280] |
[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
[A290] |
address1 |
Blythe House |
Blyth House |
[Null] |
address2 |
130 Hordern Road |
Hordern Road |
[Null] |
city |
Wolverhampton |
Wolverhampton |
[Null] |
postalcode |
WV60HS |
WV60HS |
[Null] |
country |
UK |
UK |
[A300] |
[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A310] |
[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。 |
[A320] |
address1 |
Network House |
Network House |
[Null] |
address2 |
1 Ariel Way |
Wood Lane |
[Null] |
city |
London |
London |
[Null] |
postalcode |
W127SL |
W127SL |
[Null] |
country |
UK |
UK |
[A330] |
[A320]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
||
[A340] |
address1 |
College Business Park |
College Business Park |
[Null] |
address2 |
Park |
Coldhams Lane |
[Null] |
city |
Cambridge |
[Null] |
[Null] |
postalcode |
CB13HD |
CB13HD |
[Null] |
country |
イギリス |
イギリス |
[A350] |
[A340]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。 |
||
[A360] |
address1 |
938 Miller St |
Medical Ctr Blvd |
[Null] |
address2 |
Medical Center Boulevard |
[Null] |
[Null] |
city |
Winston Salem |
Winston- Salem |
[Null] |
postalcode |
27157 |
27157 |
[Null] |
country |
United States |
United States |
[A370] |
address1 |
Humberstone Avenue |
24 Humberston Avenue |
[Null] |
address2 |
Humberstone |
Humberston |
[Null] |
city |
GRIMSBY |
GRIMSBY |
[Null] |
postalcode |
DN364SX |
DN364SP |
[Null] |
country |
UK |
UK |
[A380] |
address1 |
5 Sidings Court |
Greyfriars House |
[Null] |
address2 |
White Rose Way |
Sidings Court |
[Null] |
city |
DONCASTER |
DONCASTER |
[Null] |
postalcode |
DN45NU |
DN45NU |
[Null] |
country |
UK |
UK |
[A390] |
address1 |
120 Howard St |
120 Howard St |
[Null] |
address2 |
[Null] |
STE 200 |
[Null] |
city |
San Fransisco |
San Fransisco |
[Null] |
adminarea |
CA |
CA |
[Null] |
postalcode |
94105-1622 |
94105-1615 |
[Null] |
country |
United States |
United States |
注意:
個人およびエンティティの照合とは異なり、住所照合では、同じように照合するために別々の論理識別子間の照合を分割するのに向いていないため、複合比較照合機能を使用しません。