プライマリ・コンテンツに移動
Oracle® Fusion Middleware Enterprise Data Qualityカスタマ・データ・サービス・パック・ガイド
12c (12.2.1.2.0)
E88280-01
  目次へ移動
目次

前
 
次
 

3 照合の使用方法

この章では、EDQ-CDSの照合機能を使用してデータを照合する方法について説明します。

この章の内容は次のとおりです。

EDQ-CDSは、実際のばらつきを示す顧客データを照合することを目的に設計されています。データ・セットの関連する一致がすべて提示され、レコード間の一致の可能性に応じて適切にスコア付けされます。そのために、提示されたデータに対して多岐にわたる照合アルゴリズムを適用するだけでなく、データの派生形に対しても照合技術を適用するなど、多種多様なメカニズムが使用されます。

たとえば、ある表記法で提示された名前は、その表記法とともに変換された名前も使用して照合され、効果的なスクリプト間照合が提供されます。同様に、住所は、ほぼ生の形式で(国際住所の単語および語句の標準化後、かつ充填単語の削除後に)照合されますが、推定される建物番号、サブ建物番号、郵便番号といったキー情報を住所から抽出して照合するという方法もあります。

3.1 照合の目的

一般に、EDQ-CDSで提供される照合サービスは、検索ではなく、重複防止のために設計されています。つまり、このすぐに使用できるサービスの目的は、レコードがシステムに追加されるとき、すでに存在すると思われる場合に介入することです。これが意味するところは、照合サービスでは、単一の属性(名前など)よりもずっと多くのものに的が絞られており、意図的に典型的な検索操作ほど広いネットにはキャストしないということです。一致していないが似たような詳細を保持し、まったく同じ名前であったとしても、2次的識別情報が一致の可能性が低いことを示す他のレコードがシステムに存在することがあります。このような場合、EDQ-CDSでは、可能性がある一致を解消する役割を担うユーザーまたはデータ・スチュワードによる追加の作業を最低限に抑えることを目指しています。これにより、この製品は、Oracle Customer Hubなどのマスター・データ管理システムのデータ品質保護コンポーネントとして動作することに理想的に適しており、そこでのサービスの目的は、できるだけ多くのレコードをできるだけノイズがない状態で自動的にリンクすることです。同じことが、Siebelなどのカスタマ・リレーションシップ・マネジメント・システムについても当てはまります。


注意:

さらに徹底的な照合を実行するためにEDQ-CDSの構成を変更できます。これは主に、必ずしも(名前フィールド以外に)十分な2次的情報を提供しなくてもよい、少量で高価値のデータ・セットで使用するために設計されています。

3.1.1 複数のロケールと言語

EDQ-CDSは、マルチロケール・システムとして設計されており、国際的でカルチャに依存する名前の転写、文字変換および異形認識技術を使用する他、住所の標準化および照合の際には国際的な辞書を使用します。

このシステムは国際データを使用するように設計されており、そのために名前および住所の標準化の国際的な辞書が用意されています。国際的な'ラテン語スクリプト'辞書では、次の'基本'ロケールなどが網羅されています。

  • 米国およびカナダ

  • イギリス

  • フランス

  • ドイツ

  • イタリア

  • スペイン

  • ポルトガル

  • ブラジル

  • ギリシャ

  • アイルランド

  • オーストリア

  • トルコ

  • 南アフリカ

  • オーストラリアおよびニュージーランド

  • スカンジナビア

  • アルゼンチン

  • メキシコ

これらの基本ロケールに加えて、EDQ-CDSでは、次のロケールからのデータを高度に処理するために、特殊なオプション機能が用意されています。

  • アラブ世界(アラビア語およびアラビア語/ラテン語混合)

  • 日本(漢字、カタカナおよびひらがな)

  • 中国(簡体字中国語および繁体字中国語)

  • ロシア

  • 韓国(ハングル)

一連の使用可能な言語は、EDQ-CDS - 参照データの初期化プロジェクトの構成によって決まるため、同じ参照データをいくつものEDQ-CDS照合サーバーで使用できます。デフォルトでは、基本ロケールの参照データ・セットはEDQサーバー・ランディング領域で事前に初期化されますが、これらのファイルの上にcdslists-initialized-full.zipを解凍する(サポートされているすべてのロケールおよび言語を網羅する場合)か、初期化ジョブを構成して実行すると、簡単に上書きできます。

3.1.2 照合の使用

EDQ-CDSに組み込まれている照合プロセスは、主に次のユースケースを対象に設計されています。

  • 重複防止 - キー生成および照合のWebサービスを使用して重複レコードがアプリケーションに入力されないようにします。

  • 重複削除のための定期的なバッチ照合 - バッチ照合ジョブを使用してアプリケーション内の全部または一部のデータに対して実行し、可能性があるマージのためにレコードをリンクします。

また、バッチ照合プロセスは、システムにロードされる前にレコードの重複を除外するためのテンプレートとして使用することもできます。それには、追加の構成とEDQの使用が必要となる可能性があります。このような状況でのベスト・プラクティスは、EDQ-CDSデータ品質ヘルス・チェックで使用できるようなデータ・プロファイリングおよび監査技術を使用して、照合前にデータを理解することです。ほとんどの場合、一連の使用可能な一致ルールでは、パフォーマンスと効果の間で最適なバランスを実現するために、対象範囲内のデータの詳細についてなんらかのチューニングが必要です。また、EDQの「一致レビュー」アプリケーションを使用して可能性がある一致をレビューし、レコードをまとめてマージするためのルールを作成することが必要になる場合もあります。


注意:

2つの主なユースケースでは、一致が識別された後にコール元アプリケーションによってマージが実行されるため、EDQ-CDSには、すぐに使用できるマージ(または存続)構成が用意されていません。

3.1.2.1 重複防止

EDQ-CDSでは、重複防止にステートレスWebサービスを使用して、大量の顧客データの複雑な複製や同期を回避します。これにより、次の要件がEDQと統合されているアプリケーションに課されます。

  1. レコードのタイプ(連絡先やアカウントなど)ごとのクラスタ・キー表の格納。これらは通常、レコードの主キーとクラスタ・キーの2列しかない表です。この表では、レコードごとに複数のキー値を許容する必要があります。

  2. 候補レコードを選択し、作成して照合サービスに送信する機能。これには、次の操作が含まれます。

    1. 関連レコードについてのクラスタ・キー表への問合せと、キー値を駆動レコードと共有する全レコードの検索。

    2. これらの各レコードについて照合に必要なデータの作成。

    3. 駆動レコードとともにこれらの候補レコードの照合サービスへの送信。

最適な重複防止のプロセス・フロー

重複防止のためにEDQ-CDSの全機能にアクセスするには、統合が次のように機能する必要があります。

  1. リアルタイムの重複防止のためにシステムを準備するために、キー生成プロセスを使用してキー値をバッチ内のレコードごとに生成します。これは、データをアプリケーションに移入する際に発生するか、アプリケーションのクラスタ・キー表にキー値を生成するバッチ・プロセスとして発生します。

  2. アプリケーションでレコードが追加または更新されると、キー生成サービスがリアルタイムでコールされ、レコードについて多数のキー値を戻します。

  3. 次に、アプリケーションは、格納された既存のキーを使用して候補レコード(共通のキーを駆動レコードと共有するレコード)を選択し、駆動レコードとともに照合サービスに送信します。

  4. 照合サービスは、どの候補が駆動レコードに対して可能性が高い一致かを判別し、それらのレコードのIDと一致の強さを示すスコアを戻します。

  5. 次に、アプリケーションは、照合結果の使用方法(たとえば、'自動照合'するのか、レコードの挿入を続行するかどうかあるいは既存のレコードとマージするかどうかを判断できるように可能性がある一致をユーザーに提示するのか)を決定します。

  6. レコードを別のレコードとマージして変更されたマスター・レコードを作成する場合、レコードをコミットする前に正しいキー値を再生成するために、キー生成サービスを追加でコールする必要があります。

このモデルでは、複合マルチロケールEDQ技術を使用してキー値を生成し、パフォーマンスと照合効果の間で適切なバランスが維持されるようにすると同時に、コール元アプリケーションによってデータの整合性とトランザクション・コミットの制御が保持されるようにします。

3.1.2.2 バッチ照合

Siebel CRMを使用する場合、Siebel Data Quality Managerを使用してバッチ・ジョブを実行し、共有ステージング・データベースを使用して照合用のレコードを書き込み、一致結果を使用します。EDQ-CDSバッチ照合プロセスでは、Siebelの'全体照合' (すべてのレコードを互いに照合)モードと'増分照合' (選択したすべての候補に対して一部のレコードを照合)モードに自動的に調整します。

3.1.3 一致のチューニング

EDQ-CDS照合では、使用されるデータにどの識別子が移入されるかについて過度に気遣う必要はありません。EDQ-CDSでは、移入されないデータを不必要に強調するアルゴリズムを使用しないため、この調整を必要としません。

照合は、関連する入力属性(名前、住所、電子メールなどに関連するものなど)での一致を別々に考え、一致を見つけるために様々な方法をそれぞれに対して試行することで機能します。EDQでは、このような論理的に関連する属性に対するグループ化された照合ルールを"複合比較"と呼びます。次に、このような複合比較での一致を組み合せて、2つのレコードが全体的にどの程度一致しているかを判断します。照合の設計は、識別子が現実世界の原則に基づく可能性がどの程度強いかという情報に基づいています。一致のチューニングは通常、次のタスクのいずれかの実行に関わる問題です。

  • 複合比較の重み付けの調整

  • 複合比較の有効化または無効化

  • キー生成の構成の調整

  • 指定されたルールの有効化または無効化

  • 複合比較内の特定ルールのスコア調整

  • 複合比較への新しいルールの挿入(場合によっては、既存ルールの強化または弱化)


注意:

新しいルールの構成を挿入する場合でも、新しい比較を追加するのではなく、既存の比較および比較結果を使用することは十分可能ですが、どちらも可能です。


3.1.4 一致メタデータの出力

一致メタデータの出力には、一致の一因となった複合比較に関する情報とともに、2つのレコードが一致した理由について粒度の細かい詳細が提示されます。次のEDQ一致メタデータが複合比較(名前、住所、電子メール、電話など)ごとに出力されます。

  • [複合比較] 結果(例: N040 名の省略)

  • スコア(100点中)

  • カテゴリ(完全、あいまい、データなし、または競合)

3.2 キー生成の使用

キー生成は、照合の最終段階で実行される作業を最小限に抑えるために使用します。重要なデータ・フィールドにおける類似点に基づいて、レコードを切片(クラスタ)に分割することで機能します。同様の特性を共有する(したがって、同じクラスタに格納される)データのサブセットのみが照合時にレコード単位で比較されます。

疎クラスタを使用すると、各クラスタ内には大量のレコードが存在します。つまり、真の一致を見逃すリスクは減りますが、キーが生成されるレコードをすべて比較するためにより多くの処理が必要となります。より密なキー生成方式ではグループが小さくなるため、処理時間が短縮されますが、真の一致がいくつか検出されない可能性が高くなります。

EDQ-CDSには、キー・データ・フィールドの様々な組合せを構成で使用する個人、エンティティおよび住所の各データについて、多種多様なキー・メソッド・アルゴリズムが同梱されています。各キー・メソッド・アルゴリズムには、識別しやすくするために、また別のキー・メソッドのキーと同一にならないように、一意の接頭辞コードが割り当てられています。

3.2.1 レガシー・クラスタリング

リリース12.2.1より前では、キー生成はクラスタリングと呼ばれ、提供された機能は現在のキー生成よりずっと制限されていましたが、原則は同じです。"クラスタリング"の3つのメソッドのみが提供されましたが、簡単にカスタマイズする余地はありません。

これらの"レガシー"メソッドは、実行プロファイルで次のように設定することで引き続き使用できます。

phase.*.process.*.uselegacykeygen = Y

また、次を使用してレベルを設定する必要があります。

phase.Individual\ Keygen.process.*.clusterlevel = [1/2/3]

3.2.2 キー・メソッドの構造

パーティ・タイプごとに、キー・メソッドはキー・グループおよびキー・タイプに分類されます。

たとえば、個人の'名前と電話'キー・グループには、名前属性と電話属性の組合せを使用して作成されたキー・メソッドがすべて含まれます。このグループ内には、次の2つのキー・タイプがあります。

FNMGNMPNR: 姓metaphone、名metaphoneおよび電話番号の右端の文字に基づいたキー・メソッド

FNMPNL: 姓metaphoneおよび電話番号の左端の文字に基づいたキー・メソッド

各キー・タイプは、1つ以上の実際のキー・メソッドで構成され、それぞれ可変長のmetaphoneまたは左端/右端の文字を使用します。

たとえば、FNMPNLキー・タイプには、次のキー・メソッドが含まれます。

FNM4PNL6: 姓metaphoneの最初の4文字、電話番号の最後の6文字

FNM4PNL7: 姓metaphoneの最初の4文字、電話番号の最後の7文字

FNM4PNL8: 姓metaphoneの最初の4文字、電話番号の最後の8文字

これらは、使用される電話番号の部分文字列の長さが長くなり、その結果より密なキーを提供するので、それぞれ'厳密'、'標準'および'緩やか'と分類されます。

これらのうち最後のメソッドを使用して生成されたキー値は、次の形式をとります。

FNM4PNL8^MN^65065421

自動または'エンコードされた'キー・プロファイルは、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。

AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14

キー優先度は、特定のプロファイル内の相対的なものにすぎず、本質的な意味はありません。

3.2.2.1 カスタム属性のキー

カスタム属性のキーは、キー生成の際に必要に応じて作成できます(デフォルトでは、カスタム属性に対してキーは生成されません)。

これは、次のように実行プロファイルで指定します。

phase.*.process.*.customstringNkey = Y

phase.*.process.*.customdateNkey = Y

また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request customstringNkey="Y" customdateNkey="Y">

使用される実際のキー作成メソッドは、指定するキー・プロファイルによって決まります。

  • Strictプロファイルは、完全文字列に基づいてカスタム文字列のキーを、完全日付に基づいてカスタム日付のキーを作成します。

  • Looseプロファイルは、文字列のmetaphoneに基づいてカスタム文字列のキーを、年のみに基づいてカスタム日付のキーを作成します。

  • Typicalプロファイルは、文字列の最初の10文字に基づいてカスタム文字列のキーを、年および月に基づいてカスタム日付のキーを作成します。

カスタム属性は、レガシー・クラスタ・レベルを使用した場合、無視されます。

3.2.3 キー・メソッド分析

キー・メソッド分析により、顧客のデータを自動的に分析し、その特定のデータ・セットに対する最適なキー・プロファイルを決定する機能がCDS内に導入されます。キー分析は、次の主な手順で構成されます。

  1. 使用可能なキー・メソッドをすべて使用してデータのキー値を生成します。

  2. 高頻度のキー値やキー値の分布/多様性など、各種統計的メカニズムを使用して、それらのキー値のプロファイル、スコアおよびランクを作成します。

  3. 各キー・グループ内で最適なキー・メソッドを選択することで、推奨されるキー・プロファイルを作成して出力します。

カスタム属性は、キー生成に対して有効になっている場合、キー分析時に考慮されます(「カスタム属性のキー」を参照)。

既存の固定属性と同様に、使用可能なカスタム属性のキー・メソッドはすべて分析されます。

3.2.3.1 バッチ・キー分析の実行

ジョブの実行前に作成する必要がある、キー分析用の新しいステージング表がいくつかあります。これらの表を作成するSQLコマンドが既存のデフォルト・スクリプトedq_staging_tables.sqlに追加されています。このスクリプトは、EDQに同梱されていおり、<middleware_home>/edq/oracle.edq/scripts/cds下にインストールされます。

キー分析を実行するためのバッチ・ジョブは、次のとおりです。

  • バッチ個人キー分析

  • バッチ・エンティティ・キー分析

  • バッチ住所キー分析

これらのジョブは、キー生成および照合用の既存のバッチ・ジョブと同様の構造をしており、パーティ・データをステージング・スキーマ内の関連する候補表で受信し、その結果を同じスキーマ内の表に出力することを想定しています。

キー分析の仕組みの統計的性質のため、分析する顧客データ一式を常に受信する必要があります。ジョブは実際にはデータのサンプルで実行されますが、結果はそのサンプルにのみ適用され、完全なデータセットまで拡大できません。

次の実行プロファイル・パラメータは、キー分析が正常に実行されるようにYに設定する必要があります。

phase.Key\ Analysis.process.*.generateallkeys = Y

実行プロファイルには、SERVERIDパラメータとJOBIDパラメータを既存のステージング表に同様の方法で公開するために、キー分析用に様々な新しいSQL文が含まれていることにも注意してください。したがって、これらのパラメータも実行プロファイルにインラインで、他の表パラメータに対する変更とともに更新する必要があります。

3.2.3.2 キー・メソッド分析の出力

キー分析の出力により、次のステージング表が作成されます。

3.2.3.2.1 EDQCDS_KEY_ANALYSIS_PROFILE

この表にはジョブごとに1行あり、その行には推奨されるキー・プロファイルのみが含まれ、次のような、キー・メソッドおよび関連付けられたキー優先度のパイプ区切りのリストで構成されます。

AD112FNL5GNL5^10|GNW1FNL0^11|AD17AD25CTL10^12|FNM4PNL8^13|PNR6^14

これは、ユーザーが推奨を受け入れることにした場合、キー生成および照合に使用されるプロファイルです。


注意:

キー分析では、実際には推奨されたプロファイルのキー値が出力されません。これは、関連するバッチ・キー生成ジョブを実行し、それに応じて推奨されたプロファイルを渡して、個別に実行する必要があります。

3.2.3.2.2 EDQCDS_KEY_ANALYSIS_REPORT

この表には、分析されたキー・メソッドごとに1行が含まれ、プロファイルに対して選択されたかどうかと、その場合には割り当てられた優先度とともに各メソッドの統計およびスコアの詳細が示されます。生成されたキー・メソッド(つまり、パーティ・データに関連する空白以外の属性が含まれるキー・メソッド)のみが示されます。

このレポートは、主にサポートおよび診断目的で提供されています。

3.2.3.2.3 EDQCDS_KEY_ANALYSIS_TOP_VALUES

この表には、分析されたキー・メソッドごとの件数による上位20個のキー値が含まれます。生成されたキー・メソッド(つまり、パーティ・データに関連する空白以外の属性が含まれるキー・メソッド)のみが示されます。

このレポートは、ユーザーがデータに関する潜在的なDQ問題を識別するのに役立ちます。つまり、非常に大量のキー値は、スパイクや汎用データ値(電話番号'000000'や電子メール・アドレス'sales@'など)を示す可能性があります。

3.2.4 個人のキー・タイプ

個人データの照合用のキー・メソッドは、次のキー・タイプに基づいています。

表3-1 住所のみ

キー・タイプ 説明

AD1AD2CTL

精製されたaddress1 (空白なし、左端の文字)、精製されたaddress2 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

ADACTLPRE

標準化されたadminarea (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字)


表3-2 名前と企業

キー・タイプ 説明

ANLGNLFNL

accountname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

ANWFNMGNL

accountname (左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字)

ANWFNM

accountname (左端の文字)、familyname (Double metaphone、左端の文字)、

ANMGNLFNL

accountname (最初の単語、Double metaphone、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)


表3-3 名前とDOB

キー・タイプ 説明

DBYGNLFNL

標準化されたDOB (年)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

DBXGNLFNL

標準化されたDOB (完全日付)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)

DBNGNLFNL

標準化されたDOB (年と月)、標準化されたgivenname (空白なし、左端の文字)、familyname (空白なし、左端の文字)


表3-4 名前のみ

キー・タイプ 説明

FMP

標準化されたfullname (トークンの配列、metaphoneのペア、左端の文字)

GNWFNL

標準化されたgivenname (左端の単語)、正規化されたfamilyname (空白なし、左端の文字)


表3-5 名前と電話

キー・タイプ 説明

FNMGNMPNR

familyname (Double metaphone、左端の文字)、標準化されたgivenname (最初の単語、Double metaphone、左端の文字)、標準化されたphonenumbers (右端の文字(配列))

FNMPNL

familyname (Double metaphone、左端の文字)、標準化されたphonenumbers (左端の文字(配列))


表3-6 フルネームと住所

キー・タイプ 説明

AD1FNLGNL

精製されたaddress1 (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)

FNLGNLPCL

familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

CTLFNLGNL

標準化されたcity (空白なし、左端の文字)、familyname (空白なし、左端の文字)、標準化されたgivenname (空白なし、左端の文字)


表3-7 自宅住所

キー・タイプ 説明

AD1FNMPCL

精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

AD1FNMCTL

精製されたaddress1 (空白なし、左端の文字)、familyname (Double metaphone、左端の文字)、標準化されたcity (空白なし、左端の文字)


表3-8 国民ID

キー・タイプ 説明

NIL

標準化されたnationalidnumber (左端の文字(配列))

NIP

標準化されたnationalidnumber (左端と右端の文字のペア(配列))


表3-9 電話

キー・タイプ 説明

PNR

標準化されたphonenumbers (右端の文字(配列))


表3-10 スクリプト名

キー・タイプ 説明

OSLPCL

scriptfullname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)


表3-11 税番号

キー・タイプ 説明

TNL

標準化されたtaxnumber (左端の文字(配列))

TNP

標準化されたtaxnumber (左端と右端の文字のペア(配列))


表3-12 UID

キー・タイプ 説明

UID(1/2/3)

標準化されたuid[1, 2, 3] (左端の文字(配列))


表3-13 カスタム文字列

キー・タイプ 説明

CM[1-6]

標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし))

CL[1-6]

標準化されたcustomstring[1-6] (空白なし、左端の文字)


表3-14 カスタム日付

キー・タイプ 説明

CY[1-6]

標準化されたcustomdate[1-6] (年)

CX[1-6]

標準化されたcustomdate[1-6] (完全日付)

CN[1-6]

標準化されたcustomdate[1-6] (年と月)



注意:

キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでおり、空白が削除されているデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。

3.2.4.1

次のレコード・データを使用して、個人キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性
firstname Jim
middlename Frederick
lastname Smith
mobilephone 077777 123456
email jsmith@mymail.com
taxnumber 888666444
accountname Acme Ltd
address1 14 high St
city Cambridge
postalcode CB1 2AB
uid1 00021-53563
eid1 gbr0008873323
nationalidnumber AB 12 34 56 C

Typicalキー・プロファイルを使用して生成されるキー値は次のとおりです。

キー・タイプ キー・メソッド 優先度 クラスタ値
UI1 UI10 1 UI10^0002153563
AD1FNLGNL AD110FNL3GNL3 42 AD110FNL3GNL3^14HIGH^SMI^JAM
AD1FNMPCL AD12FNM3PCL5 55 AD12FNM3PCL5^14^SM0^CB12A
AD1AD2CTL AD17AD25CTL5 59 AD17AD25CTL5^14HIGH^^CAMBR
ANWFNM ANW1FNM4 54 ANW1FNM4^ACME^SM0
CTLFNLGNL CTL10FNL3GNL3 51 CTL10FNL3GNL3^CAMBRIDGE^SMI^JAM
ENP ENP15 40 ENP15^JSMITHMYMAILCOM
FNLGNLPCL FNL3GNL1PCL5 44 FNL3GNL1PCL5^SMI^J^CB12A
FNMPNL FNM4PNL7 46 FNM4PNL7^SM0^0777771
NIL NIL10 36 NIL10^AB123456C
PNR PNR6 47 PNR6^123456
TNL TNL1 37 TNL10^888666444

3.2.5 エンティティのキー・タイプ

エンティティ・データの照合用に、次のキー・タイプが用意されています。

表3-15 名前と住所

キー・タイプ 説明

AD1EMTPCL

精製されたaddress1 (空白なし、左端の文字)、精製されたentityname (トークンの配列、Double metaphone、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

ENLPCL

精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)

FANENLCTL

精製されたfulladdress (空白なし、数字なし、ノイズ削除済、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

AD1ENLPCL

精製されたaddress1 (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)


表3-16 名前Metaphoneと住所

キー・タイプ 説明

CTLFALNSM

標準化されたcity (空白なし、左端の文字)、精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)

FALNSM

精製されたfulladdress (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)

CTLNSM

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたfullname (Double metaphone、左端の文字)


表3-17 名前のみ

キー・タイプ 説明

NSL

精製されたfullname (空白なし、左端の文字)

ENMSNM

精製されたentityname (Double metaphone、左端の文字)、精製されたentitysubname (Double metaphone、左端の文字)

FMT

精製されたfullname (トークンの配列、Double metaphone、左端の文字)


表3-18 名前と市区と電話

キー・タイプ 説明

CTLENLPNR

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (右端の文字(配列))

CTLENLPNL

標準化されたcity (空白なし、左端の文字)、精製された/正規化されたentityname (空白なし、左端の文字)、標準化されたphonenumbers (左端の文字(配列))


表3-19 電話

キー・タイプ 説明

PNR

標準化されたphonenumbers (右端の文字(配列))


表3-20 Webサイト

キー・タイプ 説明

WSL

websitestem (左端の文字(配列))


表3-21 スクリプト名

キー・タイプ 説明

OSL

script fullname (トークンの配列、左端の文字)


表3-22 VAT番号

キー・タイプ 説明

VNL

標準化されたvatnumber (左端の文字(配列))

VNP

標準化されたvatnumber (左端と右端の文字のペア(配列))


表3-23 税番号

キー・タイプ 説明

TNL

標準化されたtaxnumber (左端の文字(配列))

TNP

標準化されたtaxnumber (左端と右端の文字のペア(配列))


表3-24 UID

キー・タイプ 説明

UID[1,2,3]

標準化されたuid[1, 2, 3] (左端の文字(配列))


表3-25 カスタム文字列

キー・タイプ 説明

CM[1-6]

標準化されたcustomstring[1-6] (Double metaphone、左端の文字、空白の場合は左端8文字(metaphoneなし))

CL[1-6]

標準化されたcustomstring[1-6] (空白なし、左端の文字)


表3-26 カスタム日付

キー・タイプ 説明

CY[1-6]

標準化されたcustomdate[1-6] (年)

CX[1-6]

標準化されたcustomdate[1-6] (完全日付)

CN[1-6]

標準化されたcustomdate[1-6] (年と月)



注意:

キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。

3.2.5.1

次のレコード・データを使用して、エンティティ・キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性
name Oracle UK
subname Cambridge
phone +441223228400
website http://www.oracle.com/uk
taxnumber RGW432D243224
vatnumber 999111
address1 296 Cambridge Science Park
city Cambridge
postalcode CB4 0WD
uid1 00021-53563
eid1 gbr0008873323

次のキー値は、Typicalキー・プロファイルを使用して生成されます。

キー・タイプ キー・メソッド 優先度 キー値
AD1PCL AD13PCL4 43 AD13PCL4^296^CB40
AD1EMTPCL AD14EMT4PCL3 41 AD14EMT4PCL3^296C^ARKL^CB4
CTLNSM CTL0NSM6 49 CTL0NSM6^CAMBRIDGE^ARKLKM
CTLENLPNL CTL1ENL1PNL7 47 CTL1ENL1PNL7^C^O^4412232
ENLPCL ENL4PCL3 42 ENL4PCL3^ORAC^CB4
FALNSM FAL10NSM4 39 FAL10NSM4^296CAMBRID^ARKL

NSL25^ORACLECAMBRIDGE

NSL NSL25 40 NSL25^ORACLECAMBRIDGE
PNR PNR6 58 PNR6^228400
TNL TNL10 35 TNL10^RGW432D243
UI1 UI10 1 UI10^0002153563
VNL VNL10 36 VNL10^999111
WSL WSL8 57 WSL8^ORACLE

3.2.6 住所のキー・タイプ

住所データの照合用に、次のキー・メソッド・タイプが用意されています。

表3-27 住所行

キー・タイプ 説明

AD1AD2

精製されたaddress 1 (空白なし、左端の文字)、精製されたaddress 2 (空白なし、左端の文字)


表3-28 住所と市区

キー・タイプ 説明

AD1CTL

精製されたaddress 1 (空白なし、左端の文字)、標準化されたcity (空白なし、左端の文字)

CTLPCLPRE

標準化されたcity (空白なし、左端の文字)、標準化されたpostalcode (空白なし、左端の文字)、導出されたpremise (ノイズ削除、空白なし、左端の文字)

PMSPCC

導出されたpremise/精製されたaddress 1 (導出されたpremiseの最初の数字語/ premiseの左端の文字/精製されたaddress1の最初の数字語/精製されたaddress1の左端の文字)、標準化されたpostalcode/標準化されたcity (標準化されたpostalcodeの左端の文字/標準化されたcityの左端の文字)


表3-29 完全住所

キー・タイプ 説明

FAL

精製されたfulladdress (空白なし、左端の文字)

FAN

精製されたfulladdress (空白なし、数字なし、ノイズ削除、左端の文字)


表3-30 郵便番号

キー・タイプ 説明

PCL

標準化されたpostalcode (空白なし、左端の文字)



注意:

  • 数字語とは、1つ以上の数字が含まれる単語です。たとえば、234および2Aはいずれも数字語です。

  • キー・メソッド・アルゴリズムでは、正規化(大文字への変換や記号の削除など)が済んでいるデータ属性を使用します。これにより、キーの生成および照合を大/小文字を区別しない方式で実行したり、属性内のスペースを許容できます。


3.2.6.1

次のレコード・データを使用して、住所キー・メソッド・アルゴリズムによって生成されるキー値の例を示します。

属性
address1 2529 CINCINNATI ST
address2 APT 6
city LOS ANGELES
adminarea CA
postalcode 90033


注意:

キーの生成時、STaddress1フィールドから精製され、APTaddress2フィールドから精製されます。これは、これらのフィールドが住所行の残りの行よりも重要ではない識別子である共通の住所指定コンポーネントであり、削除するとより正確なクラスタになるためです。

Typical住所キー・プロファイルを使用して生成されるキー値は次のとおりです。

キー・タイプ キー・メソッド 優先度 キー値
AD1AD2 AD110AD210 12 AD110AD210^2529CINCIN^6
AD1CTL AD15CTL8 9 AD15CTL8^2529C^LOSANGEL
CTLPCLPRE CTL8PCL5PRE0 10 CTL8PCL5PRE0^LOSANGEL^90033^2529
FAL FAL10 11 FAL10^2529CINCIN
FAN FAN10 13 FAN10^CINCINNATI
PCL PCL0 15 PCL0^90033
PMSPCC PMS6PCC5 8 PMS6PCC5^2529^90033

3.3 個人照合の使用

CDSにおける個人用の照合の設計は、いくつかの論理識別子(複合比較)間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。

  • 名前

  • 住所

  • アカウント名

  • DOB

  • 電話番号

  • Email

  • 国民ID番号

  • 税番号

カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトでは有効になっていません)。

EDQ-CDSでは、事前構成済の一致ルールを複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。

2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、生年月日が競合する2つのレコードは、名前および住所が完全に一致するのに生年月日がない2つのレコードよりもスコアが低くなります。

論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子に関連する複合比較での一致がある2つのレコードが同じものである可能性がどの程度かを定義します。

3.3.1 個人の名前論理識別子での照合

個人名複合比較での照合用のルールには、同じ個人名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 異なる表記法/スクリプトで書き込まれた名前(例: 'Зоран'と'Zoran')。

  • 同じ名前の異形(例: 'Bill'と'William')。

  • 様々なレベルの名前の完全性(例: 'Joseph Andrew Harris'と'Joseph Harris')。

  • 異なる順序の名前トークン(例: 'Lacazette Jacques'と'Jacques Lacazette')。

  • 名前の省略形式(例: 'Chris'と'Christian')。

  • 印刷上の相違(例: 'Michael'および'Micheal')。

  • 頭文字の使用(例: 'A M'と'Alexander Martin')。

  • 婚姻による姓の変更(例: 同じ住所の'Paula Jones'と'Paula Lewis')。

  • 前述の差異の様々な組合せ。


注意:

この表では、名および姓の入力属性間のセパレータを示すためにパイプ文字を使用します(例: 名 = Martin、姓 = Smithは'Martin|Smith'と表記します)。パイプ文字が使用されていない場合は、フルネームが一致ルールで使用されていることを意味します。


注意(補足):

このリストの先頭付近には、競合の名前ルールがいくつか示されており、これらのルールは明らかに異なる性別である2つの名前間の一致にマイナスの重み付けをして、このような一致を回避するように設計されています。

名前の照合ルール サンプルの名前一致 データ型
スクリプト・フルネームの完全一致 外国語のアルファベットを使用したサンプルの名前および住所。
完全
名前の完全一致 Martin|Fox = Martin|Fox 完全
標準化された名 Bill|Lewis = William|Lewis 完全
名の省略 Chris|Smith = Christina|Smith あいまい
名前の競合、指定された性別が異なる Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け) 競合
名前の競合、導出された性別が異なる Paula|Smith - Paul Smith (このような一致を除去するためにマイナスの重み付け) 競合
標準化された名の省略 Abell|Hernandez = Abelson|Hernandez あいまい
スクリプト・フルネームの順不同 外国語のアルファベットを使用したサンプル入力。
あいまい
似たような名 Yngrid|Martin = Ingrid|Martin あいまい
似たような姓 Yngrid Elisabeth|Martin = Ingrid Martin あいまい
追加された名 Michael John|Smith = John|Smith あいまい
標準化されたフルネーム Mehmood Mahomed = Mahmoud Mohammed あいまい
スクリプト・フルネームに追加された名前がある 外国語のアルファベットからの文字を使用した入力。
あいまい
追加された名前 Mary Jones Steward = Mary Jones あいまい
スクリプト・フルネームの誤植 外国語のアルファベットからの文字を使用した入力。 あいまい
標準化された名の省略、姓の誤植 Abell|Hernandez = Abelson|Hernandes あいまい
フルネームの誤植、全単語 Mary Cloire Jonez = Mary Claire Jones あいまい
名の最初の3文字、姓の誤植 Ros Susan|Jonez = Rose Susan|Jones あいまい
順序どおりのフルネームの頭文字、追加された名前 G A|Smith = Gordon Alfred|Smith あいまい
標準化された姓のみ、女性 Jacklin|Jones = Jacqueline|Smith あいまい

3.3.2 他の論理識別子での照合

住所

個人名照合における住所複合比較での照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 建物およびサブ建物の抽出

  • STREET、ROADなど、よく使用される単語の標準化

  • STREET、ROADなど、よく使用される単語の削除

  • 印刷上の相違


注意:

この表では、address1、address2、address3、city、adminarea、postalcodeの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode=CB4 0WDは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WDと表します。

表3-31 他の論理識別子での照合

住所のルール名 データ型

住所の完全一致

296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

完全

建物、サブ建物、住所の類似、郵便番号

Flat 1|296 Cambridge Science Park||Cambridge||CB4 0WD = Flat 1|296 Cambridge Sci Park||Cambridge||CB4 0WD

あいまい

建物、サブ建物なし、住所の類似、郵便番号

296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD = 296 Cambridge Sci Park|Milton Road||Cambridge||CB4 0WD

あいまい

精製された住所1および住所2の完全一致、郵便番号の先頭から一致

296 Milton Road|||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD

あいまい

精製された住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致

296 Milton Road|Science Park||Cambridge||CB4 0WD = 296 Milton Road|||||CB4 0WD

あいまい

建物、サブ建物、郵便番号の先頭から一致

Flat 1|352 Milton Road||Cambridge||CB4 0WD = 352 Milton Road|Flat 1||||CB4 0WD

あいまい

建物、サブ建物なし、郵便番号の先頭から一致

296 Cambridge Science Park|||Cambridge||CB4 0Wd = 296 The Science Park|||||CB4 0WD

あいまい

精製された住所1の完全一致、郵便番号の先頭から一致

296 Cambridge Science Park|Flat 1||Cambridge||CB4 0WD = 296 Cambridge Science Park|Flat 6||Cambridge||CB4 0WD

あいまい

住所(全単語)

296 Science Park|Milton Road||Cambridge||CB4 0WD = Science Park|Milton Road||||CB4 0WD

あいまい

住所(全単語)の誤植

296 Science Park|Milton Road||Cambridge||CB4 0WD = Sciense Park|Milton Road||||CB4 0WD

あいまい

住所の類似、郵便番号

296 Science Pk|Milton Rd||Cambridge||CB4 0WD = Sceince Park|Milton Road||Cmbridge||CB4 0WD

あいまい

住所の類似、住所1の最初の単語

297 Cambridge Science Park||Milton Road|||CB30WS = 296 Cambridge Science Park|Milton Road||||CB4 0WD

あいまい

郵便番号

296 Science Park|||||CB4 0WD = |Milton Road||||CB4 0WD

あいまい

郵便番号の先頭から一致

296 Science Park|||||CB4 0WD = |||||CB4

あいまい

市区の完全一致

352 Mill Road|||Cambridge||CB1 3NN = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

あいまい

住所のデータなし

||||| = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

データなし

住所の競合

19 Teme Ave|||Malvern|Worcs|WR14 2XA = 296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD

競合


アカウント名

アカウント名での照合では、次のような一致が許容されます。

  • 完全一致

  • 印刷上の相違

  • 全単語が共通

表3-32 アカウント名

アカウント名のルール データ型

アカウント名の完全一致

Widgets and Gadgets Ltd = Widgets and Gadgets Ltd

完全

アカウント名の誤植

Widgets and Gadgets Ltd = Widgets and Gagets Ltd

あいまい

アカウント名(全単語)

Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshafts Ltd

あいまい

アカウント名(全単語)の順不同

Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshafts Ltd

あいまい

アカウント名(全単語)の誤植

Federal Mogul Camshafts Castings Ltd = Federal Mogul Camshfts Ltd

あいまい

アカウント名(全単語)の順不同、誤植

Federal Mogul Camshafts Castings Ltd = Federal Mogul Castings Camshfts Ltd

あいまい

アカウント名のデータなし

Oracle Ltd =

データなし

アカウント名の競合

Federal Mogul Camshafts Castings Ltd = Wigets and Gadgets Ltd

競合


電話番号

表3-33 電話番号

電話の照合ルール データ型

電話の完全一致

01223456678 = 01223456678

完全

電話の最後のN文字

+44223456678 = 01223456678

あいまい

電話のデータなし

01223456678 =

データなし

電話の競合

01223456678=01684345678

競合


Email

電子メールの照合では、次のような一致が許容されます。

  • 完全一致

  • ユーザー名のみ完全一致

  • 誤植

表3-34 電子メール

電子メールの一致ルール データ型

電子メールの完全一致

someonesname@company.com = someonesname@company.com

完全

電子メール・ユーザーの完全一致

someonesname@company.com = someonesname@adomain.com

あいまい

電子メールの誤植

someonesname@companion.com = someonesname@company.com

あいまい

電子メールのデータなし

someonesname@company.com =

データなし

電子メールの競合

someonesname@company.com = aperson@adomain.com

競合


生年月日

生年月日の照合では、次のような一致が許容されます。

  • 完全一致

  • 日/月の転置の一致

生年月日の一致ルールには、日付が大きくことなるほど深刻なペナルティを科される競合ルールもあります。

表3-35 生年月日

生年月日の一致ルール データ型

日付の完全一致

11/01/1976 = 11/01/1976

完全

日付の類似

01/11/1976 = 11/01/1976

あいまい

日付のデータなし

11/01/1976 =

データなし

日付の大きすぎる差異

11/12/2001 = 11/01/1976

競合

日付の競合

11/01/1976 = 20/01/1976

競合


国民ID番号

表3-36 国民ID番号

国民ID番号のルール データ型

国民ID番号の完全一致

ABC112345 = ABC112345

完全

国民ID番号の誤植

ABC12345 = ABC112345

あいまい

国民ID番号のデータなし

ABC12345 =

データなし

国民ID番号の競合

ABD2535 = BCD2145

競合


税番号

表3-37 税番号

税番号のルール データ型

税番号の完全一致

ABC112345 = ABC112345

完全

税番号の誤植

ABC12345 = ABC112345

あいまい

税番号のデータなし

ABC12345 =

データなし

税番号の競合

ABD2535 = BCD2145

競合


個人照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。

次に例を示します。表3-38のレコードを比較しました。表3-39に結果を示します。

表3-38 レコードの比較

レコード1
レコード2

Firstname

John

Firstname

J

Lastname

Smith

Lastname

Smith

Phonenumber

01223456789

Phonenumber

+44223456789

address1

35 Mill Road

address1

35 Mill Road

city

Cambridge

city

Cambridge

postalcode

CB1 2JJ

postalcode

CB1 2JJ


表3-39 比較の結果

結果

matchscore

95

rulename

N040 名の省略, A010 住所の完全一致, C070 アカウント名のデータなし, D030 生年月日のデータなし, P020 電話の最後のN文字, E040 電子メールのデータなし, I030 国民ID番号のデータなし, T030 税番号のデータなし

ruleattributes

NAME,ADDRESS,PHONE

comparisonresults

名前あいまい,住所完全,電話あいまい

namescore

95

nameresult

N040 名の省略

namecategory

あいまい

addressscore

100

addressresult

A010 住所の完全一致

phoneresult

P020 電話の最後のN文字

phonescore

90

phonecategory

Fuzzyfamilyname

*データがない結果は、簡潔するために省略されています。



注意:

フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。

comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。

ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。

前述の論理識別子に加えて、照合にカスタム・フィールドを使用するように個人照合を構成できます。カスタム・フィールドはデフォルトでは、照合またはクラスタリングに対して有効になっていません(詳細は第3.6項「カスタマ追加属性による照合の使用」を参照)。

一意のカスタム識別子を使用して個人レコードの照合または除去を実行することもできます(第3.5項「ID照合の使用」を参照)。

3.4 エンティティ照合の使用

個人と同様、CDSにおけるエンティティ用の照合の設計は、複合比較を使用したいくつかの論理識別子間の一致の組合せに基づいています。これらの複合比較は、次のとおりです。

  • エンティティ名

  • 住所

  • 電話番号

  • Webサイト・アドレス

  • 税番号

  • VAT番号

カスタム・フィールドの照合を有効にすることもできます(ただし、デフォルトではそれらの照合は有効になっていません)。

EDQ-CDSでは、事前構成済のルールを論理識別子に関連する複合比較に使用して、2つのレコードがその特定の論理識別子でどの程度一致しているか(または一致していないか)を確認します。

2つのレコードが全体的に一致するかどうかを判別するために、EDQ-CDSでは、論理識別子での照合に結果を使用し、それらを組み合せて、レコードの一致度を示す総合的なスコアを生成します。競合がスコアにマイナスの影響を及ぼすだけでなく、一致がスコアを高めることにも注意してください。たとえば、名前および住所が完全に一致するのに、Webアドレスが競合する2つのレコードは、名前および住所が完全に一致するのにWebアドレスがない2つのレコードよりもスコアが低くなります。

論理識別子にはそれぞれ、デフォルトの重み付けがあり、その論理識別子での一致がある2つのレコードが同じ個人である可能性がどの程度かを定義します。


注意:

異なる表記法間でエンティティを照合することは(個人とは対照的に)かなり難しく、これは、文字変換プロセス(および転写でさえ)が成功する可能性がずっと低いためです。非常に多くの場合、2つの異なる言語で書き込まれたときに企業が同じであることを認識する唯一の方法は、あらゆる可能性がある企業名と適切な翻訳(文字変換や転写ではなく)の大規模な辞書を保持することです。ほとんどの場合、このようなデータは簡単に使用できませんが、使用可能な場合は、結果を向上させるためにEDQ-CDSにプラグインできます。

3.4.1 エンティティ名照合

エンティティ名の照合用のルールには、同じエンティティ名である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 異なる表記法で書き込まれたエンティティ名。

  • 接尾辞あり/なしのエンティティ名(例: 'Oracle LTD'と'Oracle')。

  • 省略された用語または接尾辞を含むエンティティ名(例: 'Oracle Limited'と'Oracle LTD')。

  • エンティティ名での文字順およびスペルの相違/間違い(例: 'Oracle'と'Oralce')。

  • 名前の完全性が様々なレベルのエンティティ名(例: 'ABC Technology Consultants LTD'と'ABC Technology LTD')。

  • 異なる順序で出現するエンティティ名トークン(例: 'Cambridge Science Park LTD'と'Science Park Cambridge')。

  • 名前の一部または全部が頭字語になっているエンティティ名(例: 'Oracle Catering'と'O.C.')。


注意:

次の表では、名前の照合ルールで'フルネーム'を使用していますが、これは、エンティティのフルネーム識別子(エンティティ名属性とサブ名属性の連結)に適用されることを意味します。パイプ(|)文字は、サンプルの一致を示すのにサブ名属性が必要となる場合にエンティティ名とサブ名を区切るために使用します。

エンティティ名の照合ルール サンプルのエンティティ名一致 データ型
スクリプト・フルネームの完全一致 外国語のアルファベットからの文字を使用した入力。

フルネームの完全一致 TCHIBO GMBH = TCHIBO GMBH
標準化されたフルネームの完全一致 ORACLE UK LTD | READING = ORACLE UK LIMITED | READING あいまい
接尾辞なしのスクリプト・フルネームの完全一致 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのフルネームの完全一致 ORACLE = ORACLE CORPORATION あいまい
接尾辞なしの似たようなフルネーム ORACLE CAMBRIDGE SCIENCE PARK = ORACLE CAMBRIDGE PARK SCIENCE あいまい
スクリプト・フルネームの順不同 外国語のアルファベットからの文字を使用した入力。 あいまい
接尾辞なしのスクリプト・フルネーム(全単語)の順不同 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのフルネーム(全単語)の順不同 CAMBRIDGE SCIENCE PARK LTD = SCIENCE PARK CAMBRIDGE あいまい
スクリプト・フルネームに追加された名前がある 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのスクリプト・エンティティ名の完全一致 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのエンティティ名の完全一致 ORACLE CORPORATION | CAMBRIDGE = ORACLE | READING あいまい
フルネーム(全単語)の誤植による短縮 Oracle Inc | Cambridge =Oracl | Cambridge あいまい
接尾辞なしのスクリプト・エンティティ名の先頭から一致 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのエンティティ名の先頭から一致 ABC TECHNOLOGY CONSULTANTS LTD = ABC TECHNOLOGY LTD あいまい
接尾辞なしのスクリプト・フルネーム(全単語)の誤植による短縮 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのフルネーム(全単語)の誤植による短縮 Federal Mogull | Camshafts Inc = Federal Mogul Camshafts Castings Ltd あいまい
スクリプト・フルネームの誤植 外国語のアルファベットからの文字を使用した入力。
あいまい
フルネームの誤植 ABD SERVICES LTD = ABC SERVICES LTD あいまい
接尾辞なしのスクリプト・フルネームの誤植 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのフルネームの誤植 ABD ENGINEERING LTD = ABC ENGINEERING あいまい
接尾辞なしのスクリプト・エンティティ名の先頭から一致 外国語のアルファベットからの文字を使用した入力。
あいまい
接尾辞なしのエンティティ名の先頭から一致 ABC LIMITED | CAMBRIDGE = ABC PHARMACEUTICALS LIMITED | READING あいまい
標準化されたフルネーム(頭字語)の完全一致 CSC= Computer Science Corporation あいまい
精製されたエンティティ名(最長共通部分文字列12文字以上) Colebrook & Burgess (North Shields) Ltd. = Colebrook & Burgess (Teesside) Ltd. あいまい
接尾辞なしのフルネーム(頭字語)の完全一致 CSC = Computer Science Collaborations Ltd あいまい
接尾辞なしのフルネーム(頭字語を含む) Oracle CK = Oracle Collaborative Koopers あいまい
接尾辞なしのエンティティ名の軽い誤植 Oracle Collaborative Coopers = Orracl Colabarativ Kupers あいまい
接尾辞なしのエンティティ名(最初のトークン) DANVERS BANCORP INC = DANVERS MUNICIPAL FEDERAL CREDIT UNION あいまい
精製されたエンティティ名(最初の3文字)の完全一致、最長共通部分文字列6文字以上 Lincoln Co-Operative Chemists Ltd. = Lincolnshire Co-Operative Ltd. あいまい
精製されたエンティティ名(1文字以上のトークン)の完全一致 Burgess Video Ltd. = Sue Burgess Ltd. あいまい
エンティティ名のデータなし Oracle Corporation = データなし
エンティティ名の競合 Oracle Corporation = Sue Burgess Ltd. 競合

3.4.2 エンティティ用のその他の論理識別子での照合

住所

エンティティ名照合における住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 建物およびサブ建物の抽出

  • STREET、ROADなど、よく使用される単語の標準化

  • STREET、ROADなど、よく使用される単語の削除

  • 印刷上の相違


注意:

この表では、address1、address2、address3、city、adminarea、postalcode、countryの入力間のセパレータを示すためにパイプ文字を使用します。たとえば、address1 = 296 Cambridge Science Park、address2 = Milton Road、address3 = <空白>、city = Cambridge、adminarea = <空白>、postalcode =CB4 0WD、country = United Kingdomは、296 Cambridge Science Park|Milton Road||Cambridge||CB4 0WD|United Kingdomと表します

表3-40 住所照合

住所の照合ルール データ型

住所の完全一致

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

完全

サブ建物、建物、郵便番号の先頭から一致、住所の類似

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom

あいまい

建物、サブ建物なし、郵便番号の先頭から一致、住所の類似

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4|United Kingdom

あいまい

サブ建物、建物、郵便番号の先頭から一致

Flat 1|352 Milton Road||Cambridge||CB4 0WD| = 352 Milton Road|Flat 1||||CB4 0WD|

あいまい

建物、サブ建物なし、郵便番号の先頭から一致

296 Milton Road|Science Park||Cambridge||CB4 0WD| = 296 Milton Road|||||CB4 0WD|

あいまい

住所(全単語)

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Milton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所(全単語)の誤植

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Millton Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所1の誤植、市区、国の完全一致またはデータなし

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Mil||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

住所の類似、郵便番号

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Science|Milton||Cam|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

郵便番号

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire|CB4 1AB|United Kingdom

あいまい

市区と国

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire||United Kingdom

あいまい

市区

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = |Arbury Road||Cambridge|Cambridgeshire||

あいまい

住所の類似、住所1の最初の単語

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Milton Road|Cambridge|Cambridgeshire||United Kingdom|

あいまい

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic Science Park|Arbury Road|Cambridge|Cambridgeshire|||United Kingdom

あいまい

住所のデータなし

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = ||||||

データなし

住所の競合

Flat 1, 296 The Science Park|Milton Road||Cambridge|Cambridgeshire|CB4 1AB| = Datanomic|||Arbury|||

競合


表3-41 Webサイト・アドレス

Webサイト・アドレスの照合ルール データ型

Webサイトの完全一致

www.tcnltd.com = www.tcnltd.com

完全

Webサイト(根幹)の完全一致

www.tcnltd.co.uk = www.tcnltd.com

あいまい

Webサイトのデータなし

www.tcnltd.com =

データなし

Webサイトの競合

www.abc.com = www.tcnltd.com

競合


電話番号

電話番号の照合では、次のような一致が許容されます。

  • 完全一致

  • 最後のN文字の照合

表3-42 電話番号

電話の照合ルール データ型

電話の完全一致

01223456678 = 01223456678

完全

電話の最後のN文字

+44223456678 = 01223456678

あいまい

電話のデータなし

01223456678 =

データなし

電話の競合

01223456678=01684345678

競合


表3-43 VAT番号

VAT番号のルール データ型

VAT番号のルール

ABC112345 = ABC112345

完全

VAT番号の完全一致

ABC12345 = ABC112345

あいまい

VAT番号のデータなし

ABC12345 =

データなし

VAT番号の競合

ABD2535 = BCD2145

競合


表3-44 税番号

税番号のルール データ型

税番号の完全一致

ABC112345 = ABC112345

完全

税番号の誤植

ABC12345 = ABC112345

あいまい

税番号のデータなし

ABC12345 =

データなし

税番号の競合

ABD2535 = BCD2145

競合


エンティティ照合サービスは、前述の論理識別子のいずれかの照合に関する情報を示すフィールドの他、総合的なスコアおよび全部のルール名も出力します。これにより、使用するアプリケーションで望むように使用するために、レコードの一致度に関してより粒度の細かい情報を保持できます。次はその例です。

表3-45 レコードの比較

レコード1
レコード2

名前

Widgets and Gadgets Ltd

名前

Gadgets and Widgets Ltd

サブ名

Cambridge

サブ名

Cambridge

電話

012234567890

電話

+4412234567890

Webサイト

www.widgetsandgadgets.com

Webサイト

www.widgetsandgadgets.org

税番号

ABC 1234 12

税番号

ABC 1234 12

Address1

29 Mill Road

Address1

Flat 3

Address2

Flat 3

Address2

29 Mill Road

市区


市区

Cambridge

郵便番号


郵便番号

CB1 3GH


表3-46 比較の結果

結果

ruleattributes

NAME,ADDRESS,PHONE,WEBSITE,TAXNUMBER

matchscore

97

rulename

N090 接尾辞なしのフルネーム(全単語)の順不同、A040 サブ建物、建物、郵便番号の先頭から一致、W020 Webサイト(根幹)の完全一致、P020 電話の最後のN文字、T010 税番号の完全一致、V030

comparisonresults

名前あいまい、住所あいまい、Webサイトあいまい、電話番号あいまい、税番号完全

nameresult

N090 接尾辞なしのフルネーム(全単語)の順不同

namescore

20

namecategory

あいまい

addressresult

A040 サブ建物、建物、郵便番号の先頭から一致

addressscore

50

addresscategory

あいまい

phonenumberresult

P020 電話の最後のN文字

phonenumberscore

70

phonenumbercategory

あいまい

websiteresult

W020 Webサイト(根幹)の完全一致

websitescore

70

websitecategory

あいまい

taxnumberresult

T010 税番号の完全一致

taxnumberscore

100

taxnumbercategory

完全

*データがない結果は、簡潔するために省略されています。


データがない結果は、簡潔するために省略されています。

comparisonresults出力フィールドは、一致の一因となる論理識別子と一致のカテゴリのカンマ区切りリストを渡します(カテゴリの「完全」または「あいまい」を戻します)。

ruleattributesフィールドは、一致の一因となった論理識別子のカンマ区切りリストを戻します。


注意:

フィールドがデータに移入されないとわかっている場合、ルールに表示されないように、論理識別子に関連する複合比較を"無効"にできます。

一意のカスタム・キー生成を使用してエンティティ・レコードの照合または除去を実行することもできます(第3.5項「ID照合の使用」を参照)。

3.5 ID照合の使用

EDQ-CDSにおけるIDの照合ルールにより、他のフィールドでの照合(する/しない)に関係なく、なんらかの名前の一致を必要とせずに、一意のカスタム識別子にのみ基づいた照合(または除去)が可能になります。これらは、これまでの各項で説明した論理識別子で照合されるルールより前に実行され、まったく切り離されています。

照合および除去は、エンティティ照合および個人照合用に用意されていますが、住所照合用には用意されていません。


注意:

  • 一意のID (UID)照合は常に、EIDまたはIEID照合の前に実行します。したがって、2つのレコードが一意の識別子によって照合される場合、それらのレコードは除去できません。

  • これらの識別子は常に、標準化された形式で比較されます。たとえば、大/小文字やその他の英数字以外の文字のみが異なる値は同一と見なされます。たとえば、次の値は、ID照合の目的においては同一です。

    • AB123456789

    • ab123-456-789

    • ab12345 6789

    • ab#123456789


3.5.1 一意のID照合の使用

UIDの一致ルールは、個人照合プロセスの一致グループ[I005] UIDとエンティティ照合プロセスの[E005] UID一致グループに含まれます。たとえば、個人照合の一致グループは次のとおりです。

  • [I005A] Match UID1

  • [I005B] Match UID2

  • [I005C] Match UID3

これらのルールを使用するには、レコードの必要なデータを1つ以上のuid属性にマップします。照合ルールは常に、他の属性が1つも一致しない場合でも、共通の一意の識別子を共有する2つのレコードを照合します。


注意:

  • uid属性は、パイプ区切りリストの形式で複数の値を受け入れます。複数の属性値のいずれかが一致した場合、2つのレコード間で一致が戻されます。

  • uid属性間の照合はできません。たとえば、uid1の値は、uid2の値またはuid3の値と照合できません。


一連のレコードのPassport Numberフィールドは、uid1属性として構成されています。したがって、次のレコードは一致として戻されます。

レコードID uid1 (パスポート番号) 一致?
1 Fred Smith 12345678 はい
2 John Doe 12345678 はい

uid1フィールドで複数の値を保持する次のレコードも照合されます。

レコードID uid1 (パスポート番号) 一致?
1 Fred Smith 12312312 | 67867867 はい
2 John Doe 67867867 | 23423423 はい

同じ一連のレコードのSSNフィールドは、uid2属性として構成されています。レコード1のuid1値がレコード2のuid2値と一致しても、uid1フィールドとuid2フィールドは互いと照合されません。

レコードID uid1 (パスポート番号) uid2 (SSN) 一致?
1 Fred Smith 12312312 67867867 いいえ
2 John Doe 67867867 12312312 いいえ

3.5.2 除去ID照合の使用

除去ID (EID)の一致ルールは、エンティティおよび個人の照合プロセスの[ELIM015] EID ELIMINATIONSグループに含まれます。

  • [ELIM015A] ELIMINATE EID1

  • [ELIM015B] ELIMINATE EID2

  • [ELIM015C] ELIMINATE EID3

これらのルールを使用するには、レコードの必要なデータを1つ以上のeid属性にマップします。EIDの照合ルールは常に、その他すべての属性が一致する場合でも、eid属性で共通の値を共有しない2つのレコードについて"一致なし"の結果を戻します。この例外は、uid属性を使用して2つのレコードが照合された場合で、これはUID照合がEID照合より前に実行されるためです。


注意:

  • eid属性は、パイプ区切りリストの形式で複数の値を受け入れます。"一致なし"の結果は、属性の値が1つも一致しない場合に2つのレコード間で戻されます。

  • 異なるeid属性間で値を比較することで可能性がある一致を除去することはできません。たとえば、eid1値は、eid2の値またはeid3の値と比較できません。


一連のレコードのSSNフィールドは、eid1属性として構成されています。したがって、次のレコードは可能性がある一致として除去されます。

レコードID eid1 (SSN) 除去?
1 John Doe 12345678 はい
2 John Doe 87654321 はい

eid1フィールドで複数の値を保持する次のレコードも、いずれの値も一致しないため、可能性がある一致として除去されます。

レコードID eid1 (SSN) 除去?
1 John Doe 12312312 | 23423423 はい
2 John Doe 45645645| 67867867 はい

同じ一連のレコードのPassportフィールドは、eid2属性として構成されています。eid1フィールドとeid2フィールドは比較されないため、"一致なし"の結果が戻され、レコードは可能性がある一致として除去されます。

レコードID eid1 (SSN) eid2 (パスポート番号) 除去?
1 John Doe 12312312 67867867 はい
2 John Doe 67867867 12312312 はい

最後に、次のレコードのeid1フィールドに2つの同一値があるため、これらは可能性がある一致として除去されません

レコードID eid1 (SSN) 除去?
1 John Doe 12312312 | 23423423 いいえ
2 John Doe 45645645| 12312312 いいえ

3.5.3 反転除去ID照合の使用

反転除去ID (IEID)の一致ルールは、エンティティおよび個人の照合プロセスのINVERTED EID ELIMINATIONSグループに含まれます。

反転ID照合は、除去ID (EID)と同じような機能ですが、識別子の値が同じ場合に"一致なし"の結果を生成ます。反転ID照合を使用すると、レコードが共通の値を共有する一致を除去します。

これらのルールを使用するには、レコード内の必要なデータを1つ以上のieid属性にマップします。IEIDの照合ルールは常に、反転EID (IEID)値が同一であるレコードについて"一致なし"の結果を戻します。

3.6 カスタマ追加属性による照合の使用

カスタマ追加の文字列属性と日付属性による照合により、EDQの構成方法を改善し、標準インタフェースに存在しない属性に関するEDQ-CDS構成のカスタマイズの必要性を減らします。

個人およびエンティティの各候補インタフェースには、6つのカスタム文字列属性と3つのカスタム日付属性が含まれます。一致インタフェースには、カスタム文字列およびカスタム日付ごとに結果、カテゴリおよびスコアのカスタム属性が含まれます。

3.6.1 標準化

カスタム文字列は、タイプidentifierまたはtextとして指定でき、標準化方法に影響します。identifierカスタム文字列は英数字以外の文字が削除され、大文字に変換される一方、textカスタム文字列は単に正規化されます。

この動作は、次のように実行プロファイルで指定します。

phase.*.process.*.customstringNtype = text

また、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request customstringNtype="identifier">

カスタム日付は、dateデータ型への変換と同様に標準化されます。

3.6.2 照合

カスタム属性は必要に応じて、キー作成(「カスタム属性のキー」を参照)に使用されたかどうかに関係なく、照合時に使用できます(デフォルトでは、カスタム属性に対して照合は実行されません)。

カスタム属性を照合する方法は2つあります。

  • 完全一致のみ

  • 完全一致とあいまい一致

カスタム属性ごとに2つの複合比較があります。

  • customstringNexact/customdateNexact

  • customstringNfuzzy/customdateNfuzzy

したがって、カスタム属性ごとに実行される照合の有効/無効およびタイプと、対応する重み付けは、次のように、これらの複合比較ごとに関連する'exact'パラメータまたは'fuzzy'パラメータを使用して実行プロファイルで指定します。

phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.enabled = Y
phase.*.process.Match\ -\ Individual.overallscore.customstring1exact.weighting = 1
phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.enabled   = N
phase.Individual\ Match.process.*.overallscore.customstring1fuzzy.weighting = 1

つまり、特定のカスタム属性で照合するためには、対応する'exact'または'fuzzy'の(両方ではなく)いずれかの複合比較を有効にする必要があります。

また、これらの設定は、次のようにリアルタイムでメッセージ単位にオーバーライドできます。

<dn:request 
   overallscore.customstring1exact.enabled="Y"
   overallscore.customstring1exact.weighting="1"
   overallscore.customstring1fuzzy.enabled="N"
   overallscore.customstring1fuzzy.weighting="1"
>

3.7 住所照合の使用

住所の照合用のルールには、同じ住所である可能性があるものの様々な表現間の次のような差異を処理するために、照合前変換および各種照合比較の使用が含まれます。

  • 省略された用語または接尾辞を含む住所。

  • 住所での文字順およびスペルの相違/間違い。

  • 完全性が様々なレベルの住所。

  • 抽出された建物およびサブ建物が一致し、住所の他の構成要素が異なる順序であるか、一方にない住所。

次の表に、用意されているルールをすべて示します。

住所の一致ルール・コード 住所の一致ルールの説明
[A010] 住所の完全一致、郵便番号の完全一致
[A020] 住所の完全一致、郵便番号なし
[A030] 住所行1および2の完全一致、市区の完全一致、郵便番号の完全一致
[A040] 住所行1および2の完全一致、市区の完全一致、郵便番号の先頭から一致
[A050] 住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A060] 住所(全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし
[A070] 住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A080] 住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致
[A090] 住所1の完全一致、住所2の競合なし、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし
[A100] 住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A110] 住所(全単語)の誤植、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし
[A120] 住所1の完全一致、住所2の競合なし、郵便番号の完全一致
[A130] 住所1の完全一致、住所2の競合なし、郵便番号の先頭から一致
[A140] 住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A150] 住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致
[A160] 住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致
[A170] 住所1の完全一致、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致
[A180] 住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致
[A190] 住所(全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の競合なし
[A200] 住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A210] 住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致
[A220] 住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の完全一致
[A230] 住所1 (全単語)、サブ建物の競合なし、建物の競合なし、郵便番号の先頭から一致
[A240] 住所1 (共通の文字列7字以上)、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A250] 住所(全単語)、郵便番号の完全一致
[A260] 住所の類似、サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A270] 住所1 (全単語)、住所2の競合なし、郵便番号の完全一致
[A280] 住所1 (全単語)、住所2の競合なし、郵便番号の先頭から一致
[A290] 住所(全単語)の誤植、郵便番号の完全一致
[A300] 住所1の完全一致、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし
[A310] 住所1 (全単語)、サブ建物の完全一致、建物の完全一致、郵便番号の競合なし
[A320] 住所1の完全一致、郵便番号の完全一致
[A330] 住所1の完全一致、郵便番号の先頭から一致
[A340] サブ建物の完全一致、建物の完全一致、郵便番号の完全一致
[A350] サブ建物の完全一致、建物の完全一致、郵便番号の先頭から一致
[A360] 住所(全単語)
[A370] 住所(全単語)の誤植
[A380] 住所の類似、郵便番号
[A390] 住所の類似、住所1の最初の単語

次の表に、必須のキー・フィールドを太字テキストで強調表示して、一致ルール・コードのみによる一致の例を示します。

住所の一致ルール・コード 住所の構成要素 レコード 照合されるレコード
[A010] address1 901 GOLF CLUB RD 901 GOLF CLUB RD

city WESTWOOD WESTWOOD

subadminarea PLUMAS PLUMAS

adminarea CA CA

postalcode 96137 96137

country US US
[A020] [A010]と同様ですが、両レコードのpostalcodeフィールドは空白です。
[A030] address1 1201 BEECH ST 1201 BEECH ST

address2 APT 104F APT 104F

city PALO ALTO PALO ALTO

subadminarea SANTA CLARA SAN MATEO

adminarea CA CA

postalcode 94303 94303

country US US
[A040] [A030]と同様ですが、一方の住所のvフィールドが他方と同じ文字で始まるけれども、同一ではないことを除きます。
[A050] address1 5 Hogskoleringen Hogskoleringen 5

city Trondheim Trondheim

adminarea
SØR-TRØNDELAG

postalcode 7491 7491

country Norway Norway
[A060] [A050]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A070] address1 Heinrichboeckingstr 10-14 Heinrichboeckingstr 10-14

address2 Service Zentrum Merzig

city Saarbrücken Saarbrücken

adminarea
SAARLAND

postalcode 66121 66121

country ドイツ ドイツ
[A080] [A070]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A090] [A070]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A100] address1 HOGSKOLERINGE 5 HOGSKOLERINGEN 5

city Trondheim Trondheim

postalcode 9491 9491

country Norway Norway
[A110] [A100]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A120] address1 Marshfield Bank Marshfield Bank

address2 WOOLSTANWOOD

city Crewe Crewe

postalcode CW28UY CW28UY

country UK UK
[A130] [A120]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A140] address1 Apt Y302 APT Y302

address2 1605 Sherringtowne Ave 1605 Sherington Ave

city NEWPORT BEACH NEWPORT BEACH

adminarea Orange Orange

postalcode 92663-9087 92663-9087

country US US
[A150] [A140]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A160] address1 1728 Corporate Xing 1728 Corporate Xing

address2 Suite1

city O Fallon O Fallon

adminarea ILLINOIS IL

postalcode 62269-3734 62269-3734

city US US
[A170] [A160]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A180] address1 Block 16 16 Dunsinane Ave

address2 Dunsinane Avenue

address3 Dunsinane Industrial Estate

city Dunsinane Dunsinane

postalcode DD23QT DD23QT

country UK UK
[A190] [A180]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A200] address1 26701 QUAIL CRK 26701 QUAIL CRK APT 107

address2 APT 107

city ALISO VIEJO LAGUNA HILLS

postalcode 92656-1089 92656-1089

country US US
[A210] [A200]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A220] address1 Folkes Road Unit 12 Folkes Road

address2 Hayes Trading Estate Lye

address3 Lye

city Stourbridge Stourbridge

postalcode DY98RN DY98RN

country UK UK
[A230] [A220]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A240] address1 101/61 NAWANAKORN INDUSTRY 101/61 NAVANAKORN INDUSTRY

address2 SELFLEMENT PHAHONYOTHIN PAHOLYOTHIN KLONGNUENG

city KLONGLAUNG KHLONG LUANG

postalcode 12120 12120

country Thailand Thailand
[A250] address1 Blyth House Blyth House

address2 130 Hordern Road Hordern Road

city Wolverhampton Wolverhampton

postalcode WV60HS WV60HS

country UK UK
[A260] address1 21001 State Route 739 21001 Sr Rt 739

address2 7

city Raymond Raymond

postalcode 43067 43067

country United States United States
[A270] address1 Lancaster House Aviation Way Aviation Way

address2
Southend Airport

city SOUTHEND ON SEA SOUTHEND ON SEA

postalcode SS26UN SS26UN

country UK UK
[A280] [A270]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A290] address1 Blythe House Blyth House

address2 130 Hordern Road Hordern Road

city Wolverhampton Wolverhampton

postalcode WV60HS WV60HS

country UK UK
[A300] [A140]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A310] [A200]と同様ですが、postalcodeフィールドの一方または両方が空白であることを除きます。
[A320] address1 Network House Network House

address2 1 Ariel Way Wood Lane

city London London

postalcode W127SL W127SL

country UK UK
[A330] [A320]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A340] address1 College Business Park College Business Park

address2 Park Coldhams Lane

city Cambridge

postalcode CB13HD CB13HD

country イギリス イギリス
[A350] [A340]と同様ですが、一方の住所のpostalcodeフィールドが他方のpostalcodeフィールドと同じ文字で始まるけれども、同一ではないことを除きます。
[A360] address1 938 Miller St Medical Ctr Blvd

address2 Medical Center Boulevard

city Winston Salem Winston- Salem

postalcode 27157 27157

country United States United States
[A370] address1 Humberstone Avenue 24 Humberston Avenue

address2 Humberstone Humberston

city GRIMSBY GRIMSBY

postalcode DN364SX DN364SP

country UK UK
[A380] address1 5 Sidings Court Greyfriars House

address2 White Rose Way Sidings Court

city DONCASTER DONCASTER

postalcode DN45NU DN45NU

country UK UK
[A390] address1 120 Howard St 120 Howard St

address2
STE 200

city San Fransisco San Fransisco

adminarea CA CA

postalcode 94105-1622 94105-1615

country United States United States


注意:

個人およびエンティティの照合とは異なり、住所照合では、同じように照合するために別々の論理識別子間の照合を分割するのに向いていないため、複合比較照合機能を使用しません。