マッチ処理の概念ガイド

マッチ処理が必要な理由

1つまたは複数のビジネス・アプリケーションからの情報をマッチ処理して調整する必要性は、様々な状況で発生します。次に例を示します。

複数のシステムに保持されているデータの調整
結果としてシステムと情報の重複となるマージまたは取得
重複を排除する必要性による新規システムへのデータの移行
信頼できる参照セットとの照合処理によるシステム情報の品質改善の必要性の確認

マッチ処理が複雑になる理由

レコードが相互にマッチしているかどうかを定義することは必ずしも簡単ではありません。次の2つのレコードを考えてみます。

データベース・フィールドがすべて異なっていますが、検査ではレコード間に明らかに類似点があります。次に例を示します。

共通の姓を共有しています。
2番目が単なる住居番号抜けの場合、同じ住所になります。

これらを「同じ」として処理するかどうかの判断は、次のような要因で異なります。

情報の使用目的は何か
判断に役立つ他の情報があるか

効果的なマッチ処理には、ソース・データの高度な完全性と正確性を前提とした従来のデータ分析技術よりもさらに卓越したツールが必要です。さらに、意思決定プロセスには、情報の使用方法に関するビジネス・コンテキストが組み込まれている必要があります。たとえば、同じ住所の関連する複数の個人を1人の顧客とするか、2人とみなすかを判断する必要があります。

Oracleによる問題の解決方法

Oracleには、マッチ処理が必要な最も一般的なビジネスの問題に適した一連のマッチ・プロセッサが用意されています。マッチ・プロセッサでは、ユーザーがマッチ処理について思いつく方法に対応した様々な論理ステージと簡単な概念が使用されます。

識別子

EDQのマッチ・プロセッサは、マッチ・ルールの表現を個々のフィールド・レベルでユーザーに強制するのではなく、識別子の強力な概念を利用します。

識別子を使用することで、ユーザーは、関連するフィールドを実社会のエンティティにマップし、次のような主要な一連の利点を活用できます。

類似する情報が異なるアプリケーションまたはデータベースに格納されている場合は、マッピング識別子によって、フィールド間の命名の相違を克服できます。これを次の図に示します。

特定のタイプの識別子（個人の名前など）については、EDQの拡張性により、新しい識別子タイプと関連する比較を導入することもできます。これらの新しい識別子タイプによって、多数のフィールドを単一の識別子にマップできるため、構造的な相違は1回で処理して以降は無視できます。この場合、マッチ・ルールは簡単ですが、フィールド・レベルではなくエンティティ・レベルで機能するため強力です。結果的に、迅速に定義可能で理解が容易な構成となります。これを次の図に示します。

クラスタリング

クラスタリングはマッチ処理に不可欠な部分で、マッチ・プロセッサが全レコードを他のすべてのレコードと比較しなくてすむように、データ・セットをクラスタに分割する際に使用されます。

EDQでは、事前形成のクラスタ・キーがあるデータに依存しないように、多数の識別子を使用して同じマッチ・プロセッサに多数のクラスタを構成できます。

クラスタリングの詳細は、「クラスタリングの概念ガイド」を参照してください。

比較

比較は、識別子の値を相互に比較して、比較結果を提供する置換可能なアルゴリズムです。提供される結果の種類は比較によって異なります。たとえば、比較結果は、単なる「True」（マッチ）または「False」（ノー・マッチ）である場合や、マッチの強度を示すパーセント値である場合があります。

マッチ・ルール

マッチ・ルールは、ビジネスの重要性に応じて比較結果を解釈する方法を提供します。比較結果を解釈するためには、順序付けられたルールを必要な数だけ構成できます。各ルールの結果は、次の3つの判定の1つになります。

Match
No Match
Review - マッチの確認または却下には手動レビューが必要

マッチ・ルールの使用によって、すべての比較にわたるルール表が形成され、マッチの判定操作が決定します（次の例を参照）。

事前に構築されたマッチ・プロセスの使用

EDQは、新しいマッチ・プロセスをすばやく簡単に構築できるように設計されており、事前構成のマッチ・プロセス（独自のデータや特定のマッチ要件に対して最適化されていないで、変更が困難）には依存していません。

ただし、場合によっては、マッチ・テンプレートを使用すると、EDQのマッチ処理がどのように動作するのかを理解でき、データの重複レベルの目安を示す初期の結果が迅速に提供されます。重複している顧客の識別や認可リストに対する顧客の照合など、特定のビジネス問題について事前に構築された一連のマッチ・ルールに関心がある場合は、顧客担当に連絡してください。

構成可能性と拡張性

EDQは、高度に構成および調整できるマッチ・アルゴリズムのライブラリを備えているため、ユーザーは、データによって得られる最善の結果を達成できるようにマッチ・プロセスを調整できます。

さらに、EDQには、新しいマッチ・アルゴリズムおよびアプローチを定義する機能が用意されています。最適なマッチ処理機能は、対応している問題およびマッチ処理対象データの種類に完全に依存します。マッチ・プロセスの主要なすべての要素は、複数の拡張コンポーネントを使用する可能性があります。次に例を示します。

レコードの識別に何を使用するか
レコードをどのように比較するか
比較の品質向上のためにデータをどのように変換して操作するか

構成可能性と拡張性の組合せによって、可能なかぎり最短の時間で最適な解決をデプロイできます。

アプリケーションへのマッチ処理拡張性の追加の詳細は、「EDQの拡張」を参照してください。

主要な機能

EDQのマッチ処理に含まれる主要な機能は、次のとおりです。

任意のタイプのデータ対するマッチ処理
マッチ・プロセスの構成を通じたガイダンス
ユーザー定義可能なデータの識別、比較およびマッチ・ルール
ビジネス・ルールベースのマッチ処理
マッチ判定とマージ判定の両方に対する複数ユーザーによる手動レビュー機能
新しいデータが提示された場合の手動判定の保持
マッチ・プロセスからの出力生成の自動化
構成可能なマッチ・ライブラリで提供される、ほとんどのニーズに対応する柔軟なマッチ機能
拡張可能なマッチ・ライブラリにより確保される最適なマッチ・アルゴリズムのデプロイ
マッチ判定のインポートとエクスポート
レビュー・アクティビティに関する完全な監査証跡の提供（判定およびレビュー・コメント）