1つまたは複数のビジネス・アプリケーションからの情報をマッチ処理して調整する必要性は、様々な状況で発生します。次に例を示します。
レコードが相互にマッチしているかどうかを定義することは必ずしも簡単ではありません。次の2つのレコードを考えてみます。
データベース・フィールドがすべて異なっていますが、検査ではレコード間に明らかに類似点があります。次に例を示します。
これらを「同じ」として処理するかどうかの判断は、次のような要因で異なります。
効果的なマッチ処理には、ソース・データの高度な完全性と正確性を前提とした従来のデータ分析技術よりもさらに卓越したツールが必要です。さらに、意思決定プロセスには、情報の使用方法に関するビジネス・コンテキストが組み込まれている必要があります。たとえば、同じ住所の関連する複数の個人を1人の顧客とするか、2人とみなすかを判断する必要があります。
Oracleには、マッチ処理が必要な最も一般的なビジネスの問題に適した一連のマッチ・プロセッサが用意されています。マッチ・プロセッサでは、ユーザーがマッチ処理について思いつく方法に対応した様々な論理ステージと簡単な概念が使用されます。
EDQのマッチ・プロセッサは、マッチ・ルールの表現を個々のフィールド・レベルでユーザーに強制するのではなく、識別子の強力な概念を利用します。
識別子を使用することで、ユーザーは、関連するフィールドを実社会のエンティティにマップし、次のような主要な一連の利点を活用できます。
クラスタリングはマッチ処理に不可欠な部分で、マッチ・プロセッサが全レコードを他のすべてのレコードと比較しなくてすむように、データ・セットをクラスタに分割する際に使用されます。
EDQでは、事前形成のクラスタ・キーがあるデータに依存しないように、多数の識別子を使用して同じマッチ・プロセッサに多数のクラスタを構成できます。
クラスタリングの詳細は、「クラスタリングの概念ガイド」を参照してください。
比較は、識別子の値を相互に比較して、比較結果を提供する置換可能なアルゴリズムです。提供される結果の種類は比較によって異なります。たとえば、比較結果は、単なる「True」(マッチ)または「False」(ノー・マッチ)である場合や、マッチの強度を示すパーセント値である場合があります。
マッチ・ルールは、ビジネスの重要性に応じて比較結果を解釈する方法を提供します。比較結果を解釈するためには、順序付けられたルールを必要な数だけ構成できます。各ルールの結果は、次の3つの判定の1つになります。
マッチ・ルールの使用によって、すべての比較にわたるルール表が形成され、マッチの判定操作が決定します(次の例を参照)。
EDQは、新しいマッチ・プロセスをすばやく簡単に構築できるように設計されており、事前構成のマッチ・プロセス(独自のデータや特定のマッチ要件に対して最適化されていないで、変更が困難)には依存していません。
ただし、場合によっては、マッチ・テンプレートを使用すると、EDQのマッチ処理がどのように動作するのかを理解でき、データの重複レベルの目安を示す初期の結果が迅速に提供されます。重複している顧客の識別や認可リストに対する顧客の照合など、特定のビジネス問題について事前に構築された一連のマッチ・ルールに関心がある場合は、顧客担当に連絡してください。
EDQは、高度に構成および調整できるマッチ・アルゴリズムのライブラリを備えているため、ユーザーは、データによって得られる最善の結果を達成できるようにマッチ・プロセスを調整できます。
さらに、EDQには、新しいマッチ・アルゴリズムおよびアプローチを定義する機能が用意されています。最適なマッチ処理機能は、対応している問題およびマッチ処理対象データの種類に完全に依存します。マッチ・プロセスの主要なすべての要素は、複数の拡張コンポーネントを使用する可能性があります。次に例を示します。
構成可能性と拡張性の組合せによって、可能なかぎり最短の時間で最適な解決をデプロイできます。
アプリケーションへのマッチ処理拡張性の追加の詳細は、「EDQの拡張」を参照してください。
EDQのマッチ処理に含まれる主要な機能は、次のとおりです。
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.