照合パフォーマンス・オプション
以下のテクニックを使用して、照合パフォーマンスを最大化できます。
最適化されたクラスタ化
照合のパフォーマンスは、照合プロセッサの構成に依存して大幅に変化し、照合プロセッサの構成は、照合プロセスにかかわるデータの特性に依存します。正しく動作する構成の最も重要な側面は、照合プロセッサにおけるクラスタ化の構成です。
一般に、可能なかぎり多数の可能性がある一致が見つかるようにすることと、(一致しないであろうレコード間の)冗長な比較が実行されないようにすることの間で取るべきバランスがあります。適切なバランスを見つけるにはなんらかの試行錯誤、たとえば、(クラスタ・キー内の識別子の使用文字数削減などによる)クラスタの拡張、(クラスタ・キー内の識別子の使用文字数増加などによる)クラスタの収縮、またはクラスタを追加または削除する場合の一致統計の差異の評価が必要になる場合があります。
次の2つのガイドラインが有用な場合があります。
-
住所や他の連絡先詳細、たとえば電子メール・アドレスと電話番号を持つ顧客データなど、適切に移入された多数の識別子を含むデータを使用する場合、100万件のレコードごとに最大サイズ20のクラスタを目標にし、いくつかの識別子では希薄性に対処するために、単一クラスタを拡張するよりも複数のクラスタを使用してください。
-
少数の識別子を持つデータを使用する場合、たとえば、個人またはエンティティを名前とおよその場所に基づいてのみ照合できる場合、クラスタの拡張が不可避な場合があります。この場合、使用可能なデータによるクラスタの緊密化を可能にするために、使用する識別子の入力データを標準化、拡張、および修正することを心がけてください。大量のデータの場合、少数のクラスタが著しく大きくなることがあります。たとえば、Oracle Watchlist Screeningでは、許可リストと照合してスクリーニングするときに使用するクラスタ化方法の一部について、700万のクラスタ比較限度が使用されます。この場合も、可能なら最大サイズが約500レコードのクラスタを目標にしてください(クラスタ内のどのレコードも、クラスタ内の他のどのレコードとも比較することが必要になるので、500レコードの単一クラスタの場合、500 x 499 = 249500回の比較が実行されます)。
作業をクラスタ化する方法とデータの設定を最適化する方法の詳細は、「クラスタ化」を参照してください。
照合プロセッサのソート/フィルタ・オプションの無効化
デフォルトでは、すべての照合結果をユーザー・レビューで必ず使用可能にするため、ソート、フィルタリングおよび検索は有効化されます。しかし、大きなデータ・セットでは、ソート、フィルタリングおよび検索を有効化するために必要な索引付けのプロセスは非常に時間がかかり、場合によっては不要なこともあります。
レビュー・アプリケーションを使用して照合の結果をレビューする機能が必要でなく、結果ブラウザで照合の出力をソートまたはフィルタできなくてもよい場合、パフォーマンス向上のためにソートとフィルタリングを無効化してください。たとえば、照合の結果を外部で書き込んでレビューする場合や、照合を本番でデプロイする場合に完全に自動化する場合があります。
ソートとフィルタリングを有効化または無効化するための設定は、プロセッサの「拡張オプション」から使用可能な個別の照合プロセッサ・レベルでも(詳細は、Enterprise Data Qualityオンライン・ヘルプの"照合プロセッサの詳細オプション"に関する項にある照合プロセッサのソート/フィルタ・オプションを参照)、プロセスまたはジョブ・レベルのオーバーライドとしても可能です。
プロセス内のすべての照合プロセッサに対する個別の設定をオーバーライドし、照合結果のソート、フィルタリングおよびレビューを無効化するには、ジョブ構成、またはプロセス実行プリファレンスで、照合プロセッサの「ソート/フィルタの有効化」オプションの選択を解除します。

出力の最小化
照合プロセッサは最大3種類の出力を書き出せます。
-
照合(またはアラート)グループ(照合プロセッサの決定どおりにレコードを照合レコードのセットにまとめます。照合プロセッサで一致レビューが使用される場合は一致グループが発生しますが、ケース管理が使用される場合はアラート・グループが発生します。)
-
関係(一致するレコード間のリンク)
-
マージ済出力(一致するレコードの各セットからマージされたマスター・レコード)
デフォルトでは、使用可能なすべての出力タイプが書き込まれます。(マージ済出力をリンク・プロセッサから書き込むことはできません。)
しかし、使用可能な出力がすべてプロセスに必要とはかぎりません。たとえば、一致するレコードのセットを識別するのみの場合は、マージ済出力の無効化が妥当です。
いずれかの出力を無効化しても、ユーザーによる照合プロセッサの結果のレビューに影響はありません。
一致(またはアラート・)グループ出力を無効化するには、次のようにします。
-
照合プロセッサをキャンバスで開き、「一致」サブプロセッサを開きます。
-
上部の「一致グループ(またはアラート・グループ)」タブを選択します。
-
「一致グループ・レポートの生成」または「アラート・グループ・レポートの生成」オプションの選択を解除します。
または、関連があるか関連がないレコードのグループを出力するのみだと判明している場合は、画面の同じ部分にある他のチェック・ボックスを使用します。
関係出力を無効化するには、次のようにします。
-
照合プロセッサをキャンバスで開き、「一致」サブプロセッサを開きます。
-
上部の「関係」タブを選択します。
-
「関係レポートの生成」オプションの選択を解除します。
または、いくつかの関係(レビュー関係のみ、または特定のルールにより生成された関係のみなど)のみ出力すると判明している場合は、画面の同じ部分にある他のチェック・ボックスを使用します。
マージ済出力を無効化するには、次のようにします。
-
照合プロセッサをキャンバスで開き、「マージ」サブプロセッサを開きます。
-
「マージ済出力の生成」オプションの選択を解除します。
または、関連があるレコードからのマージ済出力レコードのみか、関連がないレコードのみを出力すると判明している場合は、画面の同じ部分にある他のチェック・ボックスを使用します。
入力のストリーミング
バッチ照合プロセスでは、レコードを効率的に比較するために、EDQリポジトリにあるデータのコピーが必要です。
プロセス内のリーダーと照合プロセッサの間でデータが変換されることがあり、照合プロセスで使用するスナップショットがリフレッシュされても照合結果をレビューできるようにするため、照合プロセッサは作業の基礎となるデータ(リアルタイム入力以外)のスナップショットを独自に生成します。大きなデータ・セットの場合、これには時間がかかることがあります。
詳細は、Enterprise Data Qualityオンライン・ヘルプの"リアルタイム照合"に関する項を参照してください。
したがって、照合プロセスで最新のソース・データを使用する場合、スナップショットをストリームすることをお薦めします。その方が、最初にスナップショットを実行してからデータを照合プロセッサにフィードし、その照合プロセッサが独自の内部スナップショットを生成する(事実上データを2回コピー)よりも効率的です。前述の「スナップショットのストリーミング」を参照してください。
リアルタイム照合プロセスの参照データのキャッシュ
参照データをEDQサーバー上にキャッシュするように照合プロセッサを構成でき、場合によっては照合プロセスが高速になります。照合プロセッサの「拡張オプション」で、リアルタイム照合プロセッサにおける参照データのキャッシュを有効化できます。
詳細は、「Enterprise Data Qualityの理解」およびEnterprise Data Qualityオンライン・ヘルプを参照してください。