1.3.3.3 重複除外
重複除外プロセッサは、元のレコードが正確に同じでなくても実行できる洗練された照合処理を使用して、1つのデータ・ストリーム内の重複レコード(つまり、同じエンティティを表すレコード)を識別します。
EDQにおける照合の詳細は、照合処理の概念ガイドを参照してください。詳細
重複除外プロセッサは、1つのデータ・ストリーム内の重複レコードを識別するために使用します。すべての照合プロセッサと同様に、重複除外は、自動ルールと手動決定の両方を使用して、レコードを照合する機能を備えています。
必要に応じて、自動ルールと手動決定を組み合せて使用し、すべての重複レコードが削除され、重複が除外されたデータ・ストリームを作成することもできます。または、重複除外プロセッサの出力を使用して、システム内の重複レコードを相互にリンクできます。
重複除外は、照合プロセッサの1タイプです。照合プロセッサはいくつかのサブプロセッサで構成されており、各サブプロセッサは照合操作の異なるステップを実行するため個別に構成する必要があります。重複除外プロセッサは次のサブプロセッサで構成されており、次に説明するように、それぞれが個別の機能を実行します。
サブプロセッサ | 説明 |
---|---|
照合プロセスに含まれるデータ・ストリームから属性を選択します。 |
|
照合処理で使用する識別子を作成して属性にマップします。 |
|
データ・ストリームを複数のクラスタに分割します。 |
|
実行する比較を選択し、一致ルールを使用して比較を解釈する方法を選択します。 |
|
オプションでルールを使用して照合レコードをマージし、出力レコードの「最適」なセットを作成します |
入力
照合プロセスに含める任意の属性。
入力は入力サブプロセッサで構成できます。
オプション
照合プロセッサの拡張オプションを除くすべてのオプションは、前述のサブプロセッサ内で構成します。
出力
実行
リアルタイム・レスポンス・プロセスに照合プロセッサが1つしかない場合、このプロセスで重複除外プロセッサを使用できます。
重複除外照合プロセッサをこのようにコールすると、レスポンス・インタフェースで特殊な動作が発生します。リアルタイム照合の概要ガイドを参照してください。詳細
実行モード | サポート |
---|---|
バッチ |
あり |
リアルタイム・モニタリング |
あり |
リアルタイム・レスポンス |
あり |
ノート:
重複除外プロセッサでは常に再実行マーカーが表示されていますが、このマーカーは、構成が変更されたかどうかに関係なくプロセスが実行のたびに完全に再実行されることを示します。これは、重複除外プロセッサの下位プロセッサも再実行が必要であることを意味します。
結果の表示
重複除外プロセッサでは、次に示す多数の結果ビューが作成されます。すべてのビューは、プロセス内の重複除外プロセッサをクリックして表示できます。重複除外プロセッサを展開してサブプロセッサを表示し、ビューを作成するサブプロセッサを選択して表示することもできます。
入力ビュー(入力により作成)
入力ビューでは、入力データ・ストリームの単純なビュー(重複除外される)とその選択済属性が表示されます。
クラスタ・ビュー(クラスタにより作成)
クラスタ・ビューは、構成されたクラスタごとに表示されます。これらのビューを使用してクラスタリングの厳密度を評価し、不必要な比較が多数行われていないこと、および照合候補の漏れがないことを確認します。詳細は、クラスタリングの概要ガイドを参照してください。詳細
統計 | 意味 |
---|---|
クラスタ |
個別のクラスタ・キー値 |
グループ・サイズ |
クラスタ内のレコード合計数(つまり、個別のクラスタ・キー値が同じレコードの数) |
処理済ですか |
このクラスタが実際に処理されたかどうかを示します。値は次のいずれかです。
|
[データ・ストリーム名] |
各入力データ・ストリームの次の値です。 各入力データ・ストリームの各クラスタ内に含まれるドリル可能なレコードの件数 |
照合ビュー(照合プロセッサによって作成される) [照合レビューのみ]
照合ビューでは、データ・ストリームで検出された重複レコード数が集計されます。
統計 | 意味 |
---|---|
一致するレコード |
重複レコード、つまり照合関係により他のレコードと一致したレコードの合計数。 これには、詳細オプションの「一致グループでレビュー関係を使用」を選択しないかぎり、レビュー関係で他のレコードと一致したレコードは含まれないことに注意してください。「一致グループでレビュー関係を使用[一致レビューのみ]」を参照してください。 |
一致しないレコード |
他のレコードと一致しなかった(重複と識別されない)レコードの合計数。 |
ルール・ビュー(照合により作成)
ルール・ビューには、各自動一致ルールによって作成された関係の数のサマリーが表示されます。
統計 | 意味 |
---|---|
ルールID |
一致ルールの数値識別子。 |
ルール名 |
一致したルールの名称。 |
関係 |
一致ルールによって作成された、レコード間の関係の数。レコードのペア(AとB)の間の各関係は、1つのルールのみによって作成されることに注意してください。上位のルールによって関係が作成されると、下位のルールは適用されません。また、別のルールによって、関係内の1つのレコードを別のレコードに関連付ける(たとえば、AとC)ことができます。 |
レビュー・ステータス・ビュー(照合により作成)
レビュー・ステータス・ビューでは、関係がレビュー・ステータス別に集計されます。
統計 | 意味 |
---|---|
レビュー・ステータス |
レビュー・ステータス。可能なレビュー・ステータスごとに、次の行が表示されます。
|
関係 |
指定されたレビュー・ステータスのレコード間の関係の数。次のノートを参照してください。 |
ノート:
このビューの統計は、レビュー・プロセス時に行われた決定に基づいて自動的に更新されます。したがって、最上位レベルの統計には、各関係のレビュー・ステータスの最新ビューが常に表示されます。ただし、照合プロセッサが実行されるたびにデータへのドリルダウンが生成されるため、照合プロセッサの最後の実行以降に行われたレビュー決定は更新に反映されません。この状態が発生した場合、結果ブラウザには、表示されている生成済データが最新でないことが表示されます。
一致グループ・ビュー(照合により作成)[照合レビューのみ]
一致グループ・ビューでは、一致(重複)レコードのグループが集計されます。
統計 | 意味 |
---|---|
一致グループ |
一致レコード・グループの合計数。ドリルダウンすると、グループのサマリーがグループ・サイズ(レコード数)別に表示されます。一致グループには、詳細オプションの「一致グループでのレビュー関係の使用」を選択しないかぎり、レビュー関係のみで他のレコードと一致したレコードは含まれないことに注意してください。「一致グループでレビュー関係を使用[一致レビューのみ]」を参照してください。 |
一致しない出力レコード |
出力された、作業表からの不一致レコード(重複していないレコード)の合計数。 |
アラート・グループ・ビュー(照合により作成)[ケース管理のみ]
アラート・グループ・ビューでは、一致レコードのグループが集計されます。
統計 | 意味 |
---|---|
アラート・グループ |
アラート・グループの合計数。ドリルダウンすると、グループのサマリーがグループ・サイズ(レコード数)別に表示されます。 |
アラートにないレコード |
アラートに含まれていなかった、作業データからのレコードの合計数。 参照ソースからの不一致レコードは出力されないことに注意してください。 |
グループ出力(照合により作成)[照合レビューのみ]
グループ出力は、照合プロセッサで作成された一致グループのデータ・ビューです。データ・ビューに出力されるグループ、およびビューの属性は、照合サブプロセッサのグループ出力のオプションに応じて異なる場合があります。たとえば、データ・ビューに、1レコードを含む「グループ」を含める場合と含めない場合があります。
アラート出力(照合により作成)[ケース管理のみ]
アラート出力は、照合プロセッサで作成された一致グループのデータ・ビューです。データ・ビューに出力されるアラート、およびビューの属性は、照合サブプロセッサのグループ出力のオプションに応じて異なる場合があります。
関係出力ビュー(照合により作成)
関係出力は、照合プロセッサで作成されたレコードのペアの各関係(リンク)を示すデータ・ビューです。データ・ビューに出力される関係、およびビューの属性は、照合サブプロセッサのグループ出力のオプションに応じて異なる場合があります。たとえば、ビューに、特定のルールによって形成された関係を含める場合と含めない場合があります。
マージ・サマリー・ビュー(マージにより作成)
マージのサマリー・ビューでは、照合処理のマージ・ステージが集計されます。
統計 | 意味 |
---|---|
成功 |
マージ・プロセスで、エラーが発生せずに正常にマージされて出力されたグループの数。 ドリルダウンすると、成功したグループのサマリーがグループ・サイズ(レコード数)別に表示されます。 マージの構成で、関連付けられていないレコードを出力するように設定した場合は、1レコードのみを含む「グループ」が含まれることに注意してください。 |
含まれているエラー |
自動出力選択でエラーが発生し、手動による解決が必要であるため、正常にマージされなかったグループの数。ドリルダウンすると、失敗したグループのサマリーがグループ・サイズ(レコード数)別に表示されます。 |
マージ済出力ビュー(マージにより作成)
「マージ済出力」は、照合プロセッサからマージされた出力のデータ・ビューです。つまり、重複レコードがマージされた後のレコード・セットです。出力されるレコードとその属性は、マージ・サブプロセッサで設定するオプションに応じて異なります。
出力フィルタ
重複除外プロセッサからは、次の出力フィルタが使用可能です。
-
グループ
-
関係
-
重複除外済
-
クラスタ化
-
決定
「グループ」、「関係」、および「重複除外済」出力フィルタは、前述の「グループ出力」、「関係出力」および「マージ済出力」に対応しています。
「クラスタ化」出力フィルタは、追加された配列属性内の入力レコードおよびクラスタ値を、クラスタリング構成を使用して出力します。これは、通常、リアルタイム照合にのみ役立ちます。
決定の入力と出力
決定入力には、次の目的があります。
-
他の製品で行われた履歴一致決定のEDQへのインポート。これは1回限りのプロセスです。完了したら、データは、決定入力から関連が解除される必要があります。
-
外部レビュー・システムで行われた(および定期的に行われている)一致決定のインポート。これは、通常の実行プロセスの一環である必要があります。
決定出力により、一致決定の完全な監査証跡を外部に格納できます。
ノート:
外部一致レビューでは、最新の一致決定を含む関係出力が使用されます。決定出力は、古い決定や現在の関係に関連付けられていない決定など、行われたすべての決定を含むため、様々です。このため、決定出力は、監査目的により適しています。
決定入力および出力の使用に関する詳細は、Oracle Fusion Middleware Oracle Enterprise Data Qualityの使用の一致決定のインポートおよび 一致決定のエクスポートに関する項を参照してください。