Merge |
「Merge」は、「Link」(レコードのマージが発生しない)を除くすべてのマッチ・プロセッサのサブプロセッサです。
マッチ処理のオプション部分であるレコードのマージを使用すると、マッチ・プロセスから「最適」な出力レコードを新たに作成できます。「最適」なレコードは、自動選択ルールと手動判定を組み合せて使用し、各マッチ・グループの複数のレコードから構築されます。
たとえば、自動ルールを使用すると、マッチ・プロセッサでは、マッチ・グループで検出されたレコードの属性に対する最多値、入力日付を使用する最新値(「最終編集者」フィールドなど)、あるデータ・ソースを他のソースより優先させる空でない最初の値を出力できます。
属性の自動出力選択でエラーが発生すると、その属性は「Fail」ステータスとマークされます。失敗した属性が含まれるグループも「Fail」ステータスとマークされます。これらのエラーは、レビュー・ステージで手動で解決できます。たとえば、2つの異なるシステムから2つの重複レコードを統合するときに、自動ルールで値の選択に失敗した場合(マッチ・グループ内のレコードに「最多」の値がない場合など)、ユーザーは、最適とみなされる値に応じて、一方のレコードから値(氏名など)を選択し、もう一方の関連レコードから別の値(Eメール・アドレスなど)を選択できます。選択エラーを含むレコードの出力は、「Review」画面からレビューできます。「Merge Summary」結果ビューには、失敗したマッチ・グループの数も表示されるため、解決が必要なエラーの数を把握できます。
「Merge」サブプロセッサの一般的な用途は、使用するマッチ・プロセッサのタイプに応じて異なります。データ・ストリームの重複を除去したり、複数のデータ・ストリームを統合する場合(たとえば、データ移行プロジェクトの一環として行う場合、またはダイレクトメール用の顧客リストを準備するためにデータを再利用する場合など)は、自動マージ・ルールを使用して、重複のない出力レコードを作成するのが一般的です。
参照ソースからデータのセットを拡張する場合は、マージ・ルールを使用して、マッチする参照レコードからデータを追加します。この場合、元の作業レコードは、信頼できる良質な情報で更新される場合と、単に新しい情報が追加される場合があります。
「Deduplicate」および「Consolidate」マッチ・プロセッサの場合、「Merge」の構成には、重複を除去した単純形式の出力を作成できるデフォルトの選択ルール・セットが含まれています。
「Enhance」プロセッサの場合、「Merge」の構成には、参照データから作業データを拡張するためのデフォルトの選択ルール・セットが含まれています。
これらのデフォルト構成はすべて単純で、マッチ・プロセスから出力を簡単に作成できるように設計されています。マージ済出力レコードをより正確に構築する必要がある場合は、ニーズにあわせてルールを編集する必要があります。
マージ済出力のデフォルト・フォーマットを保持するには、ダイアログの下部にある「Auto Attribute Selection」オプションを選択します。出力内の属性は入力属性ごとに含まれているため、変更の可能性があることに注意してください。マッチ・プロセッサから入力属性を追加または削除すると、デフォルト出力内の属性が変更されます。出力をカスタマイズするには、このボックスの選択を解除して、属性を追加または削除します。たとえば、属性を追加して出力をカスタム・フォーマットに変更すると、「Auto Attribute Selection」オプションは自動的に選択解除されることに注意してください。これは、入力属性の変更による出力への属性の自動追加はないことを意味しますが、属性は必要に応じて手動で追加できます。
マージ・ルールは、必要な出力属性ごとに個別に設定されます。
デフォルトでは、マッチ処理に提示されるすべてのデータ・ストリーム内にある同じ名称の属性に対して、出力属性が含まれています。(重複除去の場合など、マッチ処理に提示されるデータ・ストリームが1つのみの場合は、すべての入力属性に対して出力属性が作成されます。)
注意: デフォルトの出力フォーマットで使用される出力セレクタは「Most Common Value」です。これは、マッチ・グループ内のすべてのレコードから、各属性の最多値が選択されることを意味します。最多値がない場合(たとえば、グループ内に2つのレコードがあり、1つのレコードは「FirstName」が「Jhon」で、もう1つのレコードは「John」の場合)、セレクタには、グループ内のレコードから空でない最初の値を選択するオプション(「Use first non-empty if tied」)があります。デフォルトではこれが設定されていますが、設定を解除して、最多値がない場合はエラーが発生するようにできます。 |
「MatchGroup」および「MatchGroupSize」には追加の出力属性があります。このため、すべての出力選択決定の完全な監査証跡を保持するために、マージ済出力とマッチ・グループ出力を相互参照できます。これ以外にも、内部生成されたいくつかの属性を使用できます。
マージ済出力レコードのセットを変更する場合は、いくつかのオプションを使用できます。
オプション |
説明 |
デフォルト設定 |
Generate Merged Output |
マージ済出力を生成するか、まったく生成しないかを決定します。たとえば、マッチ・プロセスを完全に開発し、マージ済出力を使用しない場合は、マージ済出力を生成しないことでパフォーマンスを向上させることができます。 |
選択 |
Output related records |
関連付けられたレコードのグループのマージ済出力レコードを出力するかどうかを決定します。 |
選択 |
Output unrelated records |
関連付けられていないレコードを出力するかどうかを決定します。 |
「Deduplicate」および「Consolidate」プロセッサの場合は選択。 「Enhance」および「Advanced Match」プロセッサの場合は未選択。 |
新しい出力属性をマージ済出力に追加するには、ダイアログの下部にある「Add」ボタンを使用します。
これ以外にも、内部生成されたいくつかの出力属性を使用できます。
属性名 |
説明 |
属性値 |
Match_Group_Status |
マッチ・グループのステータス。 FAIL(マッチ・グループの出力選択時にエラーが発生した場合) SUCCESS(マッチ・グループの出力選択時にエラーが発生しなかった場合) |
|
Reviewed_Flag |
レビュー済ステータス |
マッチ・グループのマージ済出力が手動でレビューされたかどうかを示す、マッチ・グループのインジケータ。 |
Review_User |
レビュー担当者の名前 |
マッチ・グループのマージ済出力を最後にレビューしたユーザーのユーザー名。 |
Review_Date |
最新レビューの日付 |
マッチ・グループのマージ済出力を最後にレビューした日付。 |
Comment |
最新コメント |
マージ済出力に対する最新コメント。 |
Comment_User |
最新コメントの記述者の名前 |
最新コメントを記述したユーザーのユーザー名。 |
Comment_Date |
最新コメントの日付
|
最新コメントの日付。 |
さらに、新しいマージ済出力属性を作成(つまり、マッチ・グループのレコードからデータをマージ)する手順は、次のとおりです。
使用可能な入力の数は、マッチ・プロセッサに入力されるソース・データ・ストリームの数に応じて異なることに注意してください。出力セレクタには、特定の追加入力が必要な場合があります。たとえば、「Earliest Value」および「Latest Value」セレクタには、値の選択元になる最早レコードまたは最新レコードの選択で使用する日付属性が必要です。
より複雑なルールを使用して出力のデータを選択する場合は、使用可能なセットに独自の出力セレクタを追加できます。「EDQでのマッチの拡張」を参照してください。
マージ済出力属性の出力セレクタで、マッチ・グループの入力レコードから有効な値を1つ選択できない場合は、出力選択エラーが発生します。エラーなしのマージ済出力レコードがマッチ・グループから出力できない場合(つまり、マージ済出力レコードに属性に対する出力選択エラーが含まれる場合)、そのマッチ・グループは「失敗」グループとしてフラグ付けされます。この失敗フラグは、マッチ・グループからのデータのマージには手動レビューが必要であることを示します。つまり、自動マージ・ルールで値を選択できなかった場合は、マージ済出力レコードを手動で解決できます。「手動による出力決定」を参照してください。
値は正しく選択されなかった場合でも(失敗したグループでも)出力されるため、選択エラーが発生したマージ済出力レコードも使用可能であることに注意してください。
選択があいまいな場合
出力セレクタで出力値とみなすことが可能な値を複数検出し、自動的に選択する方法が構成されていない場合は、出力選択エラーが発生し、マージ済出力属性の値が選択されません。たとえば、マッチ・グループの次のレコードから「Date of Birth」(生年月日)出力属性の最多値を選択する場合は、「Use first non-empty value if tied?」オプションが選択されていないと、エラーが発生します。
レコード |
生年月日 |
A |
01/10/1975 |
B |
01/10/1975 |
C |
10/01/1975 |
D |
10/01/1975 |
前述のケースでは、2つの値が2回ずつ発生しており、最多値が1つでないため、選択があいまいになります。
Null値を許容しない場合
マージ済出力属性にNull値を許容しないルールを適用すると、この属性の完全性は後続処理で確保されます。
たとえば、出力セレクタの「Allow Nulls」オプションを選択しないと、「Postcode」(郵便番号)属性値が選択できなかったすべてのグループにフラグ付けできます。マッチ・グループ内のすべてのレコードの「Postcode」属性がNull値の場合、Null以外の値は選択されないため、使用する出力セレクタに関係なく、選択エラーが発生します。
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.