マージ
マージは、リンク(レコードのマージが発生しない)を除くすべての照合プロセッサのサブプロセッサです。
照合処理のオプション部分であるレコードのマージを使用すると、照合プロセスから「最適」な出力レコードを新たに作成できます。「最適」なレコードは、自動選択ルールと手動決定を組み合せて使用し、各照合グループの複数のレコードから構築されます。
たとえば、自動ルールを使用すると、照合プロセッサでは、照合グループで検出されたレコードの属性に対する最多値、入力日付を使用する最新値(「最終編集者」フィールドなど)、あるデータ・ソースを他のソースより優先させる空でない最初の値を出力できます。
属性の自動出力選択でエラーが発生すると、その属性は「Fail」ステータスとマークされます。失敗した属性が含まれるグループも「Fail」ステータスとマークされます。これらのエラーは、レビュー・ステージで手動で解決できます。たとえば、2つの異なるシステムから2つの重複レコードを統合するときに、自動ルールで値の選択に失敗した場合(照合グループ内のレコードに「最多」の値がない場合など)、ユーザーは、最適とみなされる値に応じて、一方のレコードから値(氏名など)を選択し、もう一方の関連レコードから別の値(電子メール・アドレスなど)を選択できます。「レビュー」画面から、選択エラーを含むレコードの出力をレビューできます。マージのサマリー結果ビューには、失敗した照合グループの数が示されるため、解決が必要なエラーの数を把握できます。
マージ・サブプロセッサの一般的な用途は、使用する照合プロセッサのタイプに応じて異なります。データ・ストリームの重複を除去したり、複数のデータ・ストリームを統合する場合(たとえば、データ移行プロジェクトの一環として行う場合、またはダイレクトメール用の顧客リストを準備するためにデータを再利用する場合など)は、自動マージ・ルールを使用して、重複のない出力レコードを作成するのが一般的です。
参照ソースからデータのセットを拡張する場合は、マージ・ルールを使用して、一致する参照レコードからデータを追加します。この場合、元の作業レコードは、信頼できる良質な情報で更新される場合と、単に新しい情報が追加される場合があります。
構成
重複除外照合プロセッサおよび統合照合プロセッサの場合、マージ構成に重複を除外した単純形式の出力を作成できるデフォルトの選択ルール・セットが含まれています。
強化プロセッサの場合、マージの構成に参照データから作業データを拡張するためのデフォルトの選択ルール・セットが含まれています。
これらのデフォルト構成はすべて単純で、照合プロセスから出力を簡単に作成できるように設計されています。マージ済出力レコードをより正確に構築する必要がある場合は、ニーズにあわせてルールを編集する必要があります。
マージ済出力のデフォルト・フォーマットを保持するには、ダイアログの下部にある「自動属性選択」オプションを選択します。出力内の属性は入力属性ごとに含まれているため、変更の可能性があることに注意してください。照合プロセッサから入力属性を追加または削除すると、デフォルト出力内の属性が変更されます。出力をカスタマイズするには、このボックスの選択を解除して、属性を追加または削除します。たとえば、属性を追加して出力をカスタム・フォーマットに変更すると、自動属性選択オプションが自動的に選択解除されることに注意してください。つまり、入力属性が変更されても、属性は出力に自動的に追加されることはありませんが、属性は必要に応じて手動で追加できます。
マージ済出力ルールの変更
マージ・ルールは、必要な出力属性ごとに個別に設定されます。
デフォルトでは、照合処理に入力されるすべてのデータ・ストリーム内にある同じ名称のどの属性にも、出力属性が含まれています。(重複除外の場合など、照合処理に提示されるデータ・ストリームが1つのみの場合は、すべての入力属性に対して出力属性が作成されます。)
注意:
デフォルトの出力フォーマットで使用される出力セレクタは「最も一般的な値」です。これは、照合グループ内のすべてのレコードから、各属性の最も一般的な値が選択されることを意味します。最も一般的な値がない場合(たとえば、グループ内に2つのレコードがあり、1つのレコードは「FirstName」が「Jhon」で、もう1つのレコードは「John」の場合)、セレクタには、グループ内のレコードから空でない最初の値を選択するオプション(関連付けられている場合、空でない値を最初に使用)があります。デフォルトではこれが設定されていますが、設定を解除して、最も一般的な値がない場合はエラーが発生するようにもできます。
「MatchGroup」および「MatchGroupSize」には追加の出力属性があります。このため、すべての出力選択決定の完全な監査証跡を保持するために、マージ済出力と照合グループ出力を相互参照できます。これ以外にも、内部生成されたいくつかの属性を使用できます。
マージ済出力レコードのセットを変更する場合は、いくつかのオプションを使用できます。
オプション | 説明 | デフォルト |
---|---|---|
マージ済出力の生成 |
マージ済出力を生成するか、まったく生成しないかを決定します。たとえば、照合プロセスを完全に開発し、マージ済出力を使用しない場合は、マージ済出力を生成しないことでパフォーマンスを向上させることができます。 |
選択済 |
関連レコードを出力 |
関連付けられたレコードのグループのマージ済出力レコードを出力するかどうかを決定します。 |
選択済 |
関連のないレコードを出力 |
関連付けられていないレコードを出力するかどうかを決定します。 |
重複除外プロセッサおよび統合プロセッサの場合は、選択済。 強化プロセッサおよび照合プロセッサの場合は、選択しない。 |
属性の追加
新しい出力属性をマージ済出力に追加するには、ダイアログの下部にある「追加」ボタンを使用します。
これ以外にも、内部生成されたいくつかの出力属性を使用できます。
属性名 | 説明 | 属性値 |
---|---|---|
Match_Group_Status |
Match_Group_Status |
一致グループのステータス。 FAIL: 一致グループの出力選択時にエラーが発生した場合。 SUCCESS: 一致グループの出力選択時にエラーが発生しなかった場合。 |
Reviewed_Flag |
レビュー済ステータス |
一致グループのマージ済出力が手動でレビューされたかどうかを示す、一致グループのインジケータ。 |
Review_User |
レビューアの名前 |
一致グループのマージ済出力を最後にレビューしたユーザーの名前。 |
Review_Date |
最新レビューの日付 |
一致グループのマージ済出力を最後にレビューした日付。 |
コメント |
最新コメント |
マージ済出力に対する最新コメント。 |
Comment_User |
最新コメント提供者の名前 |
最新のコメントを記述したユーザーの名前。 |
Comment_Date |
最新コメントの日付 |
最新コメントの日付。 |
これ以外に、新しいマージ済出力属性を作成(つまり、一致グループのレコードからデータをマージ)する手順は、次のとおりです。
-
出力属性の名称を指定します。
-
リストの下部からマージする値を選択します。
-
右側で、必要な出力セレクタを選択します。
-
データの選択元になる属性(1つまたは複数)を適切な順序で選択します。
注意:
使用可能な入力の数は、照合プロセッサに入力されるソース・データ・ストリームの数に応じて異なることに注意してください。出力セレクタには、特定の追加入力が必要な場合があります。たとえば、「最早値」および「最遅値」セレクタには、値の選択元になる最も古いレコードまたは最新のレコードの選択で使用する日付属性が必要です。
-
「オプション」タブで、出力セレクタのオプション(ある場合)を構成します。
-
Null値が含まれる出力属性を許容するかどうかを構成します。このオプションは、属性の出力が自動的に選択されたときにNull値の選択をエラーとみなすかどうかを決定します。出力属性でNullが許容(デフォルト)されている場合は、Null値が選択されても、出力セレクタのルールに従って属性に対してエラーは発生しません。
より複雑なルールを使用して出力データを選択する場合は、使用可能なセットに独自の出力セレクタを追加できます。
出力選択エラー
マージ済出力属性の出力セレクタで、一致グループの入力レコードから有効な値を1つ選択できない場合は、出力選択エラーが発生します。エラーなしのマージ済出力レコードが一致グループから出力できない場合(つまり、マージ済出力レコードに、すべての属性に対するすべての出力選択エラーが含まれる場合)、その一致グループには「失敗」グループとしてフラグが付けられます。この失敗フラグは、一致グループからのデータのマージには手動レビューが必要であることを示します。つまり、自動マージ・ルールで値を選択できなかった場合は、マージ済出力レコードを手動で解決できます。
値が正しく選択された場合でも(失敗したグループでも)出力されるため、選択エラーが発生したマージ済出力レコードが使用可能であることに注意してください。
出力選択エラーの例:
あいまいな選択
出力セレクタで出力値とみなすことができる値が複数検出され、自動的に選択する方法が設定されていない場合は、出力選択エラーが発生し、マージ済出力属性の値が選択されません。たとえば、一致グループの次のレコードから「Date of Birth」(生年月日)出力属性の最も一般的な値を選択する場合は、「関連付けられている場合、空でない値を最初に使用」オプションが選択されていないと、エラーが発生します。
レコード | 生年月日 |
---|---|
A |
01/10/1975 |
B |
01/10/1975 |
C |
10/01/1975 |
D |
10/01/1975 |
前述のケースでは、2つの値が2回ずつ発生しており、最も一般的な値が1つでないため、選択があいまいになります。
Null値を無効とする
マージ済出力属性にNull値を無効とするルールを適用すると、下流処理のためにこの属性の完全性を確保できます。
たとえば、出力セレクタの「Nullの許可」オプションを選択しないと、Postcode属性値が選択できなかったすべてのグループにフラグ付けできます。一致グループ内のすべてのレコードの「Postcode」属性がNull値の場合、Null以外の値は選択されないため、使用する出力セレクタに関係なく、選択エラーが発生します。