Customer Data Services Packのカスタマイズ

2 Customer Data Services Packのカスタマイズ

この章では、EDQ-CDSをカスタマイズして製品のより高度な機能のいくつかを利用する方法について説明します。

この章の内容は次のとおりです。

EDQ-CDSは、最低限のカスタマイズで十分に機能するように設計されています。すぐに使用できるよう、アプリケーションでは、構成の変更をほとんど必要とせずに、接続されたサポート対象アプリケーションの個人、エンティティおよび住所データのキー生成および照合を実行できます。

スタンドアロン・バッチ照合の使用

EDQ-CDSは、外部システムまたはスタンドアロンのソースからの顧客データを処理するように設計されています。デフォルトでは、一連のステージング表を操作する事前構成済のバッチ・ジョブが用意されています。他のソースからのデータ(テキスト・ファイルなど)を処理するように製品を再構成するのは簡単です。

用意されているバッチ・データ照合サービスを再利用するには、データ・インタフェース用に新しい入出力マッピングを作成する必要があります。次の各項では、これを実行する方法と既存のジョブ構成の変更済コピーを使用して照合を実行する方法を説明する例を使用します。

スタンドアロン個人バッチ照合の使用

次の例に示す手順を使用すると、新しいスタンドアロン個人バッチ照合ジョブを作成できます。

ジョブが現在実行されていないことを確認します。
EDQ-CDSプロジェクトで、処理対象の顧客データが含まれる構造化テキスト・ファイルを指すFile In: Individualsという名前の新しいサーバー側データ・ストアを作成します。これは、ジョブ定義内で使用するためにサーバー側データ・ストアとして作成することが重要です。
File In: Individualsデータ・ストアをソースとして使用して、Individualsという名前の新しいスナップショットを作成します。
次のように入力マッピングを作成します。
1. 「個人候補」を右クリックし、「マッピング」を選択して「マッピング」ダイアログを開きます。
  
  図data_intface_config2.pngの説明
2. 「追加」をクリックして「新規データ・インタフェース・マッピング」ダイアログを開きます。
3. Individualsスナップショットをソースとして選択して「次」をクリックします。「ステージング済データ」デフォルト・タイプが使用されます。
4. 次のように、ダイアログの左側の顧客データ属性を右側の属性にマップします。
  
  図new_data_intface_map.pngの説明
  
  注意:
  
  場合によっては、スナップショットから読み取り、データ・インタフェースを照合するためにデータを再形成するプロセスを作成する必要があります(「インタフェース書式へのデータの変換」を参照)。
5. 「次へ」をクリックします。
6. マッピングにIndividual Candidatesと名前を付けて「終了」をクリックして保存します。
7. 「OK」をクリックします。
Individual Matchesという名前で、「一致」の列に対応する列を持つ新しいステージング済データを作成します。
次のように出力マッピングを作成します。
1. 「一致」を右クリックし、「マッピング」を選択して「マッピング」ダイアログを開きます。
2. 「追加」をクリックして「新規データ・インタフェース・マッピング」ダイアログを開きます。
3. Individual Matchesステージング済データをターゲットとして選択して「次」をクリックします。
4. 必要に応じて、左側の「一致」の属性を右側のIndividual Matchesの属性にマップします。
5. 「次へ」をクリックします。
6. マッピングにIndividual Matchesという名前を付けて説明を指定し、「終了」をクリックします。
7. 「OK」をクリックし、ダイアログを閉じます。
照合結果のターゲットとして使用するFile Out: Individual Matchesという新しいサーバー側デリミタ付きテキスト・データ・ストアを作成します。あるいは、必要に応じて、データをデータベースに書き込めます。
「一致」をエクスポートのソースとして、File Out: Individual Matchesをエクスポートのターゲットとして使用するMatches to File Out: Individual Matchesという新しいエクスポートを作成します。
次のように、照合を実行するジョブを作成して構成します。
1. バッチ個人照合ジョブのコピーを作成し、名前をBatch Individual Match using Text Fileに変更して開きます。
2. 個人照合ジョブ・フェーズを開き、Individual CandidatesをダブルクリックしてIndividual Candidatesマッピングを選択し、入力データのソースを変更します。
  
  図data_intface_config1.pngの説明
3. 「OK」をクリックして変更を保存します。それに応じてジョブ構成が変更され、古いスナップショットおよびステージング済データ項目が切断されます。
4. 個人候補スナップショット・タスクを削除します。
5. Individualsスナップショットを「ツール・パレット」の「スナップショット」から開いているジョブ・フェーズにドラッグし、必ずIndividual Candidatesマッピングに接続します。
  
  図indiv_match_job.pngの説明
6. Matches to File Out: Individual Matchesエクスポート・タスクを「ツール・パレット」の「エクスポート」から開いているジョブ・フェーズにドラッグし、Match Results - Outputに接続します。
7. Batch Matchesエクスポート・タスクを削除します。
  
  図indiv_1_match_job1.jpg
ジョブを閉じ、構成の変更を保存します。

インタフェース書式へのデータの変換

次の場合、必ずしも入力ソースを候補インタフェースに直接マップできるわけではありません。

フィールドが誤ったデータ型である場合(日付フィールドの"生年月日"など)。または
フィールドが互換性のある書式/構造に変換する必要がある場合(フルネーム・フィールドの個人名など)。

その場合は、入力データをカスタムEDQプロセスに通して、次の例の手順に示すようにデータを適切に変換する必要があります。

ジョブが現在実行されていないことを確認します。
「スタンドアロン・バッチ照合の使用」の手順2および手順3に示すように、入力データについてデータ・ストアおよびスナップショットを作成します。
EDQ-CDSプロジェクトのプロジェクト・ブラウザで「プロセス」ノードを右クリックし、「新規プロセス」を選択して新規プロセス・ウィザードを開きます。
手順2で作成したスナップショットをデータ・ソースとして選択します。
「次へ」をクリックします。
ウィザードの最後のページで、プロセスの名前をTransform Individualsに変更し、「終了」ボタンをクリックしてプロセスを作成します。
「プロセス」キャンバスで、データをインタフェース書式に変換するために必要なプロセッサを追加します。たとえば、日付書式の生年月日を候補インタフェースに必要な書式(yyyyMMdd、MM/dd/yyyy、yyyy-MM-dd、dd-MMM-yyなど)に変換するには、「日付を文字列に変換」プロセッサを使用します。
「ライター」プロセッサをプロセス・キャンバスに追加し、プロセス・データ・ストリームに接続します。

図convert_data_ex.pngの説明
「ライター構成」ダイアログで、「Individual Candidates」を選択し、属性を適宜マップします。
次のように、新しいジョブを作成して構成します。
1. バッチ個人照合ジョブのコピーを作成し、名前をBatch Transformed Individual Matchに変更します。
2. 新しいジョブを開きます。
3. 個人照合ジョブ・フェーズをダブルクリックします。
4. 「スタンドアロン・バッチ照合の使用」の手順9d - 手順10を使用し、手順9d以降、新しいTransform IndividualsプロセスをIndividualsスナップショットと入力 - 準備 - 個人プロセスの間に追加します。その結果、ジョブは次のようになります。
  
  図startjob_phase_ex.pngの説明

クリーニング・サービスの使用

EDQ-CDSに用意されているクリーニング・プロセスは、テンプレートにすぎません(ただし、完全に機能し、住所の検証および標準化にEDQ-AVを使用する住所クリーニング・プロセスを除きます)。個人およびエンティティのクリーニング・プロセスは、実装のデータ標準化要件に合うようにカスタマイズすることを意図して作成されています。

クリーニング・サービスのカスタマイズ

次の各項の例では、EDQ-CDSに用意されているクリーニング・サービスの変更について説明します。

役職の標準化

次の例の手順に示すように、個人クリーニング・サービスを変更して役職を標準化します。

ジョブが現在実行されていないことを確認します。
EDQ-CDSプロジェクトで、次のような列で構成される新しい参照データ・セットを作成します。

図new_ref_data.pngの説明
「次」をクリックして新規参照データウィザードを移動し、Job Title Standardizationsという名前を付けます。
「終了」をクリックして、ウィザードを閉じます。「参照データ・エディタ」ダイアログが開きます。
次のように、必要な役職の標準化を追加します。

図ref_data_edit_job.pngの説明
クリーニング - 個人プロセスを開きます。
新しい「置換」プロセッサをプロセス・キャンバスに追加し、名前属性の大文字化プロセッサの出力に接続します。
プロセッサ構成ダイアログで、jobtitle属性を入力フィールドとして設定し、「オプション」タブの「置換」フィールドでJob Title Standardizations参照データを選択します。

図replace_dialog.pngの説明
「OK」をクリックしてプロセッサ構成ダイアログを閉じます。
「置換」プロセッサの「すべて」出力を「ライター」に接続し、「ライター」の構成をまったく変更せずに「OK」をクリックします。
プロセス・キャンバスで、「大文字」プロセッサと「ライター」間の直接リンクを削除します。

図job_title_ex.pngの説明
プロセスを閉じ、変更を保存します。
変更したクリーニング・サービスをテストします。

国固有の住所クリーニング設定の変更

EDQ-AVを使用する住所クリーニング・プロセスで使用されるデフォルト設定(許容検証結果、最小検証レベルおよび最小一致スコア)は、参照データを変更するだけで国単位にオーバーライドできます。

ドイツの住所検証の厳密性の軽減

次の例の手順に示すように、EDQ-AV設定を変更し、ドイツの住所がどの程度厳密に検証されるかを軽減します。

ジョブが現在実行されていないことを確認します。
EDQ-CDSプロジェクトで、住所クリーニング - 国の検証レベルおよび結果参照データを編集します。
次の行を追加します。
- 国コード: DE
- 許容検証結果: VPA
- 最小検証レベル: 3
- 最小一致スコア: 90
  
  図ref_data_addr_clean.pngの説明
「OK」をクリックし、ダイアログを閉じます。

照合の調整

この項では、EDQ照合設定の変更方法について説明します。

照合時に使用するためのキー・メソッドの変更

キーは、類似レコードを事前に選択するために照合の第1段階として使用します。これは、バッチ照合の場合はEDQ内で、またリアルタイム照合の場合は候補選択時にコール元アプリケーションで発生ます。

デフォルトでは、照合時に使用されるキー・メソッドはkeyprofile設定の値に応じて異なります。キー・プロファイルではキー・メソッドの有効/無効を指定し、EDQ-CDSでより広範なキー・メソッド・アルゴリズムのメニューを提供できます。

使用する照合キー・メソッドを制御するための方法は、バッチ処理とリアルタイム処理で異なります。次の各項では、使用するキー・メソッドの変更方法を示す例を示します。

一致ルールの有効化の変更

一致ルールの有効化は、このリリースで外部化されています。edq-cds.propertiesファイルにname...address conflictプロパティを追加してから、次の例のように値を編集してこの動作をオーバーライドすることができます。

# Disable all entity "name...address conflict" type rules.
phase.*.process.Match\ -\ Entity.[E010V]\ Script\ full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false
phase.*.process.Match\ -\ Entity.[E020V]\ Full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false
phase.*.process.Match\ -\ Entity.[E030V]\ Standardized\ full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false
phase.*.process.Match\ -\ Entity.[E040V]\ Script\ full\ name\ without\ suffixes\ exact\;\ address\ conflict.entity_match_rules_enabled = false
phase.*.process.Match\ -\ Entity.[E050V]\ Full\ name\ without\ suffixes\ exact\;\ address\ conflict.entity_match_rules_enabled = false

大文字と小文字を区別する必要があり、必要に応じて文字をエスケープする必要があります。アスタリスク(*)文字はワイルドカードを意味します。これにより、前述のルールがすべてのフェーズおよびすべてのプロセスに適用されることを指定します。

未使用の照合機能をオフにする

matchthreshold設定の値は、指定したしきい値を下回る結果を除外することで、照合サービスから返される照合の強度の管理に使用されます。この値を下回る優先度スコアを持つ一致ルールは実質使用されません。

また、照合プロセスはデフォルト構成では使用されないため機能を失うことなく削除することができる多くの追加属性を出力します。これらの属性は、EDQ-CDSのカスタマイズで使用するために必要な場合があります。詳細は、「未使用の照合機能をオフにする」を参照してください。

低スコアのルールを無効化

matchthreshold設定は、値が70で構成されているため、優先度が低いスコアのすべての一致ルールが無効化されます。

次の手順の例は、あらゆる照合プロセスの一致ルールを無効化する方法を示します(たとえば、照合 - 個人、照合 - エンティティまたは照合 - アドレス)。

ジョブが現在実行されていないことを確認します。
EDQ-CDSプロジェクトで、照合プロセスを開きます。
照合プロセッサをダブルクリックして一致構成タブを開きます。
「一致」サブプロセッサ・アイコンをダブル・クリックし、照合構成ダイアログを開きます。
「一致ルール」タブを選択し、最後の「一致」グループを選択します。
一致優先度スコアが70未満の各「一致ルール」の横のチェックボックスをクリアして無効化します。

図match_rule_boxes.pngの説明
スコアが70未満のすべてのルールが無効になるまで「一致」グループごとに繰り返します。
「OK」をクリックし、ダイアログを閉じます。
プロセスを閉じ、構成の変更を保存します。

EDQでの一致のレビュー

EDQ-CDS照合サービスでは、matchthreshold設定以上のスコアで一致したレコードのみを戻し、そのようなレコードについてレコードID、ルール名およびスコアのみを戻します。一致を分析するために、ルールのチューニング時にレコードの全詳細が表示できると便利です。「一致レビュー」アプリケーションは、このプロセスにおいて有用なツールです。

個人バッチ照合での一致レビューの有効化

次の例の手順に示すように、個人バッチ照合に対して一致レビューを有効にできます。

ジョブが現在実行されていないことを確認します。
EDQ-CDSプロジェクトで、照合 - 個人プロセスを開きます。
個人の照合プロセッサをダブルクリックして照合の構成ダイアログを開きます。
「拡張オプション」をクリックします。
「レビュー・システム」リストから、「一致レビュー」を選択して「OK」をクリックします。これで、「関係レビューの割当て」オプションがアクティブになります。
「関係レビューの割当て」をクリックします。
表示されたダイアログの「割当先」ドロップダウン・フィールドで、適切なユーザーまたはユーザー・グループを選択します。
「OK」をクリックし、ダイアログを閉じます。
プロセスを閉じ、構成の変更を保存します。
バッチ個人照合ジョブを開きます。
照合フェーズを探し、照合準備タスクを右クリックして「構成」を選択します。「タスク構成」ダイアログが開きます。
「プロセス」タブを選択し、「照合でのソート/フィルタを有効化?」オプションを選択します。
要求されたら、OK」をクリックしてジョブを閉じ、変更を保存します。
適切な実行プロファイルを使用して実行ラベルなしでディレクタからジョブを実行し、データを再生成します。

注意:

「一致レビュー」データを生成するには、実行ラベルなしでジョブを実行する必要があります。

次のように、一致をレビューできます。

「Launchpad」ページで、「一致レビュー」アイコンをクリックします。

注意:

このアプリケーションが表示されない場合は、launchpadサーバー構成ページを使用して公開する必要があります。
適切なセキュリティ権限を持つユーザー(手順5で選択したグループのメンバーであるユーザーなど)としてログインします。
左側のパネルの「レビュー」リストで「照合 - 個人」を選択し、「一致レビュー」統計を表示します。
「レビュー・アプリケーションの起動」リンクをクリックし、選択したレビューについて一致のレビューを開始します。

照合で使用する参照データの変更

この項では、データを変更して照合を向上させる方法について説明し、役立つ例を示します。

名前フィールドからの単語/語句の削除

システムをカスタマイズして、ノイズであると考えられたり、情報がまったく追加されないために可能性がある一致なしとなる名前から特定の単語および語句を削除できます。

個人名からのノイズの削除

顧客データ・システムの名前フィールドは、他に適した使用可能なフィールドがなかったり、データ入力ユーザーが犯した間違いのために、他(名前以外)の情報であふれていることがよくあります。一般的な例として、"Fred SMITH (DO NOT CALL)"や"John DOE (DECEASED)"があります。この的外れの情報は、照合で使用するために"精製された"名前が作成される場合、名前の標準化時に削除できます。

次の例の手順を使用して、個人名からノイズを削除します。

ジョブが現在実行されていないことを確認します。
EDQ-CDS - 参照データの初期化プロジェクトで、削除リスト - タイトル(ラテン)参照データを開きます。
次の行を参照データ・セットに追加します。
- DO NOT CALL
- DECEASED
「OK」をクリックし、ダイアログを閉じます。
MAIN参照データの初期化ジョブをサーバー・コンソールから再度実行し、照合サービスで使用する参照データのファイルを再度準備します。

注意:

リアルタイム・サービスでは、変更された参照データ・セットを(ファイルから準備された参照データのスナップショットを再作成する)完全なリアルタイムSTART ALLジョブの次回実行時に使用します。

ラテン語以外のスクリプトで個人名から単語および語句を削除するには、削除リスト - 個人スクリプト削除リスト参照データを使用します。この参照データ・セットは、置換マップとして使用され、2列目が空白値である必要があります。

エンティティ名からのノイズの削除

照合で価値をまったく付加しないエンティティ名のノイズの単語および語句または一般的なビジネス用語(接尾辞を含む)は、"精製された"名前が作成される場合、名前の標準化時に削除できます。このようなノイズの単語の例として、"International"があり、組織名フィールドでよく見られます。

この用語の出現頻度が高いため、名前の入力時にしばしば省略または短縮され、可能性がある一致なしとなることがあります。したがって、照合のためには、この用語と判明しているすべての異形を削除することがより適切な場合があります。

次の例の手順を使用して、エンティティ名からノイズを削除します。

ジョブが現在実行されていないことを確認します。
EDQ-CDS - 参照データの初期化プロジェクトで、削除リスト - エンティティ(ラテン)参照データを開きます。
次の行を参照データ・セットに追加します。
- INTERNTL
- INTL
- INT
「OK」をクリックし、ダイアログを閉じます。
MAIN参照データの初期化ジョブをサーバー・コンソールから再度実行し、データを準備します。

ラテン語以外のスクリプトでエンティティ名から単語および語句を削除するには、削除リスト - エンティティ・スクリプト接尾辞参照データを使用します。

名前の標準化の変更

EDQ-CDSでは、名前の異形と照合するために名前の標準化技術を使用します。各種言語ドメイン用に大量の一般的な名前の異形が提供されています。これらのリストをカスタマイズできます。

注意:

名前の標準化を変更または追加すると、その後の結果は競合解消時に除去されることがあります。詳細は、「競合の解消」を参照してください。

個人名の標準化の追加

ジョブが現在実行されていないことを確認します。
EDQ-CDS - 参照データの初期化プロジェクトで、次のような列で構成される新しい参照データ・セットを作成します。

図new_ref_data_individ.pngの説明
「次」をクリックして新規参照データウィザードを移動し、Custom Individual Name Standardizationsという名前を付けます。
「終了」をクリックし、ダイアログを閉じます。
「参照データ・エディタ」ダイアログが開きます。次のように、必要な名前の標準化を追加します。
- VARIANTLATINNAMEは、標準化される名前です。
- MASTERLATINNAMEは、標準化された異形の名前です。
- GENDERは、男性の場合は値M、女性の場合はF、不明またはあいまいな場合はUを取ります。
- ISPHRASEは、単一トークン名の場合は値N、空白が含まれる複数トークン名の場合はYを取ります。
- ISHIGHFREQは、Yに設定します。
注意:

必ずデータを大文字で入力することと、異形の名前にはすべての言語ドメインにおいてマスターが1つしかないことを確認することが重要です。

図ref_data_names.pngの説明
「OK」をクリックし、ダイアログを閉じます。
[D] 個人(ラテン語)をラテン語データに初期化プロセスを開きます。
「リーダー」プロセスをプロセス・キャンバスに追加し、プロセスに対する入力にすべての属性を選択してCustom Individual Name Standardizations参照データをソースとして使用するように構成します。

図reader_config.pngの説明
新しい「文字列属性の追加」プロセッサをプロセス・キャンバスに追加して、リーダーを新しいプロセッサに接続します。プロセッサ構成ダイアログで、新しい属性DATASOURCEの名前を変更し、属性値をCUSTOMに設定します。
「文字列属性の追加」プロセッサの出力を「データ・ストリームのマージ」プロセッサに接続します。
プロセッサ構成ダイアログのカスタム個人名の標準化タブの「データ・ストリームのマージ」領域で、使用可能な属性を出力属性と関連付けます。

図merge_data_streams.pngの説明
「OK」をクリックし、ダイアログを閉じます。
プロセスを閉じ、構成の変更を保存します。
MAIN参照データの初期化ジョブをサーバー・コンソールから再度実行し、データを準備します。

競合の解消

競合解消は、名前の標準化ルールで名前を複数のマスター名に標準化しようとした場合に発生する問題を解決するために実行します。たとえば、"Jon"をマスターである"John"にマップするルールと、"Jon"を"John-Boy"にマップする別のルールがある場合、競合が存在します。この競合は、特定の標準化データで各マスター名の重要性を評価することで解決します。その後、最良の候補がプライマリ・マスターとして選択され、それと競合する他の標準化マップは、取り除かれ隔離されます。

競合解消の一環として、取り除かれた各レコードには、競合の理由を説明する理由コードが1つ以上割り当てられます。これらのコードは、サーバー・コンソールの「結果」ウィンドウのREASON列に表示されます。

図reason_code.pngの説明

理由コードは次のとおりです。

PIV: レコード群のプライマリ・レコード(一連の同等のものに対して特定された最良のマスターなど)は、他のマスターに対する異形でもあります。このプライマリ名が異形であるインスタンスはすべて取り除かれます。
PVOM: 現在のプライマリの異形であるレコードは他のマスターの異形でもあります。他のマスターを指すこのような異形に関するレコードはすべて取り除かれます。
PVIM: 現在のプライマリの異形であるレコードは他の異形に対するマスターでもあります。この異形がマスターであるレコードはすべて取り除かれます。
PIVCUTOFF: 他の除去はプライマリ群の特定後に行われますが、プライマリの特定を続行することが効率的ではない時期がくるので、マスター名が異形としても存在する残りのレコードでは、整合性に違反するレコードの最終的な選別ですべての異形が取り除かれます。

この項の冒頭で示した単純な例について詳しく述べるにあたり、次の名前の標準化ルールが存在すると仮定します。