2 Customer Data Services Packのカスタマイズ
この章の内容は次のとおりです。
EDQ-CDSは、最低限のカスタマイズで十分に機能するように設計されています。すぐに使用できるよう、アプリケーションでは、構成の変更をほとんど必要とせずに、接続されたサポート対象アプリケーションの個人、エンティティおよび住所データのキー生成および照合を実行できます。
スタンドアロン・バッチ照合の使用
EDQ-CDSは、外部システムまたはスタンドアロンのソースからの顧客データを処理するように設計されています。デフォルトでは、一連のステージング表を操作する事前構成済のバッチ・ジョブが用意されています。他のソースからのデータ(テキスト・ファイルなど)を処理するように製品を再構成するのは簡単です。
用意されているバッチ・データ照合サービスを再利用するには、データ・インタフェース用に新しい入出力マッピングを作成する必要があります。次の各項では、これを実行する方法と既存のジョブ構成の変更済コピーを使用して照合を実行する方法を説明する例を使用します。
スタンドアロン個人バッチ照合の使用
次の例に示す手順を使用すると、新しいスタンドアロン個人バッチ照合ジョブを作成できます。
-
ジョブが現在実行されていないことを確認します。
-
EDQ-CDSプロジェクトで、処理対象の顧客データが含まれる構造化テキスト・ファイルを指すFile In: Individualsという名前の新しいサーバー側データ・ストアを作成します。これは、ジョブ定義内で使用するためにサーバー側データ・ストアとして作成することが重要です。
-
File In: Individualsデータ・ストアをソースとして使用して、Individualsという名前の新しいスナップショットを作成します。
-
次のように入力マッピングを作成します。
-
「個人候補」を右クリックし、「マッピング」を選択して 「マッピング」ダイアログを開きます。
-
「追加」をクリックして「新規データ・インタフェース・マッピング」ダイアログを開きます。
-
Individualsスナップショットをソースとして選択して「次」をクリックします。「ステージング済データ」デフォルト・タイプが使用されます。
-
次のように、ダイアログの左側の顧客データ属性を右側の属性にマップします。
注意:
場合によっては、スナップショットから読み取り、データ・インタフェースを照合するためにデータを再形成するプロセスを作成する必要があります(「インタフェース書式へのデータの変換」を参照)。
-
「次へ」をクリックします。
-
マッピングにIndividual Candidatesと名前を付けて「終了」をクリックして保存します。
-
「OK」をクリックします。
-
-
Individual Matchesという名前で、「一致」の列に対応する列を持つ新しいステージング済データを作成します。
-
次のように出力マッピングを作成します。
-
「一致」を右クリックし、「マッピング」を選択して 「マッピング」ダイアログを開きます。
-
「追加」をクリックして「新規データ・インタフェース・マッピング」ダイアログを開きます。
-
Individual Matchesステージング済データをターゲットとして選択して「次」をクリックします。
-
必要に応じて、左側の「一致」の属性を右側のIndividual Matchesの属性にマップします。
-
「次へ」をクリックします。
-
マッピングにIndividual Matchesという名前を付けて説明を指定し、「終了」をクリックします。
-
「OK」をクリックし、ダイアログを閉じます。
-
-
照合結果のターゲットとして使用するFile Out: Individual Matchesという新しいサーバー側デリミタ付きテキスト・データ・ストアを作成します。あるいは、必要に応じて、データをデータベースに書き込めます。
-
「一致」をエクスポートのソースとして、File Out: Individual Matchesをエクスポートのターゲットとして使用するMatches to File Out: Individual Matchesという新しいエクスポートを作成します。
-
次のように、照合を実行するジョブを作成して構成します。
-
バッチ個人照合ジョブのコピーを作成し、名前をBatch Individual Match using Text Fileに変更して開きます。
-
個人照合ジョブ・フェーズを開き、Individual CandidatesをダブルクリックしてIndividual Candidatesマッピングを選択し、入力データのソースを変更します。
-
「OK」をクリックして変更を保存します。それに応じてジョブ構成が変更され、古いスナップショットおよびステージング済データ項目が切断されます。
-
個人候補スナップショット・タスクを削除します。
-
Individualsスナップショットを「ツール・パレット」の「スナップショット」から開いているジョブ・フェーズにドラッグし、必ずIndividual Candidatesマッピングに接続します。
-
Matches to File Out: Individual Matchesエクスポート・タスクを「ツール・パレット」の「エクスポート」から開いているジョブ・フェーズにドラッグし、Match Results - Outputに接続します。
-
Batch Matchesエクスポート・タスクを削除します。
-
-
ジョブを閉じ、構成の変更を保存します。
インタフェース書式へのデータの変換
次の場合、必ずしも入力ソースを候補インタフェースに直接マップできるわけではありません。
-
フィールドが誤ったデータ型である場合(日付フィールドの"生年月日"など)。または
-
フィールドが互換性のある書式/構造に変換する必要がある場合(フルネーム・フィールドの個人名など)。
その場合は、入力データをカスタムEDQプロセスに通して、次の例の手順に示すようにデータを適切に変換する必要があります。
-
ジョブが現在実行されていないことを確認します。
-
「スタンドアロン・バッチ照合の使用」の手順2および手順3に示すように、入力データについてデータ・ストアおよびスナップショットを作成します。
-
EDQ-CDSプロジェクトのプロジェクト・ブラウザで「プロセス」ノードを右クリックし、「新規プロセス」を選択して新規プロセス・ウィザードを開きます。
-
手順2で作成したスナップショットをデータ・ソースとして選択します。
-
「次へ」をクリックします。
-
ウィザードの最後のページで、プロセスの名前をTransform Individualsに変更し、「終了」ボタンをクリックしてプロセスを作成します。
-
「プロセス」キャンバスで、データをインタフェース書式に変換するために必要なプロセッサを追加します。たとえば、日付書式の生年月日を候補インタフェースに必要な書式(yyyyMMdd、MM/dd/yyyy、yyyy-MM-dd、dd-MMM-yyなど)に変換するには、「日付を文字列に変換」プロセッサを使用します。
-
「ライター」プロセッサをプロセス・キャンバスに追加し、プロセス・データ・ストリームに接続します。
-
「ライター構成」ダイアログで、「Individual Candidates」を選択し、属性を適宜マップします。
-
次のように、新しいジョブを作成して構成します。
-
バッチ個人照合ジョブのコピーを作成し、名前をBatch Transformed Individual Matchに変更します。
-
新しいジョブを開きます。
-
個人照合ジョブ・フェーズをダブルクリックします。
-
「スタンドアロン・バッチ照合の使用」の手順9d - 手順10を使用し、手順9d以降、新しいTransform IndividualsプロセスをIndividualsスナップショットと入力 - 準備 - 個人プロセスの間に追加します。その結果、ジョブは次のようになります。
-
クリーニング・サービスの使用
EDQ-CDSに用意されているクリーニング・プロセスは、テンプレートにすぎません(ただし、完全に機能し、住所の検証および標準化にEDQ-AVを使用する住所クリーニング・プロセスを除きます)。個人およびエンティティのクリーニング・プロセスは、実装のデータ標準化要件に合うようにカスタマイズすることを意図して作成されています。
照合の調整
この項では、EDQ照合設定の変更方法について説明します。
照合時に使用するためのキー・メソッドの変更
キーは、類似レコードを事前に選択するために照合の第1段階として使用します。これは、バッチ照合の場合はEDQ内で、またリアルタイム照合の場合は候補選択時にコール元アプリケーションで発生ます。
デフォルトでは、照合時に使用されるキー・メソッドはkeyprofile
設定の値に応じて異なります。キー・プロファイルではキー・メソッドの有効/無効を指定し、EDQ-CDSでより広範なキー・メソッド・アルゴリズムのメニューを提供できます。
使用する照合キー・メソッドを制御するための方法は、バッチ処理とリアルタイム処理で異なります。次の各項では、使用するキー・メソッドの変更方法を示す例を示します。
一致ルールの有効化の変更
一致ルールの有効化は、このリリースで外部化されています。edq-cds.properties
ファイルにname...address conflict
プロパティを追加してから、次の例のように値を編集してこの動作をオーバーライドすることができます。
# Disable all entity "name...address conflict" type rules. phase.*.process.Match\ -\ Entity.[E010V]\ Script\ full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false phase.*.process.Match\ -\ Entity.[E020V]\ Full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false phase.*.process.Match\ -\ Entity.[E030V]\ Standardized\ full\ name\ exact\;\ address\ conflict.entity_match_rules_enabled = false phase.*.process.Match\ -\ Entity.[E040V]\ Script\ full\ name\ without\ suffixes\ exact\;\ address\ conflict.entity_match_rules_enabled = false phase.*.process.Match\ -\ Entity.[E050V]\ Full\ name\ without\ suffixes\ exact\;\ address\ conflict.entity_match_rules_enabled = false
大文字と小文字を区別する必要があり、必要に応じて文字をエスケープする必要があります。アスタリスク(*
)文字はワイルドカードを意味します。これにより、前述のルールがすべてのフェーズおよびすべてのプロセスに適用されることを指定します。
未使用の照合機能をオフにする
matchthreshold
設定の値は、指定したしきい値を下回る結果を除外することで、照合サービスから返される照合の強度の管理に使用されます。この値を下回る優先度スコアを持つ一致ルールは実質使用されません。
また、照合プロセスはデフォルト構成では使用されないため機能を失うことなく削除することができる多くの追加属性を出力します。これらの属性は、EDQ-CDSのカスタマイズで使用するために必要な場合があります。詳細は、「未使用の照合機能をオフにする」を参照してください。
低スコアのルールを無効化
matchthreshold
設定は、値が70
で構成されているため、優先度が低いスコアのすべての一致ルールが無効化されます。
次の手順の例は、あらゆる照合プロセスの一致ルールを無効化する方法を示します(たとえば、照合 - 個人、照合 - エンティティまたは照合 - アドレス)。
-
ジョブが現在実行されていないことを確認します。
-
EDQ-CDSプロジェクトで、照合プロセスを開きます。
-
照合プロセッサをダブルクリックして一致構成タブを開きます。
-
「一致」サブプロセッサ・アイコンをダブル・クリックし、照合構成ダイアログを開きます。
-
「一致ルール」タブを選択し、最後の「一致」グループを選択します。
-
一致優先度スコアが
70
未満の各「一致ルール」の横のチェックボックスをクリアして無効化します。 -
スコアが
70
未満のすべてのルールが無効になるまで「一致」グループごとに繰り返します。 -
「OK」をクリックし、ダイアログを閉じます。
-
プロセスを閉じ、構成の変更を保存します。
EDQでの一致のレビュー
EDQ-CDS照合サービスでは、matchthreshold
設定以上のスコアで一致したレコードのみを戻し、そのようなレコードについてレコードID、ルール名およびスコアのみを戻します。一致を分析するために、ルールのチューニング時にレコードの全詳細が表示できると便利です。「一致レビュー」アプリケーションは、このプロセスにおいて有用なツールです。
個人バッチ照合での一致レビューの有効化
次の例の手順に示すように、個人バッチ照合に対して一致レビューを有効にできます。
-
ジョブが現在実行されていないことを確認します。
-
EDQ-CDSプロジェクトで、照合 - 個人プロセスを開きます。
-
個人の照合プロセッサをダブルクリックして照合の構成ダイアログを開きます。
-
「拡張オプション」をクリックします。
-
「レビュー・システム」リストから、「一致レビュー」を選択して「OK」をクリックします。これで、「関係レビューの割当て」オプションがアクティブになります。
-
「関係レビューの割当て」をクリックします。
-
表示されたダイアログの「割当先」ドロップダウン・フィールドで、適切なユーザーまたはユーザー・グループを選択します。
-
「OK」をクリックし、ダイアログを閉じます。
-
プロセスを閉じ、構成の変更を保存します。
-
バッチ個人照合ジョブを開きます。
-
照合フェーズを探し、照合準備タスクを右クリックして「構成」を選択します。「タスク構成」ダイアログが開きます。
-
「プロセス」タブを選択し、「照合でのソート/フィルタを有効化?」オプションを選択します。
-
要求されたら、OK」をクリックしてジョブを閉じ、変更を保存します。
-
適切な実行プロファイルを使用して実行ラベルなしでディレクタからジョブを実行し、データを再生成します。
注意:
「一致レビュー」データを生成するには、実行ラベルなしでジョブを実行する必要があります。
次のように、一致をレビューできます。
照合で使用する参照データの変更
この項では、データを変更して照合を向上させる方法について説明し、役立つ例を示します。
名前フィールドからの単語/語句の削除
システムをカスタマイズして、ノイズであると考えられたり、情報がまったく追加されないために可能性がある一致なしとなる名前から特定の単語および語句を削除できます。
個人名からのノイズの削除
顧客データ・システムの名前フィールドは、他に適した使用可能なフィールドがなかったり、データ入力ユーザーが犯した間違いのために、他(名前以外)の情報であふれていることがよくあります。一般的な例として、"Fred SMITH (DO NOT CALL)"や"John DOE (DECEASED)"があります。この的外れの情報は、照合で使用するために"精製された"名前が作成される場合、名前の標準化時に削除できます。
次の例の手順を使用して、個人名からノイズを削除します。
注意:
リアルタイム・サービスでは、変更された参照データ・セットを(ファイルから準備された参照データのスナップショットを再作成する)完全なリアルタイムSTART ALLジョブの次回実行時に使用します。
ラテン語以外のスクリプトで個人名から単語および語句を削除するには、削除リスト - 個人スクリプト削除リスト参照データを使用します。この参照データ・セットは、置換マップとして使用され、2列目が空白値である必要があります。
エンティティ名からのノイズの削除
照合で価値をまったく付加しないエンティティ名のノイズの単語および語句または一般的なビジネス用語(接尾辞を含む)は、"精製された"名前が作成される場合、名前の標準化時に削除できます。このようなノイズの単語の例として、"International"があり、組織名フィールドでよく見られます。
この用語の出現頻度が高いため、名前の入力時にしばしば省略または短縮され、可能性がある一致なしとなることがあります。したがって、照合のためには、この用語と判明しているすべての異形を削除することがより適切な場合があります。
次の例の手順を使用して、エンティティ名からノイズを削除します。
ラテン語以外のスクリプトでエンティティ名から単語および語句を削除するには、削除リスト - エンティティ・スクリプト接尾辞参照データを使用します。
名前の標準化の変更
EDQ-CDSでは、名前の異形と照合するために名前の標準化技術を使用します。各種言語ドメイン用に大量の一般的な名前の異形が提供されています。これらのリストをカスタマイズできます。
注意:
名前の標準化を変更または追加すると、その後の結果は競合解消時に除去されることがあります。詳細は、「競合の解消」を参照してください。
競合の解消
競合解消は、名前の標準化ルールで名前を複数のマスター名に標準化しようとした場合に発生する問題を解決するために実行します。たとえば、"Jon"をマスターである"John"にマップするルールと、"Jon"を"John-Boy"にマップする別のルールがある場合、競合が存在します。この競合は、特定の標準化データで各マスター名の重要性を評価することで解決します。その後、最良の候補がプライマリ・マスターとして選択され、それと競合する他の標準化マップは、取り除かれ隔離されます。
競合解消の一環として、取り除かれた各レコードには、競合の理由を説明する理由コードが1つ以上割り当てられます。これらのコードは、サーバー・コンソールの「結果」ウィンドウのREASON列に表示されます。
理由コードは次のとおりです。
-
PIV: レコード群のプライマリ・レコード(一連の同等のものに対して特定された最良のマスターなど)は、他のマスターに対する異形でもあります。このプライマリ名が異形であるインスタンスはすべて取り除かれます。
-
PVOM: 現在のプライマリの異形であるレコードは他のマスターの異形でもあります。他のマスターを指すこのような異形に関するレコードはすべて取り除かれます。
-
PVIM: 現在のプライマリの異形であるレコードは他の異形に対するマスターでもあります。この異形がマスターであるレコードはすべて取り除かれます。
-
PIVCUTOFF: 他の除去はプライマリ群の特定後に行われますが、プライマリの特定を続行することが効率的ではない時期がくるので、マスター名が異形としても存在する残りのレコードでは、整合性に違反するレコードの最終的な選別ですべての異形が取り除かれます。
この項の冒頭で示した単純な例について詳しく述べるにあたり、次の名前の標準化ルールが存在すると仮定します。
マスター | プライマリ |
---|---|
J-MAN |
JON |
JOHN |
JONATHAN |
JOHNNY |
JONNY |
JON |
JOHN |
JON |
JONATHAN |
JON |
JOHN-BOY |
JONNY |
JONATHAN |
JONATHAN |
JONATHON |
JOHNNY |
JONATHAN |
これらのルールには、固有の競合が数多く含まれています。これを次の図に示すと、JONATHANはプライマリとして識別されます。
矢印は次のことを示します。
矢印タイプ | 競合の理由 |
---|---|
![]() |
該当なし(競合は存在せず) |
![]() |
PIV |
![]() |
PVIM |
![]() |
PVOM |
競合解消ルールにより、次のように、競合の原因となるマッピングは破棄されます。
次のマッピングが作成されます。
名前 | プライマリ |
---|---|
JOHN |
JONATHAN |
JON |
JONATHAN |
JONNY |
JONATHAN |
JOHNNY |
JONATHAN |