照合およびマージに関するよくある質問

照合スコアはどのように計算され、どのように使用しますか。

照合スコアを計算する具体的なメカニズムは、データ型(文字列、整数、日付など)、照合タイプ(「次を含む」、「次と類似」、「次の間」)および照合操作が組み合されているかどうかなどの複数の要因によって決まります。ただし一般に、照合スコアが高いほど、候補について満たされている照合基準が多いことを示します。

照合スコアの計算方法の理解を深めるために、いくつか例を見ていきましょう。

例1

この例では、照合ルールは文字列である「名前」プロパティを基準に照合を行います:


照合スコアの例1

照合先のターゲット名は"Atkins Pearson International"で、一致を見つけようとしているソース名は"Baker H.International"です。

この例では、ターゲット名は28文字であり、ソース名はそのうち17文字("a"、"k"、2つのスペースおよび"International"のすべて)に一致しています。したがって、文字の約61% (17/28)が一致しているため、照合スコアは61になります。

例2

2番目の例では、「名前」と業種の2つの文字列プロパティを基準に照合を行います:


照合スコアの例2

照合先のターゲット名は"Andrews Corporation"で、ターゲット業種は"Diagnostics & Research"です。ソース名は"Andrews"で、ソース業種は"Diagnostics & Research"です。

この場合、ソース名はターゲット名の文字の37% (7/19)に一致し、ソース業種はターゲット業種の100%に一致します。これは組み合された照合であるため、(37+100)/2として平均が計算され、照合スコアは68になります。

その他のデータ型および照合演算子は、同様の計算を実行して照合スコアを決定します。

ロード・ファイルでコードまたはデータ・ソース名を使用する必要がありますか。

データ・ソース情報が含まれている要求ファイルが処理されると、各ノードのデータ・ソースが次の2つの方法で特定されます:

  • データ・ソースに対してコードが構成されている場合は、コードが使用されます。データ・ソースの作成、編集および削除を参照してください。
  • データ・ソースに対してコードが構成されていない場合は、データ・ソース名が使用されます。

データ・ソース名は時間の経過とともに変更される可能性があるため、常にデータ・ソースにコードを構成して、データ・ソース名ではなく、そのコードを要求ファイルで使用することがベスト・プラクティスです。

登録済データ・ソースに生存ルールを作成できますか。

生存ルールは、受け入れた一致の候補の未登録のデータ・ソースからノード・タイプの照合ノードに、どのプロパティおよび関係がマージされるかを決定します。登録済データ・ソースについては、ノード・タイプ・コンバータを使用して、一致の候補から照合ターゲット・ノードにどのようにプロパティおよび関係がマージされるかを決定します。ノード・タイプ・コンバータの操作を参照してください。登録済データ・ソースでは生存ルールを作成する必要はありません。

Tip:

登録済データ・ソースのノード・タイプ・コンバータによって、受け入れられた一致の候補からノード・タイプの照合ノードにマージできるプロパティが決定されますが、それらのプロパティのうちどれをマージするかはユーザーが決定できます。「照合結果」パネルの「ソース・ノード」および「ターゲット・ノード」ラジオ・ボタンを使用して、保持する値を決定します。マージ中に保持するプロパティの選択を参照してください。

照合ルールを作成する場合、ルールに複数の基準を追加するほうがよいですか、それとも個別のルールを作成するほうがよいですか。

特定の識別プロパティごとに個別の照合ルールを使用するか、単一のルール内で複数の基準を使用するかを決定するための最良の方法は、ルールを実装する組織で試してみることです。テスト環境でルールを調整する際、スチュワードは、生成される偽陽性が少ない、より優れたルールはどれかを評価します。

原則として、1つの照合ルールの中で複数の識別プロパティを組み合せて使用した場合は"AND"演算が実行されます。一方、特定の識別プロパティごとに個別のルールを使用した場合は、プロパティの値が一致の決定要因として個別に評価されるため、複数のルールがノード・タイプおよびデータ・ソースの単一の組合せに対して評価されるときには、それらのルールの"OR"演算が実行されます。

組み合せられた1つのルールに複数の基準を追加するのではなく、個別の照合ルールを複数作成するほうが合理的であるシナリオの一つに、特定の照合スコアしきい値を超えた照合ルールを自動で受け入れ、そのしきい値を満たす基準と満たさない基準があることが予想される場合があります。

たとえば、90%を超える一致を自動的に受け入れる場合に、1つは100%が一致し、もう1つは50%が一致する、2つの一致基準があるシナリオを考えてみます:

  • 2つの異なる照合ルールを使用する場合、100%一致の照合ルールは自動的に受け入れられます。
  • 両方の基準を含む1つの照合ルールを使用する場合、平均照合スコアは75%で、これは一致を自動的に受け入れるしきい値である90%より低くなります。この一致は自動的には受け入れられません。

したがって、この例では、基準を組み合せるか、個別の照合ルールを作成するかの判断は、特定のしきい値を超えた一致を自動的に受け入れる必要があるかどうかによって決まります。

意図しない一致を誤って受け入れてしまいました。以前受け入れた一致を確認して元に戻すことはできますか。

照合およびマージされたアイテムを含む要求を完了してクローズすると、既存のノードへの一致およびマージ操作は元に戻せなくなります。要求を完了してクローズするまでは、次の方法で既存のノードへの一致を元に戻せます:

  • (照合ワークベンチで「却下」または「スキップ」をクリックすることで)変更を適用する前に戻します
  • (要求アイテムを削除し、要求アイテムを別途作成することで)変更を適用した後、要求が完了する前に戻します

ただし、要求を完了してクローズした後では、その一致を元に戻せません。保管されている照合情報を削除するには、既存のターゲット・ノードを削除して再度追加する必要があります。

ノード間のノード・リンクはいつ確立されますか。

ノード・リンクは、定義済データ・ソースがある取り込むソース・ノードで既存のターゲット・ノードが更新されたときに、ソース・ノードとターゲット・ノードの間に確立されます。詳細は、ノード・リンクとデータ・ソースの理解を参照してください。