匹配分数是如何计算的,如何使用它们?
匹配分数的确切计算机制取决于多个因素,例如数据类型(字符串、整数、日期等)、匹配类型(包含、类似于、介于)以及是否组合使用了多个匹配运算。但总体而言,匹配分数越高,表明候选者满足的匹配条件越多。
让我们看一些示例,以便更好地理解匹配分数是如何计算的。
示例 1
在此示例中,匹配规则对 "Name" 属性进行匹配,该属性是一个字符串:
我们要匹配的目标名称是 "Atkins Pearson International",我们尝试匹配的源名称是 "Baker H.International"。
在此示例中,目标名称有 28 个字符,源名称与其中的 17 个字符匹配("a"、"k"、两个空格以及 "International" 的全部字符)。因此,大约有 61% (17/28) 的字符匹配,匹配分数为 61。
示例 2
在第二个示例中,我们对两个字符串属性 "Name" 和 "Industry" 进行匹配:
我们要匹配的目标名称是 "Andrews Corporation",目标行业是 "Diagnostics & Research";源名称是 "Andrews",源行业是 "Diagnostics & Research"。
在本例中,源名称与目标名称的字符匹配率为 37%(19 个字符中匹配了 7个),而源行业与目标行业的匹配率为 100%。由于这是组合匹配,因此取平均值 (37+100)/2,匹配分数为 68。
其他数据类型和匹配运算符执行类似的计算来确定匹配分数。
在加载文件中,我应该使用代码还是数据源名称?
处理包含数据源信息的请求文件时,每个节点的数据源以两种方式标识:
由于数据源名称可能会随着时间的推移而改变,因此最佳做法是始终为数据源配置代码,并在请求文件中使用该代码,而不是数据源名称。
我是否可以为已注册数据源创建生存规则?
生存规则确定将未注册数据源中的哪些属性和关系从已接受的匹配候选者合并到节点类型中的匹配节点。对于已注册数据源,您将使用节点类型转换器来确定如何将匹配候选者的属性和关系合并到匹配的目标节点。请参阅“使用节点类型转换器”。您无需为已注册数据源创建生存规则。
Tip:
虽然已注册数据源的节点类型转换器确定可以将哪些属性从已接受的匹配候选者合并到节点类型中的匹配节点,但您仍然可以决定合并其中的哪些属性。使用“匹配结果”面板中的“源节点”和“目标节点”单选按钮来确定保留哪些值。请参阅“选择要在合并期间保留的属性”。当创建匹配规则时,更恰当的做法是将多个条件添加到一个规则中,还是创建单独的规则?
关于是针对特定标识性属性使用单独的匹配规则,还是将多个条件包含在单个规则中,最好由实施组织通过实验来确定。在测试环境中调整规则时,数据专员可以评估哪个规则在减少误报方面效果更好。
原则上,将标识性属性组合为单个匹配规则执行的是 "AND" 运算,而针对特定标识性属性使用单独的规则会将其值作为单一匹配决定因素进行评估,因此对单个节点类型和数据源组合进行评估时,可能在多个规则之间执行的是 "OR" 运算。
当您要自动接受高于特定匹配分数阈值的匹配规则,并且预计某些条件会达到该阈值,而其他条件可能不会达到时,这种情况下合理的做法可能是创建多个单独的匹配规则而非将多个条件添加到单个组合规则中。
例如,考虑以下情况:您自动接受匹配率高于 90% 的匹配项,并且有两个匹配条件,其中一个的匹配率为 100%,另一个为 50%:
因此,在此示例中,有关组合使用多个条件还是创建单独的匹配规则的决定,取决于您是否希望自动接受某些高于特定阈值的匹配项。
我无意中接受了本不该接受的匹配项。我是否可以查看之前接受的匹配项并撤消?
在完成并关闭具有匹配和合并项的请求后,您无法撤消对现有节点执行的匹配和合并操作。在完成并关闭请求之前,可以通过以下方式撤消匹配现有节点的操作:
但是,在完成并关闭请求之后,您无法再撤消匹配。您必须删除并重新添加现有目标节点,才能删除存储的匹配信息。
节点链接在何时在节点之间建立?
当通过定义了数据源的传入源节点更新现有目标节点时,会在源节点和目标节点之间建立节点链接。有关详细信息,请参阅“了解节点链接和数据源”。