在视点中匹配请求项或对节点进行重复数据删除时,可以在节点类型级别定义在比较字符串值时要忽略的停用词。
例如,使用“名称”属性进行匹配或删除重复数据时,您可能希望忽略 "Company"、"Corporation" 和 "Incorporated" 等词,因为包括这些常用词可能会导致误报。
注意事项
- 只能向字符串属性(即“字符串”、“备注”或“数字字符串”数据类型)添加停用词。
- 停用词必须与属性值中的整个词匹配,包括标点符号。部分匹配不算在内。例如,如果定义了停用词 "Corporation",则不会忽略单词 "Corp"。同样,停用词 "Corp"(没有句点)不会导致匹配时忽略 "Corp."(有句点)。
- 停用词不区分大小写。
在节点类型上配置停用词
- 检查要为其配置停用词的节点类型。请参阅“检查节点类型”。
- 导航到规则选项卡,然后在停用词子选项卡上,单击编辑。
- 单击添加
,然后在属性下拉菜单中选择要为其添加停用词的属性。
Note:
如果对多行选择相同的属性,则单击
保存时,每行的停用词值将针对该属性合并为单行。
- 在匹配停用词中,输入要在匹配过程中忽略的停用词。
Note:
存储值时,这些值会转换为小写。停用词不区分大小写。
- 要删除停用词,请单击它旁边的 X 图标。要完全删除属性及其所有停用词,请单击操作
并选择删除。
- 单击保存。
停用词处理
为配置了匹配停用词的节点类型运行请求项匹配或重复数据删除时:
- 所有属性的停用词会在使用该属性的所有匹配规则中被忽略。
- 匹配规则计算匹配候选者(匹配请求项时)或匹配节点(运行重复数据删除时)的匹配分数时,将忽略所有属性的停用词。
例如,匹配请求项时,假设传入请求项具有名为 "StreamVault Media" 的节点,并且节点类型包含名为 "The StreamVault Media Company" 的匹配候选者。
- 在未配置任何停用词的情况下,匹配分数为 61(因为请求项的 28 个字符中有 17 个字符 (61%) 与匹配候选者匹配,请参阅“匹配分数是如何计算的,如何使用它们?”)。
- 如果配置了停用词 "The" 和 "Company",则匹配分数将变为 100 ,因为计算匹配分数时会忽略这些词,因此请求项中的所有 17 个字符都与匹配候选者匹配。
修正后的匹配分数可能会导致匹配候选者被自动接受为匹配项,或自动从匹配结果中排除(以前未被接受时)。