配置匹配停用词

在视点中匹配请求项或对节点进行重复数据删除时,可以在节点类型级别定义在比较字符串值时要忽略的停用词。

例如,使用“名称”属性进行匹配或删除重复数据时,您可能希望忽略 "Company"、"Corporation" 和 "Incorporated" 等词,因为包括这些常用词可能会导致误报。

注意事项

  • 只能向字符串属性(即“字符串”、“备注”或“数字字符串”数据类型)添加停用词。
  • 停用词必须与属性值中的整个词匹配,包括标点符号。部分匹配不算在内。例如,如果定义了停用词 "Corporation",则不会忽略单词 "Corp"。同样,停用词 "Corp"(没有句点)不会导致匹配时忽略 "Corp."(有句点)。
  • 停用词不区分大小写。

在节点类型上配置停用词

  1. 检查要为其配置停用词的节点类型。请参阅“检查节点类型”。
  2. 导航到规则选项卡,然后在停用词子选项卡上,单击编辑
  3. 单击添加 “添加”按钮,然后在属性下拉菜单中选择要为其添加停用词的属性。

    Note:

    如果对多行选择相同的属性,则单击保存时,每行的停用词值将针对该属性合并为单行。
  4. 匹配停用词中,输入要在匹配过程中忽略的停用词。

    Note:

    存储值时,这些值会转换为小写。停用词不区分大小写。
  5. 要删除停用词,请单击它旁边的 X 图标。要完全删除属性及其所有停用词,请单击操作 “操作”菜单 并选择删除
  6. 单击保存

停用词处理

为配置了匹配停用词的节点类型运行请求项匹配或重复数据删除时:

  • 所有属性的停用词会在使用该属性的所有匹配规则中被忽略。
  • 匹配规则计算匹配候选者(匹配请求项时)或匹配节点(运行重复数据删除时)的匹配分数时,将忽略所有属性的停用词。

例如,匹配请求项时,假设传入请求项具有名为 "StreamVault Media" 的节点,并且节点类型包含名为 "The StreamVault Media Company" 的匹配候选者。

  • 在未配置任何停用词的情况下,匹配分数为 61(因为请求项的 28 个字符中有 17 个字符 (61%) 与匹配候选者匹配,请参阅“匹配分数是如何计算的,如何使用它们?”)。
  • 如果配置了停用词 "The" 和 "Company",则匹配分数将变为 100 ,因为计算匹配分数时会忽略这些词,因此请求项中的所有 17 个字符都与匹配候选者匹配。

修正后的匹配分数可能会导致匹配候选者被自动接受为匹配项,或自动从匹配结果中排除(以前未被接受时)。