对视点运行重复数据删除操作

通过对节点进行重复数据删除,您可以匹配视点中的相似现有节点,并将其组合为单个节点。

注意事项

  • 您必须对视点具有数据管理员权限或更高权限,才能对该视点进行重复数据删除。

  • 不能对设置了时间标签或已存档的视点进行重复数据删除。
  • 一次可以在一个活动请求中对视点进行重复数据删除。如果正在另一个活动请求中对视点进行重复数据删除,则无法在新的重复数据删除操作中选择该视点。
  • 每个请求仅支持一个重复数据删除模式。不能在同一请求中运行基于群集键和时间的重复数据删除。
  • 对视点运行重复数据删除时:
    • 视点中的节点将与节点类型中的所有节点进行匹配,即使其中一些节点不在现有视点中也是如此。
    • 如果视点包含共享节点,则仅对这种节点的一个实例运行匹配规则。
    • 每个匹配的节点最多显示 20 个匹配结果。
  • 请求最多包含 10,000 个请求项。由于每个合并操作会产生两个请求项(删除源节点和更新目标节点的属性),当匹配的节点数达到 5000 个时,该请求的重复数据删除过程将会停止,并且系统会提示您创建新请求以继续对节点进行重复数据删除。如果请求已包含其他请求项,可能会提前达到请求最大值。
  • 由于是对视点中的一组节点(而不是传入请求项)进行重复数据删除,两个不同的节点通常可以作为彼此的匹配候选者。例如,在对包含节点 "Oracle" 和 "Oracle Inc" 的视点进行重复数据删除时,每个节点都可以作为另一个节点的匹配候选者。接受作为重复项的节点将控制哪个节点会被删除,哪个节点将作为存活节点。注意,匹配的节点是将删除的节点,匹配候选节点是存活节点。请参阅“了解重复数据删除中的匹配的节点和匹配候选者”。

    Tip:

    当您接受匹配项作为重复项时,在“重复数据删除结果”屏幕中,该重复节点将标记为重复(请参阅“了解重复数据删除结果”)。标记的节点是将删除的节点。
  • 如果在重复数据删除期间匹配了三个或更多节点,不能将第一个节点合并到第二个节点,然后再将第二个节点合并到第三个节点。但是,可以将第一个节点和第二个节点合并到第三个节点。

    例如,假定您有节点 "Oracle"、"Oracle Inc" 和 "Oracle Incorporated",您想要保留 "Oracle Incorporated",并将其他两个节点的信息合并到该节点。不能将 "Oracle" 合并到 "Oracle Inc",然后再将 "Oracle Inc" 合并到 "Oracle Incorporated"。而是,找到匹配的节点 "Oracle" 并将其标记为 "Oracle Incorporated" 的重复项,然后找到 "Oracle Inc" 并将其标记为 "Oracle Incorporated" 的重复项。

要对视点进行重复数据删除:

  1. 为要进行重复数据删除的视点创建请求。
  2. 单击视点窗口左侧的匹配和重复数据删除 匹配图标 选项卡。
  3. 在匹配窗格中,单击新建 创建匹配图标,然后选择对视点进行重复数据删除
  4. 对视点进行重复数据删除对话框中,执行以下操作:
    1. 选择要进行重复数据删除的视点
    2. 在该视点中选择节点类型。必须为重复数据删除配置节点类型(请参阅“了解重复数据删除”)。
    3. 选择重复数据删除模式
      • 群集键:使用群集属性对视点进行重复数据删除。从下拉菜单中选择群集属性值。下拉菜单中的群集属性值基于您定义为群集键的属性的允许值。请参阅“使用群集键进行重复数据删除”。

        Note:

        如果已为群集属性运行了重复数据删除操作,将显示处理的最后一个节点的节点创建日期。
      • 基于时间:基于节点的创建日期对视点进行重复数据删除。输入节点创建日期。请参阅“基于时间的重复数据删除”。
  5. 可选:输入批大小以指定要检查重复项的节点数。

    Tip:

    这可能会很有用,例如,如果您对要测试的匹配规则进行了更改。您可以在对整个视点进行重复数据删除之前,小批量地运行并评估结果。
  6. 单击运行重复数据删除

使用节点类型的已定义匹配规则和视点的已注册数据源,对视点运行重复数据删除。

重复数据删除操作

由于视点可以包含数千个节点,通常分批对其进行重复数据删除。可以按以下方式定义批:

还可以通过使用以上部分项的组合(例如群集键和指定的批大小)来定义批。

按这些批来处理节点的方式有多个选项。以下术语可以帮助您了解这些选项:

Table 11-1 批处理选项

选项 定义 如何执行
运行 按指定的群集或节点创建开始日期,对第一批节点执行初始重复数据删除。 对视点进行重复数据删除对话框中单击运行重复数据删除
继续 按指定的群集或节点创建开始日期,对下一批节点执行后续重复数据删除。系统会跟踪已处理的节点,以便您可以从上次结束的位置继续。 执行初始运行操作后,在对视点进行重复数据删除对话框中单击运行重复数据删除
重新运行 重新处理请求中的现有结果集。这可能包括一个或多个批。

注意:重新运行将仅重新处理未接受的匹配结果。

重复数据删除结果集面板中,单击要重新运行的结果集旁边的操作 “操作”图标,然后选择重新运行
重新启动 从已处理的群集的开头开始重新处理该群集。

注意:重新启动仅可用于群集键重复数据删除。

提示重新运行重新启动之间的差异在于,重新运行是重新处理一个或多个,而重新启动是重新处理群集

对视点进行重复数据删除对话框中单击群集键旁边的重新启动 “重新启动”图标
放弃 删除给定请求的现有结果集。处理的最后一个节点将保留,以便您在下次运行重复数据删除时可以继续。

注意:删除请求还将放弃结果集。

重复数据删除结果集面板中,单击要重新运行的结果集旁边的操作 “操作”图标,然后选择放弃
放弃并重新运行 删除给定请求的现有结果集,并重新处理结果集中的相同节点。这可能包括一个或多个批。 重复数据删除结果集面板中,单击要重新运行的结果集旁边的操作 “操作”图标,然后选择放弃并重新运行