Noções Básicas sobre Eliminação de Duplicidades

A eliminação de duplicidades permite o uso do processo de correspondência para identificar os nós duplicados em um ponto de vista e combiná-los em um único nó.

O processo de eliminação de duplicidades é executado em nós que já existem em um ponto de vista, diferentemente do processo de Correspondência e Mesclagem de Itens de Solicitação, que é executado em nós de entrada a serem adicionados a uma solicitação. Isso permite encontrar e mesclar nós existentes duplicados que podem ter sido adicionados ao ponto de vista antes de a correspondência estar disponível ou fora do processo da solicitação (como por importação ou carregamento).

O processo de eliminação de duplicidades usa muitos elementos do processo de correspondência e mesclagem de itens de solicitação:

Modos de Eliminação de Duplicidades

Existem dois modos de eliminação de nós duplicados em um ponto de vista:

Só é possível executar um modo de eliminação de duplicidades em uma única solicitação para um ponto de vista e um tipo de nó específicos, mas é possível usar os dois modos em diferentes contextos. Por exemplo, você pode eliminar os nós duplicados em um ponto de vista por chave do cluster. Em seguida, nos nós criados após esse processo, efetuar a eliminação de duplicidades usando o método baseado em hora.

Note:

Só é possível eliminar nós duplicados de um tipo de nó específico em uma solicitação ativa por vez, independentemente do modo.

A chave do cluster e a data de criação do nó (no método baseado em hora) funcionam basicamente para limitar o escopo da operação de eliminação de duplicidades Diferentemente da operação de correspondência e mesclagem, que é restringida automaticamente pelo limite máximo de itens de solicitação em uma solicitação, os pontos de vista podem ter milhões de nós. A especificação de uma propriedade de clustering ou de uma data de criação de nó permite definir os nós específicos nos quais você deseja eliminar duplicidades em uma única operação.

Note:

Os dois modos de eliminação de duplicidades (baseado em hora e baseado em chave do cluster) exigem a inclusão da propriedade CoreStats.Created Date no tipo de nó usado no processo de eliminação de duplicidades. Isso permite ao sistema monitorar quais nós foram avaliados e quais não foram.

Eliminação de Duplicidades Usando Chave do Cluster

Para eliminar nós duplicados usando a chave do cluster, você deve definir uma propriedade de clustering para os tipos dos nós a serem correspondidos. Isso filtra a lista dos nós do ponto de vista a serem correspondidos com outros nós no mesmo ponto de vista. Durante o processo de eliminação de duplicidades, você especifica o valor da propriedade de clustering para a qual deseja eliminar nós duplicados.

Tip:

Quando você define uma propriedade de clustering para um tipo de nó, a propriedade selecionada deve ter uma lista Valores Permitidos para o tipo de nó (consulte Configuração de Propriedade de Clustering para um Tipo de Nó). Em seguida, quando você executa o processo de eliminação de duplicidades usando uma chave do cluster, seleciona a propriedade de clustering nessa lista de valores permitidos. Por exemplo, se estiver eliminando clientes duplicados e a propriedade de clustering for State, você poderá selecionar Texas como o valor de clustering para eliminar clientes duplicados no estado do Texas.

A chave do cluster é aplicada ao conjunto de nós a serem correspondidos, não aos nós que estão sendo usados para comparação. Então, no exemplo acima no qual você está correspondendo clientes no estado do Texas, uma correspondência com o mesmo nome na Califórnia seria exibida.

Eliminação de Duplicidades Baseada em Hora

A eliminação de duplicidades baseada em hora permite eliminar nós duplicados que foram criados em uma data específica ou depois dela. Ela não exige a especificação de uma propriedade de clustering. Em vez disso, quando cria uma correspondência para eliminar duplicidades, você especifica uma data de criação de nó e, como opção, um tamanho de lote.