La desduplicación le permite utilizar el proceso de búsqueda de coincidencias para identificar los nodos de un punto de vista que son duplicados uno del otro y combinarlos en un único nodo.
La desduplicación se ejecuta en los nodos que ya existen en el punto de vista, a diferencia de Coincidencia y fusión de elementos de solicitud, que funciona en los nodos entrantes que se van a agregar en una solicitud. Esto le permite buscar y fusionar nodos existentes duplicados que puedan haberse agregado al punto de vista antes de que estuviera disponible la búsqueda de coincidencias, o fuera del proceso de solicitud (por ejemplo, mediante una importación o una carga).
La desduplicación utiliza muchos elementos iguales a los elementos de solicitud de coincidencia y fusión:
Modos de desduplicación
Puede desduplicar nodos en un punto de vista de dos modos:
Solo puede ejecutar un modo de desduplicación para un punto de vista específico y tipo de nodo en una solicitud, pero puede utilizar ambos modos para desduplicar nodos de un punto de vista en diferentes contextos. Por ejemplo, inicialmente puede desduplicar los nodos de un punto de vista por clave de cluster, y todos los nodos creados posteriormente pueden desduplicarse de forma incremental utilizando la desduplicación basada en el tiempo.
Note:
Puede desduplicar los nodos de un tipo de nodo concreto en una sola solicitud activa cada vez, independientemente del modo.La clave de cluster y la fecha de creación de nodo para la desduplicación basada en el tiempo sirven esencialmente para limitar el ámbito de la operación de desduplicación. A diferencia de la búsqueda de coincidencias y la fusión, que se restringen automáticamente por el límite máximo de elementos de solicitud de una solicitud, los puntos de vista podrían contener millones de nodos. La especificación de una fecha de creación de nodo o una propiedad de agrupación en clusters le permite establecer como destino los nodos específicos que desea desduplicar en una única operación.
Note:
Tanto la desduplicación mediante clave de cluster como basada en el tiempo requieren que la propiedadCoreStats.Created Date
se incluya en el tipo de nodo que se va a desduplicar para que el sistema pueda realizar un seguimiento del progreso en cuanto a qué nodos se han evaluado y cuáles no.Desduplicación mediante una clave de cluster
Para desduplicar los nodos mediante una clave de cluster, debe definir una propiedad de agrupación en clusters para los tipos de nodo en los que se buscarán las coincidencias. Esto filtra la lista de nodos del punto de vista en los que se buscarán las coincidencias con otros nodos del mismo punto de vista. Cuando ejecuta el proceso de desduplicación, debe especificar el valor de la propiedad de agrupación en clusters para la que desea desduplicar los nodos.
Tip:
Cuando define una propiedad de agrupación en clusters para un tipo de nodo, la propiedad que seleccione debe tener una lista Valores permitidos para ese tipo de nodo (consulte Configuración de una propiedad de agrupación en clusters para un tipo de nodo). A continuación, cuando ejecuta una desduplicación utilizando una clave de cluster, debe seleccionar la propiedad de agrupación en clusters en la lista de valores permitidos. Por ejemplo, si va a desduplicar clientes y la propiedad de agrupación en clusters es Estado, puede seleccionar Texas como valor de agrupación en clusters para desduplicar clientes en el estado de Texas.La clave de cluster se aplica al conjunto de nodos en el que se buscan las coincidencias, no en los nodos con los que se comparan. Por tanto, en el ejemplo anterior, en el que se buscan coincidencias de clientes en el estado de Texas, se mostraría una coincidencia con el mismo nombre en California.
Desduplicación basada en el tiempo
La desduplicación basada en el tiempo le permite desduplicar nodos que se han creado en la fecha especificada o en una fecha posterior. No requiere que se especifique una propiedad de agrupación en clusters. En cambio, cuando se crea una coincidencia para desduplicar, se especifica una fecha de inicio de creación de nodo y, opcionalmente, un tamaño de lote.