Introduzione alla rimozione duplicati

La rimozione duplicati consente di utilizzare il processo di corrispondenza per identificare in un'angolazione vista i nodi duplicati e combinarli in un unico nodo.

La rimozione dei duplicati viene eseguita su nodi che già presenti un'angolazione vista, a differenza della Ricerca corrispondenza e unione di elementi richiesta, che funziona sui nodi in entrata aggiunti in una richiesta. Ciò consente di trovare e unire nodi duplicati esistenti che potrebbero essere stati aggiunti all'angolazione vista prima che la corrispondenza fosse disponibile o al di fuori del processo di richiesta (ad esempio tramite un'importazione o un caricamento).

La rimozione dei duplicati utilizza molti degli stessi elementi degli elementi di richiesta della ricerca corrispondenza e unione:

Modalità di rimozione duplicati

Per rimuovere i duplicati dei nodi in un'angolazione vista sono disponibili le due modalità illustrate di seguito.

È possibile eseguire solo una modalità di rimozione duplicati per un'angolazione vista e un tipo di nodo specifici in una singola richiesta, ma è possibile utilizzare entrambe le modalità per rimuovere i duplicati dei nodi in un'angolazione vista in contesti diversi. Ad esempio, inizialmente si potrebbero rimuovere i duplicati per i nodi in un'angolazione vista in base alla chiave cluster e quindi, successivamente, eseguire di nuovo una rimozione duplicati incrementale per tutti i nodi creati basata su tempo.

Note:

È possibile rimuovere i duplicati di un tipo di nodo particolare solo in una richiesta attiva alla volta, indipendentemente dalla modalità.

La chiave cluster e la data di creazione del nodo per la rimozione duplicati basata su tempo servono essenzialmente a limitare la portata dell'operazione di rimozione duplicati. A differenza della ricerca corrispondenza e dell'unione, che sono automaticamente vincolate dal limite massimo di elementi di richiesta in una richiesta, le angolazioni vista potrebbero potenzialmente contenere milioni di nodi. Specificando una data di creazione del nodo o una proprietà clustering è possibile individuare i nodi specifici per cui si desidera rimuovere i duplicati con un'unica operazione.

Note:

Sia la rimozione di duplicati basata su chiave cluster che quella basata su tempo richiedono che la proprietà CoreStats.Created Date sia inclusa nel tipo di nodo per cui rimuovere i duplicati, affinché il sistema possa monitorare l'avanzamento del processo rispetto a quali nodi sono stati valutati e quali no.

Rimozione dei duplicati tramite una chiave cluster

Per rimuovere i duplicati dei nodi utilizzando una chiave cluster, è necessario definire una proprietà clustering per i tipi di nodo dei nodi da abbinare. Questa proprietà consente di filtrare l'elenco dei nodi nell'angolazione vista da abbinare ad altri nodi nella stessa angolazione vista. Quando si esegue il processo di rimozione duplicati, si specifica il valore della proprietà clustering per cui si desidera rimuovere i duplicati dei nodi.

Tip:

Quando si definisce una proprietà clustering per un tipo di nodo, la proprietà selezionata deve avere un elenco di valori consentiti per tale tipo di nodo (fare riferimento alla sezione Configurazione di una proprietà clustering per un tipo di nodo). In seguito, quando si esegue la rimozione dei duplicati utilizzando una chiave cluster, è possibile selezionare la proprietà clustering dall'elenco dei valori consentiti. Ad esempio, se si stanno rimuovendo i duplicati dei clienti e la proprietà clustering è Stato, è possibile selezionare Texas come valore di clustering per rimuovere i duplicati di clienti nello stato del Texas.

La chiave cluster viene applicata al set di nodi per cui si sta eseguendo la corrispondenza, non ai nodi con cui viene effettuato il confronto. Quindi, nell'esempio sopra, in cui si abbinano clienti dello stato del Texas, verrà visualizzata una corrispondenza con lo stesso nome in California.

Rimozione dei duplicati basata sul tempo

La rimozione duplicati basata su tempo consente di rimuovere i duplicati di nodi creati in una data specificata o successivamente. Non è necessario specificare una proprietà clustering. Quando si crea una corrispondenza per la rimozione duplicati, si specifica invece una data di inizio della creazione del nodo e, facoltativamente, una dimensione del batch.