Rimozione di nodi duplicati in un'angolazione vista

La rimozione dei duplicati dei nodi consente di valutare nodi simili in un'angolazione vista e quindi di unirli in un singolo nodo nel caso siano duplicati l'uno dell'altro.

Panoramica del processo di rimozione duplicati

Le operazioni di rimozione duplicati in un'angolazione vista seguono il processo generale illustrato di seguito.

  1. Un utente che dispone dell'autorizzazione Gestione dati crea una richiesta per una vista che contiene l'angolazione vista da cui rimuovere i duplicati.

    Tip:

    Per la rimozione dati di un'angolazione vista è necessaria una richiesta poiché il risultato del processo di rimozione duplicati comporta l'elaborazione di modifiche ai nodi in un'angolazione vista.
  2. L'utente che dispone dell'autorizzazione Gestione dati crea ed esegue una corrispondenza per uno specifico tipo di nodo in una particolare angolazione vista per rimuovere i duplicati da tale angolazione vista. Fare riferimento a Esecuzione di un'operazione di rimozione duplicati per un'angolazione vista.
  3. Nel workbench di ricerca corrispondenza vengono visualizzate le potenziali corrispondenze secondo quanto determinato dalle regole di corrispondenza configurate per ogni origine dati. Fare riferimento alle sezioni Introduzione ai risultati della rimozione duplicati e Creazione, modifica ed eliminazione delle regole di corrispondenza.

    Note:

    Vengono visualizzati solo i risultati delle corrispondenze con punteggi che superano la Soglia esclusione automatica nelle regole di corrispondenza.
  4. L'utente che dispone dell'autorizzazione Gestione dati esamina le corrispondenze di rimozione duplicati e accetta o rifiuta ogni corrispondenza per poi applicare le modifiche. Fare riferimento alla sezione Revisione dei risultati della rimozione duplicati e applicazione delle modifiche.
  5. Le corrispondenze accettate vengono applicate come segue.
    • Il nodo con corrispondenza (origine) viene eliminato dall'angolazione vista (perché è un duplicato)
    • Le proprietà e le relazioni del nodo duplicato vengono unite nel nodo candidato corrispondente (target) che rimarrà come determinato dalle regole di conservazione. Fare riferimento alla sezione Creazione, modifica ed eliminazione delle regole di conservazione.
  6. Il sistema utilizza le modifiche applicate per creare elementi di richiesta nella richiesta. Vengono aggiunte azioni di eliminazione per i nodi duplicati e azioni di inserimento, aggiornamento e spostamento delle proprietà in base alle regole di conservazione.

Introduzione ai nodi con corrispondenza e ai candidati corrispondenza nella rimozione dei duplicati

Poiché le angolazioni vista per cui si stanno rimuovendo i duplicati contengono sia i nodi con corrispondenza sia i candidati per la corrispondenza, è importante comprendere la differenza tra questi due tipi di nodi.

  • Nodi con corrispondenza sono i nodi dell'origine dati che si stanno valutando durante il processo di corrispondenza. Quando si uniscono i nodi, questi diventano i nodi di origine che vengono eliminati dopo l'operazione di unione.
  • Candidati corrispondenza sono i nodi rispetto a cui si effettua la corrispondenza durante il processo di ricerca corrispondenza. Quando si uniscono i nodi, questi diventano i nodi target che vengono conservati dopo l'unione. Le le proprietà e i valori di relazione dei nodi di origine vengono uniti in questi nodi come determinato in base alle regole di conservazione.

Note:

Quando si esegue la rimozione dei duplicati utilizzando una chiave cluster, tale la chiave viene applicata solo ai nodi con corrispondenza. La chiave non viene utilizzata per limitare i nodi con cui viene effettuato il confronto.

Ad esempio, se si rimuovono i duplicati in un'angolazione vista di un cliente utilizzando una chiave cluster "Stato" e un valore della proprietà clustering "Texas", verranno valutati solo i clienti del Texas (nodo con corrispondenza), ma questi potrebbero essere abbinati a un cliente della California (candidato per la corrispondenza) con lo stesso nome. Quando si uniscono i record, il nodo del Texas verrà eliminato e le sue informazioni verranno unite al nodo della California.