Présentation de la suppression de doublons

La suppression de doublons vous permet d'utiliser le processus de mise en correspondance pour identifier les noeuds d'un point de vue qui sont des doublons et les combiner en un noeud unique.

Le processus de suppression de doublons est exécuté sur les noeuds déjà existants dans un point de vue, contrairement au processus Mise en correspondance et fusion d'éléments de demande, qui fonctionne sur les noeuds entrants qui sont ajoutés dans une demande. Cela vous permet de rechercher et de fusionner les noeuds en double existants qui peuvent avoir été ajoutés au point de vue avant que la mise en correspondance ne soit disponible, ou en dehors du processus de demande (via un import ou un chargement, par exemple).

Le processus de suppression de doublons utilise de nombreux éléments qui sont également utilisés par le processus de mise en correspondance et de fusion d'éléments de demande :

Modes de suppression de doublons

Vous pouvez supprimer les doublons de noeud dans un point de vue selon deux modes :

Vous ne pouvez exécuter qu'un seul mode de suppression de doublons pour un point de vue et un type de noeud spécifiques dans une seule demande, mais vous pouvez utiliser les deux modes pour supprimer les doublons de noeud d'un point de vue dans différents contextes. Par exemple, vous pouvez initialement supprimer les doublons de noeud d'un point de vue en utilisant une clé de cluster, puis tous les doublons de noeud créés par la suite peuvent être supprimés de manière incrémentielle en utilisant la suppression de doublons basée sur le temps.

Note:

Vous pouvez supprimer les doublons de noeud d'un type de noeud particulier dans une seule demande active à la fois, quel que soit le mode.

La clé de cluster et la date de création de noeud pour la suppression de doublons basée sur le temps servent essentiellement à limiter la portée de l'opération de suppression de doublons. Contrairement au processus de mise en correspondance et de fusion, qui est automatiquement limité par le nombre maximal d'éléments dans une demande, les points de vue peuvent potentiellement contenir des millions de noeuds. L'indication d'une date de création de noeud ou d'une propriété de mise en cluster vous permet de cibler les noeuds spécifiques dont supprimer les doublons en une seule opération.

Note:

La suppression de doublons par clé de cluster et celle basée sur le temps exigent d'inclure la propriété CoreStats.Created Date dans le type de noeud dont les doublons sont supprimés pour que le système puisse suivre la progression de l'évaluation des noeuds.

Suppression de doublons à l'aide d'une clé de cluster

Afin de supprimer des doublons de noeud à l'aide d'une clé de cluster, vous devez définir une propriété de mise en cluster pour les types des noeuds à mettre en correspondance. Cela permet de filtrer la liste des noeuds du point de vue à mettre en correspondance avec d'autres noeuds du même point de vue. Lorsque vous exécutez le processus de suppression de doublons, vous indiquez la valeur de la propriété de mise en cluster pour laquelle supprimer les doublons de noeud.

Tip:

Lorsque vous définissez une propriété de mise en cluster pour un type de noeud, la propriété que vous sélectionnez doit disposer d'une liste de valeurs autorisées pour ce type de noeud (reportez-vous à la section Configuration d'une propriété de mise en cluster pour un type de noeud). Ensuite, lorsque vous exécutez la suppression de doublons à l'aide d'une clé de cluster, vous sélectionnez la propriété de mise en cluster dans cette liste de valeurs autorisées. Par exemple, si vous supprimez les doublons de client et que la propriété de mise en cluster est State, vous pouvez sélectionner Texas comme valeur de mise en cluster afin de supprimer les doublons de client de l'État du Texas.

La clé de cluster est appliquée à l'ensemble des noeuds que vous mettez en correspondance, et non aux noeuds avec lesquels vous faites la mise en correspondance. Ainsi, dans l'exemple ci-dessus où vous mettez en correspondance des clients de l'État du Texas, une correspondance avec le même nom en Californie serait affichée.

Suppression de doublons basée sur le temps

La suppression de doublons basée sur le temps vous permet de supprimer des doublons de noeud créés à une date donnée ou après. Il n'est pas nécessaire d'indiquer de propriété de mise en cluster. Au lieu de cela, lorsque vous créez une correspondance pour laquelle supprimer des doublons, vous indiquez une date de début de création de noeud et, éventuellement, une taille de lot.