Erläuterungen zur Deduplizierung

Mit der Deduplizierung können Sie den Abgleichsprozess verwenden, um doppelte Knoten in einem Ansichtspunkt zu identifizieren und diese zu einem einzelnen Knoten zu kombinieren.

Die Deduplizierung wird für Knoten ausgeführt, die bereits in einem Ansichtspunkt vorhanden sind. Wenn Sie dagegen Anforderungselemente abgleichen und zusammenführen, sind eingehende Knoten betroffen, die in einer Anforderung hinzugefügt werden. Hiermit können Sie doppelt vorhandene Knoten ermitteln und zusammenführen, die möglicherweise vor Verfügbarkeit des Abgleichs oder außerhalb des Anforderungsvorgangs (z.B. durch einen Import- oder Ladevorgang) dem Ansichtspunkt hinzugefügt wurden.

Bei der Deduplizierung wird ein Großteil der gleichen Elemente wie beim Abgleich und bei der Zusammenführung von Anforderungselementen verwendet:

  • Mit Abgleichsregeln werden potenziell doppelt vorhandene Knoten ermittelt.
  • Survivorship-Regeln steuern, wie Eigenschaften und Beziehungen nach dem Bestätigen einer Übereinstimmung zusammengeführt werden.
  • Mit der Abgleichs-Workbench können Sie die Übereinstimmungskandidaten akzeptieren, ablehnen oder überspringen.

Deduplizierungsmodi

Sie können Knoten in einem Ansichtspunkt in zwei Modi deduplizieren:

  • Clusterschlüssel: Definieren Sie eine Clustering-Eigenschaft für die Knotentypen der abzugleichenden Knoten, und führen Sie anschließend den Abgleich für jedes Cluster aus. Informationen hierzu finden Sie unter Deduplizierung anhand eines Clusterschlüssels ausführen.
  • Zeitbasiert: Deduplizieren Sie die Knoten in einem Ansichtspunkt basierend auf dem Datum ihrer Erstellung. Informationen hierzu finden Sie unter Zeitbasierte Deduplizierung.

In einer Anforderung können Sie nur einen Deduplizierungsmodus für einen bestimmten Ansichtspunkt und Knotentyp ausführen. Sie können jedoch beide Modi verwenden, um die Knoten in einem Ansichtspunkt in unterschiedlichen Kontexten zu deduplizieren. Beispiel: Sie können die Knoten in einem Ansichtspunkt zunächst nach Clusterschlüssel und anschließend alle danach erstellten Knoten inkrementell zeitbasiert deduplizieren.

Note:

Sie können die Knoten eines bestimmten Knotentyps unabhängig vom Modus jeweils nur in einer aktiven Anforderung deduplizieren.

Mit dem Clusterschlüssel und dem Knotenerstellungsdatum bei der zeitbasierten Deduplizierung wird im Wesentlichen der Umfang des Deduplizierungsvorgangs begrenzt. Während das Abgleichen und Zusammenführen automatisch durch die Obergrenze der Anforderungselemente in einer Anforderung eingeschränkt wird, können Ansichtspunkte potenziell mehrere Millionen Knoten enthalten. Wenn Sie ein Knotenerstellungsdatum oder eine Clustering-Eigenschaft angeben, können Sie die gewünschten Knoten in einem Vorgang deduplizieren.

Note:

Sowohl bei der clusterschlüssel- als auch bei der zeitbasierten Deduplizierung muss die Eigenschaft CoreStats.Created Date im deduplizierten Knotentyp enthalten sein, damit das System den Fortschritt der bereits ausgewerteten Knoten verfolgen kann.

Deduplizierung anhand eines Clusterschlüssels ausführen

Um Knoten mit einem Clusterschlüssel zu deduplizieren, müssen Sie eine Clustering-Eigenschaft für die Knotentypen der abzugleichenden Knoten definieren. Damit wird die Liste der Knoten im Ansichtspunkt gefiltert, die mit anderen Knoten im selben Ansichtspunkt abgeglichen werden sollen. Beim Ausführen der Deduplizierung müssen Sie den Wert der Clustering-Eigenschaft angeben, für die Knoten dedupliziert werden sollen.

Tip:

Beim Definieren einer Clustering-Eigenschaft für einen Knotentyp muss die ausgewählte Eigenschaft eine Liste zulässiger Werte für diesen Knotentyp enthalten (siehe Clustering-Eigenschaft für einen Knotentyp konfigurieren). Wenn Sie die Deduplizierung mit einem Clusterschlüssel ausführen, müssen Sie die Clustering-Eigenschaft in dieser Liste zulässiger Werte auswählen. Beispiel: Wenn Sie Kunden deduplizieren und die Clustering-Eigenschaft "State" ist, können Sie "Texas" als Clustering-Wert auswählen, um Kunden im Bundesstaat Texas zu deduplizieren.

Der Clusterschlüssel wird auf die abgeglichenen Knoten und nicht auf die Zielknoten für den Abgleich angewendet. Wenn im Beispiel oben also Kunden im Bundesstaat Texas abgeglichen werden, würde eine Übereinstimmung mit demselben Namen in Kalifornien angezeigt werden.

Zeitbasierte Deduplizierung

Mit der zeitbasierten Deduplizierung können Sie Knoten deduplizieren, die an oder nach einem angegebenen Datum erstellt wurden. Dazu müssen Sie keine Clustering-Eigenschaft angeben. Stattdessen müssen Sie beim Erstellen eines Abgleichs für die Deduplizierung ein Startdatum für die Knotenerstellung sowie optional eine Batchgröße angeben.