Häufig gestellte Fragen zu Abgleich und Zusammenführung

Wie werden Abgleichsscores berechnet und verwendet?
Sollte ich einen Code oder einen Datenquellennamen in einer Ladedatei verwenden?
Sollten beim Erstellen von Abgleichsregeln mehrere Kriterien zu einer Regel hinzugefügt oder besser separate Regeln erstellt werden?
Ich habe versehentlich eine falsche Übereinstimmung akzeptiert. Kann ich meine zuvor akzeptierten Übereinstimmungen prüfen und rückgängig machen?
Wann werden Knotenlinks zwischen Knoten erstellt?

Wie werden Abgleichsscores berechnet und verwendet?

Der genaue Mechanismus zur Berechnung eines Abgleichsscores hängt von verschiedenen Faktoren wie dem Datentyp (Zeichenfolge, Ganzzahl, Datum usw.), dem Abgleichstyp (enthält, ähnelt, zwischen) sowie davon ab, ob die Abgleichsvorgänge kombiniert werden. Im Allgemeinen deutet ein höherer Abgleichsscore jedoch darauf hin, dass mehr Abgleichskriterien für einen Kandidaten erfüllt sind.

Beispiele zur Erläuterung der Berechnung eines Abgleichsscores:

Beispiel 1

In diesem Beispiel wird von der Abgleichsregel die Eigenschaft "Name" (eine Zeichenfolge) abgeglichen:

Der Zielname für den Abgleich ist "Atkins Pearson International", und der abzugleichende Quellname ist "Baker H. International".

In diesem Beispiel enthält der Zielname 28 Zeichen, von denen 17 mit dem Quellnamen übereinstimmen ("a", "k", zwei Leerzeichen sowie die gesamte Zeichenfolge "International"). Somit stimmen etwa 61% (17 von 28) der Zeichen überein, was einem Abgleichsscore von 61 entspricht.

Beispiel 2

Im zweiten Beispiel werden die beiden Zeichenfolgeneigenschaften "Name" und "Industry" abgeglichen:

Der Zielname für den Abgleich ist "Andrews Corporation", und die Zielbranche ist "Diagnostics & Research". Der Quellname ist "Andrews", und die Quellbranche ist "Diagnostics & Research".

In diesem Fall stimmt der Quellname mit 37% (7 von 19) der Zeichen im Zielnamen überein, und die Quellbranche stimmt zu 100% mit der Zielbranche überein. Da es sich um einen kombinierten Abgleich handelt, wird mit der Rechnung (37+100)/2 der Durchschnitt ermittelt, sodass sich ein Abgleichsscore von 68 ergibt.

Bei anderen Datentypen und Abgleichsvorgängen wird der Abgleichsscore anhand ähnlicher Berechnungen ermittelt.

Note:

Wenn Stoppwörter für Eigenschaften im Knotentyp konfiguriert wurden, die abgeglichen werden, werden sie bei der Berechnung von Abgleichsscores ausgeschlossen. Informationen hierzu finden Sie unter Stoppwörter für den Abgleich konfigurieren.

Sollte ich einen Code oder einen Datenquellennamen in einer Ladedatei verwenden?

Beim Verarbeiten einer Anforderungsdatei mit Datenquelleninformationen wird die Datenquelle für jeden Knoten auf zwei Arten ermittelt:

Wenn für die Datenquelle ein Code konfiguriert ist, wird der Code verwendet. Informationen hierzu finden Sie unter Datenquellen erstellen, bearbeiten und löschen.
Wenn für die Datenquelle kein Code konfiguriert ist, wird der Datenquellenname verwendet.

Da sich Datenquellennamen im Laufe der Zeit ändern können, wird als Best Practice empfohlen, immer einen Code für die Datenquellen zu konfigurieren und statt eines Datenquellennamens diesen Code in den Anforderungsdateien zu verwenden.

Sollten beim Erstellen von Abgleichsregeln mehrere Kriterien zu einer Regel hinzugefügt oder besser separate Regeln erstellt werden?

Die Entscheidung, ob separate Abgleichsregeln für bestimmte kennzeichnende Eigenschaften oder mehrere Kriterien innerhalb einer Regel verwendet werden sollen, sollte am besten durch die implementierende Organisation mittels Experimentieren getroffen werden. Beim Optimieren von Regeln in einer Testumgebung können Data Stewards bewerten, welche Regel weniger falsch positive Ergebnisse generiert.

Im Prinzip wird durch Kombinieren kennzeichnender Eigenschaften in einer Abgleichsregel ein UND-Vorgang ausgeführt, während bei Verwendung separater Regeln für eine bestimmte kennzeichnende Eigenschaft der Wert einzeln als Abgleichsfaktor ausgewertet und somit ein potenzieller ODER-Vorgang für mehrere Regeln ausgeführt wird, da diese für eine einzige Kombination aus Knotentyp und Datenquelle ausgewertet werden.

Ein Szenario, in dem die Erstellung mehrerer separater Abgleichsregeln anstelle der Verwendung einer einzigen kombinierten Regel mit mehreren Kriterien sinnvoll sein kann, ist das automatische Akzeptieren von Abgleichsregeln oberhalb eines bestimmten Schwellenwertes für den Abgleichsscore, wenn erwartet wird, dass einige Kriterien den Schwellenwert erreichen und andere nicht.

Beispiel: Übereinstimmungen oberhalb von 90% werden automatisch akzeptiert, wobei als Abgleichskriterien einmal Übereinstimmung bei 100% und einmal Übereinstimmung bei 50% verwendet werden:

Bei zwei separaten Abgleichsregeln wird die Regel mit 100% Übereinstimmung automatisch akzeptiert.
Bei einer Abgleichsregel mit beiden Kriterien beträgt der durchschnittliche Abgleichsscore 75% und liegt somit unterhalb des Schwellenwertes von 90% für das automatische Akzeptieren. Die Übereinstimmung wird nicht automatisch akzeptiert.

In diesem Beispiel würde die Entscheidung zwischen Kombinieren der Kriterien und Erstellen separater Abgleichsregeln also davon abhängen, ob Übereinstimmungen oberhalb eines bestimmten Schwellenwertes automatisch akzeptiert werden sollen oder nicht.

Ich habe versehentlich eine falsche Übereinstimmung akzeptiert. Kann ich meine zuvor akzeptierten Übereinstimmungen prüfen und rückgängig machen?

Nachdem eine Anforderung mit einem abgeglichenen und zusammengeführten Element abgeschlossen und geschlossen wurde, können Sie diesen Abgleichs- und Zusammenführungsvorgang für den vorhandenen Knoten nicht rückgängig machen. Bevor die Anforderung abgeschlossen und geschlossen wird, können Sie den Abgleich für einen vorhandenen Knoten wie folgt rückgängig machen:

Bevor Sie die Änderungen anwenden (indem Sie in der Abgleichs-Workbench auf "Ablehnen" oder "Überspringen" klicken)
Nachdem Sie die Änderungen angewendet haben, aber bevor die Anforderung abgeschlossen wird (indem Sie das Anforderungselement löschen und separat neu erstellen)

Nachdem die Anforderung abgeschlossen und geschlossen wurde, können Sie diesen Abgleich allerdings nicht mehr rückgängig machen. Sie müssen den vorhandenen Zielknoten löschen und erneut hinzufügen, um die gespeicherten Abgleichsinformationen zu löschen.

Wann werden Knotenlinks zwischen Knoten erstellt?

Knotenlinks werden zwischen einem Quell- und einem Zielknoten hergestellt, wenn ein bestehender Zielknoten durch einen eingehenden Quellknoten mit definierter Datenquelle aktualisiert wird. Einzelheiten hierzu finden Sie unter Erläuterungen zu Knotenlinks und Datenquellen.