Wie werden Abgleichsscores berechnet und verwendet?
Der genaue Mechanismus zur Berechnung eines Abgleichsscores hängt von verschiedenen Faktoren wie dem Datentyp (Zeichenfolge, Ganzzahl, Datum usw.), dem Abgleichstyp (enthält, ähnelt, zwischen) sowie davon ab, ob die Abgleichsvorgänge kombiniert werden. Im Allgemeinen deutet ein höherer Abgleichsscore jedoch darauf hin, dass mehr Abgleichskriterien für einen Kandidaten erfüllt sind.
Beispiele zur Erläuterung der Berechnung eines Abgleichsscores:
Beispiel 1
In diesem Beispiel wird von der Abgleichsregel die Eigenschaft "Name" (eine Zeichenfolge) abgeglichen:
Der Zielname für den Abgleich ist "Atkins Pearson International", und der abzugleichende Quellname ist "Baker H. International".
In diesem Beispiel enthält der Zielname 28 Zeichen, von denen 17 mit dem Quellnamen übereinstimmen ("a", "k", zwei Leerzeichen sowie die gesamte Zeichenfolge "International"). Somit stimmen etwa 61% (17 von 28) der Zeichen überein, was einem Abgleichsscore von 61 entspricht.
Beispiel 2
Im zweiten Beispiel werden die beiden Zeichenfolgeneigenschaften "Name" und "Industry" abgeglichen:
Der Zielname für den Abgleich ist "Andrews Corporation", und die Zielbranche ist "Diagnostics & Research". Der Quellname ist "Andrews", und die Quellbranche ist "Diagnostics & Research".
In diesem Fall stimmt der Quellname mit 37% (7 von 19) der Zeichen im Zielnamen überein, und die Quellbranche stimmt zu 100% mit der Zielbranche überein. Da es sich um einen kombinierten Abgleich handelt, wird mit der Rechnung (37+100)/2 der Durchschnitt ermittelt, sodass sich ein Abgleichsscore von 68 ergibt.
Bei anderen Datentypen und Abgleichsvorgängen wird der Abgleichsscore anhand ähnlicher Berechnungen ermittelt.
Sollte ich einen Code oder einen Datenquellennamen in einer Ladedatei verwenden?
Beim Verarbeiten einer Anforderungsdatei mit Datenquelleninformationen wird die Datenquelle für jeden Knoten auf zwei Arten ermittelt:
Da sich Datenquellennamen im Laufe der Zeit ändern können, wird als Best Practice empfohlen, immer einen Code für die Datenquellen zu konfigurieren und statt eines Datenquellennamens diesen Code in den Anforderungsdateien zu verwenden.
Kann ich eine Survivorship-Regel für eine registrierte Datenquelle erstellen?
Mit Survivorship-Regeln wird bestimmt, welche Eigenschaften und Beziehungen einer nicht registrierten Datenquelle von einem akzeptierten Übereinstimmungskandidaten mit dem übereinstimmenden Knoten eines Knotentyps zusammengeführt werden. Bestimmen Sie bei nicht registrierten Datenquellen mit einem Knotentypconverter, wie die Eigenschaften und Beziehungen von einem Übereinstimmungskandidaten mit übereinstimmenden Zielknoten zusammengeführt werden. Informationen hierzu finden Sie unter Mit Knotentypconvertern arbeiten. Für registrierte Datenquellen müssen Sie keine Survivorship-Regeln erstellen.
Tip:
Obwohl mit Knotentypconvertern für registrierte Datenquellen bestimmt wird, welche Eigenschaften zum Zusammenführen von einem akzeptierten Übereinstimmungskandidaten mit einem übereinstimmenden Knoten in einem Knotentyp verfügbar sind, können Sie dennoch entscheiden, welche dieser Eigenschaften zusammengeführt wird. Mit den Optionsfeldern "Quellknoten" und "Zielknoten" im Bereich "Abgleichsergebnisse" können Sie bestimmen, welche Werte beibehalten werden sollen. Informationen hierzu finden Sie unter Beizubehaltende Eigenschaften bei einer Zusammenführung auswählen.Sollten beim Erstellen von Abgleichsregeln mehrere Kriterien zu einer Regel hinzugefügt oder besser separate Regeln erstellt werden?
Die Entscheidung, ob separate Abgleichsregeln für bestimmte kennzeichnende Eigenschaften oder mehrere Kriterien innerhalb einer Regel verwendet werden sollen, sollte am besten durch die implementierende Organisation mittels Experimentieren getroffen werden. Beim Optimieren von Regeln in einer Testumgebung können Data Stewards bewerten, welche Regel weniger falsch positive Ergebnisse generiert.
Im Prinzip wird durch Kombinieren kennzeichnender Eigenschaften in einer Abgleichsregel ein UND-Vorgang ausgeführt, während bei Verwendung separater Regeln für eine bestimmte kennzeichnende Eigenschaft der Wert einzeln als Abgleichsfaktor ausgewertet und somit ein potenzieller ODER-Vorgang für mehrere Regeln ausgeführt wird, da diese für eine einzige Kombination aus Knotentyp und Datenquelle ausgewertet werden.
Ein Szenario, in dem die Erstellung mehrerer separater Abgleichsregeln anstelle der Verwendung einer einzigen kombinierten Regel mit mehreren Kriterien sinnvoll sein kann, ist das automatische Akzeptieren von Abgleichsregeln oberhalb eines bestimmten Schwellenwertes für den Abgleichsscore, wenn erwartet wird, dass einige Kriterien den Schwellenwert erreichen und andere nicht.
Beispiel: Übereinstimmungen oberhalb von 90% werden automatisch akzeptiert, wobei als Abgleichskriterien einmal Übereinstimmung bei 100% und einmal Übereinstimmung bei 50% verwendet werden:
In diesem Beispiel würde die Entscheidung zwischen Kombinieren der Kriterien und Erstellen separater Abgleichsregeln also davon abhängen, ob Übereinstimmungen oberhalb eines bestimmten Schwellenwertes automatisch akzeptiert werden sollen oder nicht.
Ich habe versehentlich eine falsche Übereinstimmung akzeptiert. Kann ich meine zuvor akzeptierten Übereinstimmungen prüfen und rückgängig machen?
Nachdem eine Anforderung mit einem abgeglichenen und zusammengeführten Element abgeschlossen und geschlossen wurde, können Sie diesen Abgleichs- und Zusammenführungsvorgang für den vorhandenen Knoten nicht rückgängig machen. Bevor die Anforderung abgeschlossen und geschlossen wird, können Sie den Abgleich für einen vorhandenen Knoten wie folgt rückgängig machen:
Nachdem die Anforderung abgeschlossen und geschlossen wurde, können Sie diesen Abgleich allerdings nicht mehr rückgängig machen. Sie müssen den vorhandenen Zielknoten löschen und erneut hinzufügen, um die gespeicherten Abgleichsinformationen zu löschen.
Wann werden Knotenlinks zwischen Knoten erstellt?
Knotenlinks werden zwischen einem Quell- und einem Zielknoten hergestellt, wenn ein bestehender Zielknoten durch einen eingehenden Quellknoten mit definierter Datenquelle aktualisiert wird. Einzelheiten hierzu finden Sie unter Erläuterungen zu Knotenlinks und Datenquellen.