Datenprofile und semantische Empfehlungen

Wenn Sie ein Dataset erstellen, führt Oracle Analytics Profiling auf Spaltenebene für das Dataset durch, um ein Set aus semantischen Empfehlungen zum Reparieren oder Anreichern der Daten zu generieren. Beim Erstellen von Arbeitsmappen können Sie auch Knowledge-Anreicherungen aus dem Datenbereich zu Ihren Visualisierungen hinzufügen.

Diese Empfehlungen basieren auf der automatischen Erkennung eines bestimmten Semantic Types während des Profilschritts. Beispiel: Datasets, die auf lokalen Themenbereichen basieren, werden dem Profiling mit einer einfachen Top N-Stichprobe unterzogen.

Es gibt verschiedene Kategorien von Semantic Types, wie geografische Standorte (angegeben durch Ortsnamen), erkennbare Muster wie Kreditkartennummern, E-Mail-Adressen und Sozialversicherungsnummern, Datumsangaben und wiederkehrende Muster. Sie können auch eigene, benutzerdefinierte Semantic Types erstellen.

Kategorien von Semantic Types

Profiling wird auf verschiedene Semantic Types angewendet.

Semantic-Type-Kategorien werden dem Profiling unterzogen, um Folgendes zu identifizieren:

  • Geografische Orte wie Ortsnamen
  • Muster wie in Kreditkartennummern oder E-Mail-Adressen
  • Wiederkehrende Muster wie Komposita mit Bindestrichen

Semantic-Type-Empfehlungen

Empfehlungen zum Reparieren, Erweitern oder Anreichern des Datasets werden durch den Typ der Daten bestimmt.

Beispiele für Semantic-Type-Empfehlungen:

  • Anreicherungen: Hinzufügen einer neuen Spalte zu den Daten, die einem bestimmten erkannten Typ wie einem geografischen Ort entspricht. Beispiel: Hinzufügen von Bevölkerungsdaten für einen Ort.
  • Spaltenverkettungen: Wenn zwei Spalten im Dataset erkannt werden, von denen eine Vor- und die andere Nachnamen enthält, empfiehlt das System eine Verkettung der Namen zu einer einzigen Spalte. Beispiel: Die Spalte Vorname_Nachname.
  • Semantische Extraktionen: Wenn ein Semantic Type aus Subtypen wie einer Telefonnummer us_phone mit Vorwahl besteht, empfiehlt das System eine Extraktion des Subtyps in eine eigene Spalte.
  • Teilextraktion: Wenn in den Daten ein generisches Mustertrennzeichen erkannt wird, empfiehlt das System eine Extraktion von Teilen dieses Musters. Beispiel: Wenn das System eine wiederholte Worttrennung durch Bindestrich in den Daten erkennt, empfiehlt es eine Extraktion der Teile in separate Spalten, um die Daten für Analysezwecke potenziell nützlicher zu machen.
  • Datumsextraktionen: Wenn Datumswerte erkannt werden, empfiehlt das System eine Extraktion von Teilen des Datums, die zur Analyse der Daten hilfreich sein können. Beispiel: Extraktion des Wochentags aus einer Rechnung oder einem Kaufdatum.
  • Vollständige und teilweise Obfuskation/Maskierung/Löschung: Wenn sensible Felder wie eine Kreditkartennummer erkannt werden, empfiehlt das System eine vollständige oder teilweise Maskierung oder sogar das Entfernen der Spalte.

Semantic Types auf Basis erkannter Muster

Semantic Types werden basierend auf Mustern in den Daten identifiziert.

Für diese Semantic Types werden Empfehlungen abgegeben:

  • Datumswerte (in mehr als 30 Formaten)
  • US-Sozialversicherungsnummern (SSN)
  • Kreditkartennummern
  • Kreditkartenattribute (CVV und Ablaufdatum)
  • E-Mail-Adressen
  • Nordamerikanische Telefonnummern
  • US-Adressen

Referenzbasierte Semantic Types

Die Erkennung von Semantic Types wird durch geladene Referenzdaten bestimmt, die mit dem Service bereitgestellt werden.

Für diese Semantic Types werden referenzbasierte Empfehlungen abgegeben:

  • Ländernamen
  • Ländercodes
  • Bundesstaats-/Bundeslandnamen (Regionen)
  • Bundesstaats-/Bundeslandcodes
  • Bezirks-/Kreisnamen (Zuständigkeiten)
  • Ortsnamen (lokalisierte Namen)
  • Postleitzahlen

Empfohlene Anreicherungen

Empfohlene Anreicherungen basierend auf den Semantic Types.

Anreicherungen werden basierend auf der geografischen Standorthierarchie bestimmt:

  • Land
  • Region (Bundesstaat/Bundesland)
  • Zuständigkeit (Bezirk/Kreis)
  • Längengrad
  • Breitengrad
  • Bevölkerung
  • Höhe (in Metern)
  • Zeitzone
  • ISO-Ländercodes
  • Federal Information Processing Series (FIPS)
  • Ländername
  • Hauptstadt
  • Kontinent
  • GeoNames-ID
  • Sprachen
  • Landesvorwahl
  • Postleitzahlenformat
  • Postleitzahlenmuster
  • Landesvorwahl
  • Währungsname
  • Währungskürzel
  • Geografische Top-Level-Domain (GeoTLD)
  • Quadratkilometer

Erforderliche Schwellenwerte

Der Profilingprozess nutzt bestimmte Schwellenwerte, um Entscheidungen zu bestimmten Semantic Types zu treffen.

Im Allgemeinen müssen 85 % der Datenwerte in der Spalte die Kriterien für einen einzelnen Semantic Type erfüllen, damit die Klassifizierung vorgenommen wird. Eine Spalte mit 70 % Vornamen und 30 % sonstigen Daten erfüllt daher nicht die Schwellenwertanforderungen, sodass in diesem Fall keine Empfehlungen gegeben werden.

Benutzerdefinierte Knowledge-Empfehlungen

Mit benutzerdefinieren Knowledge-Empfehlungen können Sie die Oracle Analytics-System-Knowledge-Ressourcen ergänzen. Mit benutzerdefinierten Knowledge-Ressourcen kann der semantische Profiler von Oracle Analytics geschäftsspezifischere Semantic Types identifizieren und relevantere und besser gesteuerte Anreicherungsempfehlungen abgeben. Beispiel: Sie können eine benutzerdefinierte Knowledge-Referenz hinzufügen, die verschreibungspflichtige Medikamente in die USP-Arzneimittelkategorien "Analgetika" und "Opioide" einteilt.

Tutorialsymbol Tutorial