Datenprofile und semantische Empfehlungen

Wenn Sie ein Dataset erstellen, führt Oracle Analytics Profiling auf Spaltenebene für das Dataset durch, um ein Set aus semantischen Empfehlungen zum Reparieren oder Anreichern der Daten zu generieren. Beim Erstellen von Arbeitsmappen können Sie auch Knowledge-Anreicherungen aus dem Datenbereich zu Ihren Visualisierungen hinzufügen.

Hinweis:

Knowledge-Anreicherungen sind in der Regel standardmäßig aktiviert. Arbeitsmappenbearbeiter können sie aber für Datasets, bei denen sie Eigentümer oder zur Bearbeitung berechtigt sind, aktivieren oder deaktivieren. Oracle Analytics stellt nicht automatisch Anreicherungsempfehlungen für Datasets bereit, die aus einem Datenfluss generiert wurden. In diesem Fall muss der Dataset-Eigentümer oder -Administrator zuerst die Knowledge-Anreicherungsoption für das Dataset aktivieren. Siehe Knowledge-Anreicherungen für Datasets aktivieren.

Diese Empfehlungen basieren auf der automatischen Erkennung eines bestimmten Semantic Types während des Profilschritts. Beispiel: Datasets, die auf lokalen Themenbereichen basieren, werden dem Profiling mit einer einfachen Top N-Stichprobe unterzogen.

Es gibt verschiedene Kategorien von Semantic Types, wie geografische Standorte (angegeben durch Ortsnamen), erkennbare Muster wie Kreditkartennummern, E-Mail-Adressen und Sozialversicherungsnummern, Datumsangaben und wiederkehrende Muster. Sie können auch eigene, benutzerdefinierte Semantic Types erstellen.

Kategorien von Semantic Types

Profiling wird auf verschiedene Semantic Types angewendet.

Semantic-Type-Kategorien werden dem Profiling unterzogen, um Folgendes zu identifizieren:

  • Geografische Orte wie Ortsnamen
  • Muster wie in Kreditkartennummern oder E-Mail-Adressen
  • Wiederkehrende Muster wie Komposita mit Bindestrichen

Semantic-Type-Empfehlungen

Empfehlungen zum Reparieren, Erweitern oder Anreichern des Datasets werden durch den Typ der Daten bestimmt.

Beispiele für Semantic-Type-Empfehlungen:

  • Anreicherungen: Hinzufügen einer neuen Spalte zu den Daten, die einem bestimmten erkannten Typ wie einem geografischen Ort entspricht. Beispiel: Hinzufügen von Bevölkerungsdaten für einen Ort.
  • Spaltenverkettungen: Wenn zwei Spalten im Dataset erkannt werden, von denen eine Vor- und die andere Nachnamen enthält, empfiehlt das System eine Verkettung der Namen zu einer einzigen Spalte. Beispiel: Die Spalte Vorname_Nachname.
  • Semantische Extraktionen: Wenn ein Semantic Type aus Subtypen wie einer Telefonnummer us_phone mit Vorwahl besteht, empfiehlt das System eine Extraktion des Subtyps in eine eigene Spalte.
  • Teilextraktion: Wenn in den Daten ein generisches Mustertrennzeichen erkannt wird, empfiehlt das System eine Extraktion von Teilen dieses Musters. Beispiel: Wenn das System eine wiederholte Worttrennung durch Bindestrich in den Daten erkennt, empfiehlt es eine Extraktion der Teile in separate Spalten, um die Daten für Analysezwecke potenziell nützlicher zu machen.
  • Datumsextraktionen: Wenn Datumswerte erkannt werden, empfiehlt das System eine Extraktion von Teilen des Datums, die zur Analyse der Daten hilfreich sein können. Beispiel: Extraktion des Wochentags aus einer Rechnung oder einem Kaufdatum.
  • Vollständige und teilweise Obfuskation/Maskierung/Löschung: Wenn sensible Felder wie eine Kreditkartennummer erkannt werden, empfiehlt das System eine vollständige oder teilweise Maskierung oder sogar das Entfernen der Spalte.

Semantic Types auf Basis erkannter Muster

Semantic Types werden basierend auf Mustern in den Daten identifiziert.

Für diese Semantic Types werden Empfehlungen abgegeben:

  • Datumswerte (in mehr als 30 Formaten)
  • US-Sozialversicherungsnummern (SSN)
  • Kreditkartennummern
  • Kreditkartenattribute (CVV und Ablaufdatum)
  • E-Mail-Adressen
  • Nordamerikanische Telefonnummern
  • US-Adressen

Referenzbasierte Semantic Types

Die Erkennung von Semantic Types wird durch geladene Referenzdaten bestimmt, die mit dem Service bereitgestellt werden.

Für diese Semantic Types werden referenzbasierte Empfehlungen abgegeben:

  • Ländernamen
  • Ländercodes
  • Bundesstaats-/Bundeslandnamen (Regionen)
  • Bundesstaats-/Bundeslandcodes
  • Bezirks-/Kreisnamen (Zuständigkeiten)
  • Ortsnamen (lokalisierte Namen)
  • Postleitzahlen

Empfohlene Anreicherungen

Empfohlene Anreicherungen basierend auf den Semantic Types.

Anreicherungen werden basierend auf der geografischen Standorthierarchie bestimmt:

  • Land
  • Region (Bundesstaat/Bundesland)
  • Zuständigkeit (Bezirk/Kreis)
  • Längengrad
  • Breitengrad
  • Bevölkerung
  • Höhe (in Metern)
  • Zeitzone
  • ISO-Ländercodes
  • Federal Information Processing Series (FIPS)
  • Ländername
  • Hauptstadt
  • Kontinent
  • GeoNames-ID
  • Sprachen
  • Landesvorwahl
  • Postleitzahlenformat
  • Postleitzahlenmuster
  • Landesvorwahl
  • Währungsname
  • Währungskürzel
  • Geografische Top-Level-Domain (GeoTLD)
  • Quadratkilometer

Erforderliche Schwellenwerte

Der Profilingprozess nutzt bestimmte Schwellenwerte, um Entscheidungen zu bestimmten Semantic Types zu treffen.

Im Allgemeinen müssen 85 % der Datenwerte in der Spalte die Kriterien für einen einzelnen Semantic Type erfüllen, damit die Klassifizierung vorgenommen wird. Eine Spalte mit 70 % Vornamen und 30 % sonstigen Daten erfüllt daher nicht die Schwellenwertanforderungen, sodass in diesem Fall keine Empfehlungen gegeben werden.

Benutzerdefinierte Knowledge-Empfehlungen

Mit benutzerdefinieren Knowledge-Empfehlungen können Sie die Oracle Analytics-System-Knowledge-Ressourcen erweitern. Mit benutzerdefinierten Knowledge-Ressourcen kann der semantische Profiler von Oracle Analytics geschäftsspezifischere Semantic Types identifizieren und relevantere und besser gesteuerte Anreicherungsempfehlungen abgeben. Beispiel: Sie können eine benutzerdefinierte Knowledge-Referenz hinzufügen, die verschreibungspflichtige Medikamente in die USP-Arzneimittelkategorien "Analgetika" und "Opioide" einteilt.

Tutorialsymbol Tutorial

Bitten Sie den Administrator, benutzerdefinierte Knowledge-Dateien in Oracle Analytics hochzuladen. Wenn Sie Datasets anreichern, präsentiert Oracle Analytics Anreicherungsempfehlungen basierend auf diesen semantischen Daten. Beim Erstellen von Arbeitsmappen können Sie auch Knowledge-Anreicherungen aus dem Datenbereich zu Ihren Visualisierungen hinzufügen.

Eigene benutzerdefinierte Knowledge-Dateien erstellen

Befolgen Sie beim Erstellen von semantischen Dateien folgende Richtlinien:

  • Erstellen Sie eine Datendatei im CSV- oder Microsoft Excel-(XLSX-)Format. Sie können Dateien bis zu einer Maximalgröße von 250 MB hochladen.
  • Füllen Sie die erste Spalte mit dem Schlüssel, mit dem Oracle Analytics das Profiling der Daten durchführt. Beispiel: Der Schlüssel kann ein Datum mit der Granularität "Tag" sein, damit Daten nach Geschäftsjahr analysiert werden können.
  • Füllen Sie die anderen Spalten mit den Anreicherungswerten.

Bitten Sie den Administrator, die benutzerdefinierte Knowledge-Datei in Oracle Analytics hochzuladen.

Beispiel: Geschäftszeitrahmen in Ihre Daten integrieren

Dieses Beispiel zeigt, wie Sie Geschäftszeitrahmen zu Umsatzdaten hinzufügen und die Umsatzanalyse nach Geschäftsjahr aktivieren können, wenn das ursprüngliche Dataset keine Geschäftsdaten enthält.

Die Beispielvisualisierung zeigt den Umsatz nach Quartal in den Jahren 2019, 2020, 2021, 2022 und 2023, wobei jedes Jahr in einer anderen Farbe dargestellt wird. Ihre Quellumsatzdaten enthalten keine Geschäftsdaten. Daher stellen Sie zusätzliche benutzerdefinierte Knowledge-Ressourcen bereit, um Ihrem Dataset Geschäftsdaten hinzuzufügen.

Zunächst bereiten Sie Geschäftsdaten in der Datei Fiscal Calendar.xlsx vor. Ihre Datei enthält das Datum (tt-mm-jjjj), das Geschäftsjahr, den Geschäftsmonat und die Geschäftswoche. Beispiel: Ihre Quelldatei könnte 01-23-2025 in der Datumsspalte, 2025 in der Spalte für das Geschäftsjahr und die Attribute zum Ausfüllen der restlichen Spalten enthalten.

Bitten Sie den Administrator, Fiscal Calendar.xlsx in den Bereich für benutzerdefinierte Knowledge-Ressourcen in der Konsole hochzuladen.

Anschließend erstellen Sie ein Dataset mit "Sales" und ORDER_DATE. Wählen Sie im Dataset-Editor in den Anreicherungsempfehlungen die Optionen Enrich ORDER_DATE WITH Fiscal Year und Enrich ORDER_DATE with Fiscal Month aus. Oracle Analytics fügt diese beiden Anreicherungen zum Dataset hinzu.

Schließlich erstellen Sie eine Arbeitsmappe und fügen Fiscal Year und Fiscal Qtr (unter ORDER_DATE) sowie Sales zu einer Visualisierung hinzu. Hinweis: Sie können Fiscal Year und Fiscal Qtr direkt hinzufügen, ohne die ursprüngliche Spalte ORDER_DATE hinzufügen zu müssen.