Referenz zum Anreichern und Transformieren

Mit diesen Referenzinformationen können Sie Daten anreichern und transformieren.

Transformationsreferenz

Hier erfahren Sie mehr über die Datentransformationsoptionen im Transformationseditor, auf die Sie durch Rechtsklick auf eine Dataset-Spalte zugreifen können. Beispiel: Um Rundenzeiten bei Wettrennen in einer Dataset-Spalte zu kategorisieren, könnten Sie mit der rechten Maustaste auf die Spalte für die Rundenzeit klicken und Bin auswählen.

Option Beschreibung
Bin Erstellt eigene benutzerdefinierte Gruppen für Zahlenbereiche. Beispiel: Sie können Bins für eine Altersspalte mit den Altersbereichen Jugendlicher, Junger Erwachsener, Erwachsener oder Senior je nach individuellen Anforderungen erstellen.
In Datum konvertieren Ändert den Datentyp der Spalte in "Datum". Dadurch werden alle Werte, die keine Datumsangaben sind, aus der Spalte gelöscht.
In Zahl konvertieren Ändert den Datentyp der Spalte in Zahl, wobei alle Werte aus der Spalte gelöscht werden, die keine Zahlen sind.
In Text konvertieren Ändert den Datentyp einer Spalte in "Text".
Erstellen Erstellt eine Spalte basierend auf einer Funktion.
Duplizieren Erstellt eine Spalte, deren Inhalt mit dem der ausgewählten Spalte identisch ist.
Bearbeiten Bearbeitet die Spalte. Beispiel: Sie können den Namen ändern, eine andere Spalte auswählen oder Funktionen aktualisieren.
Gruppe, Bedingungsgruppe Wählen Sie Gruppe aus, um Sie Ihre eigenen benutzerdefinierten Gruppen zu erstellen. Beispiel: Sie können Bundesländer/Bundesstaaten mit benutzerdefinierten Regionen gruppieren und Dollarbeträge in Gruppen nach klein, mittel und groß kategorisieren.
Ausblenden Blendet die Spalte im Datenbereich und in den Visualisierungen aus. Um die ausgeblendeten Spalten anzuzeigen, klicken Sie im Seiten-Footer auf Ausgeblendete Spalten (Geistsymbol). Anschließend können Sie einzelne Spalten oder alle ausgeblendeten Spalten gleichzeitig einblenden.
Logarithmus Berechnet den natürlichen Logarithmus eines Ausdrucks.
Kleinbuchstaben Wandelt den Inhalt einer Spalte in ausschließlich Kleinbuchstaben um.
Potenz Potenziert die Werte einer Spalte um die angegebene Potenz. Standardpotenz: 2.
Umbenennen Ermöglicht das Ändern des Namens einer beliebigen Spalte.
Ersetzen Ändert bestimmten Text in der ausgewählten Spalte in einen beliebigen angegebenen Wert. Beispiel: Sie können alle Vorkommen von Mister in der Spalte in Mr. ändern.
Großbuchstaben am Satzanfang Wandelt den Inhalt einer Spalte in Text mit Großschreibung des jeweils ersten Wortes eines Satzes um.
Teilen Teilt einen spezifischen Spaltenwert in mehrere Teile auf. Beispiel: Sie können die Spalte "Name" in Vor- und Nachnamen aufteilen.
Quadratwurzel Erstellt eine Spalte mit der Quadratwurzel des Wertes in der ausgewählten Spalte.
Großbuchstaben Wandelt den Inhalt einer Spalte in ausschließlich Großbuchstaben um.

Datenprofile und semantische Empfehlungen

Wenn Sie ein Dataset erstellen, führt Oracle Analytics Profiling auf Spaltenebene für das Dataset durch, um ein Set aus semantischen Empfehlungen zum Reparieren oder Anreichern der Daten zu generieren. Beim Erstellen von Arbeitsmappen können Sie auch Knowledge-Anreicherungen aus dem Datenbereich zu Ihren Visualisierungen hinzufügen.

Diese Empfehlungen basieren auf der automatischen Erkennung eines bestimmten Semantic Types während des Profilschritts. Beispiel: Datasets, die auf lokalen Themenbereichen basieren, werden dem Profiling mit einer einfachen Top N-Stichprobe unterzogen.

Es gibt verschiedene Kategorien von Semantic Types, wie geografische Standorte (angegeben durch Ortsnamen), erkennbare Muster wie Kreditkartennummern, E-Mail-Adressen und Sozialversicherungsnummern, Datumsangaben und wiederkehrende Muster. Sie können auch eigene, benutzerdefinierte Semantic Types erstellen.

Kategorien von Semantic Types

Profiling wird auf verschiedene Semantic Types angewendet.

Semantic-Type-Kategorien werden dem Profiling unterzogen, um Folgendes zu identifizieren:

  • Geografische Orte wie Ortsnamen
  • Muster wie in Kreditkartennummern oder E-Mail-Adressen
  • Wiederkehrende Muster wie Komposita mit Bindestrichen

Semantic-Type-Empfehlungen

Empfehlungen zum Reparieren, Erweitern oder Anreichern des Datasets werden durch den Typ der Daten bestimmt.

Beispiele für Semantic-Type-Empfehlungen:

  • Anreicherungen: Hinzufügen einer neuen Spalte zu den Daten, die einem bestimmten erkannten Typ wie einem geografischen Ort entspricht. Beispiel: Hinzufügen von Bevölkerungsdaten für einen Ort.
  • Spaltenverkettungen: Wenn zwei Spalten im Dataset erkannt werden, von denen eine Vor- und die andere Nachnamen enthält, empfiehlt das System eine Verkettung der Namen zu einer einzigen Spalte. Beispiel: Die Spalte Vorname_Nachname.
  • Semantische Extraktionen: Wenn ein Semantic Type aus Subtypen wie einer Telefonnummer us_phone mit Vorwahl besteht, empfiehlt das System eine Extraktion des Subtyps in eine eigene Spalte.
  • Teilextraktion: Wenn in den Daten ein generisches Mustertrennzeichen erkannt wird, empfiehlt das System eine Extraktion von Teilen dieses Musters. Beispiel: Wenn das System eine wiederholte Worttrennung durch Bindestrich in den Daten erkennt, empfiehlt es eine Extraktion der Teile in separate Spalten, um die Daten für Analysezwecke potenziell nützlicher zu machen.
  • Datumsextraktionen: Wenn Datumswerte erkannt werden, empfiehlt das System eine Extraktion von Teilen des Datums, die zur Analyse der Daten hilfreich sein können. Beispiel: Extraktion des Wochentags aus einer Rechnung oder einem Kaufdatum.
  • Vollständige und teilweise Obfuskation/Maskierung/Löschung: Wenn sensible Felder wie eine Kreditkartennummer erkannt werden, empfiehlt das System eine vollständige oder teilweise Maskierung oder sogar das Entfernen der Spalte.

Semantic Types auf Basis erkannter Muster

Semantic Types werden basierend auf Mustern in den Daten identifiziert.

Für diese Semantic Types werden Empfehlungen abgegeben:

  • Datumswerte (in mehr als 30 Formaten)
  • US-Sozialversicherungsnummern (SSN)
  • Kreditkartennummern
  • Kreditkartenattribute (CVV und Ablaufdatum)
  • E-Mail-Adressen
  • Nordamerikanische Telefonnummern
  • US-Adressen

Referenzbasierte Semantic Types

Die Erkennung von Semantic Types wird durch geladene Referenzdaten bestimmt, die mit dem Service bereitgestellt werden.

Für diese Semantic Types werden referenzbasierte Empfehlungen abgegeben:

  • Ländernamen
  • Ländercodes
  • Bundesstaats-/Bundeslandnamen (Regionen)
  • Bundesstaats-/Bundeslandcodes
  • Bezirks-/Kreisnamen (Zuständigkeiten)
  • Ortsnamen (lokalisierte Namen)
  • Postleitzahlen

Empfohlene Anreicherungen

Empfohlene Anreicherungen basierend auf den Semantic Types.

Anreicherungen werden basierend auf der geografischen Standorthierarchie bestimmt:

  • Land
  • Region (Bundesstaat/Bundesland)
  • Zuständigkeit (Bezirk/Kreis)
  • Längengrad
  • Breitengrad
  • Bevölkerung
  • Höhe (in Metern)
  • Zeitzone
  • ISO-Ländercodes
  • Federal Information Processing Series (FIPS)
  • Ländername
  • Hauptstadt
  • Kontinent
  • GeoNames-ID
  • Sprachen
  • Landesvorwahl
  • Postleitzahlenformat
  • Postleitzahlenmuster
  • Landesvorwahl
  • Währungsname
  • Währungskürzel
  • Geografische Top-Level-Domain (GeoTLD)
  • Quadratkilometer

Erforderliche Schwellenwerte

Der Profilingprozess nutzt bestimmte Schwellenwerte, um Entscheidungen zu bestimmten Semantic Types zu treffen.

Im Allgemeinen müssen 85 % der Datenwerte in der Spalte die Kriterien für einen einzelnen Semantic Type erfüllen, damit die Klassifizierung vorgenommen wird. Eine Spalte mit 70 % Vornamen und 30 % sonstigen Daten erfüllt daher nicht die Schwellenwertanforderungen, sodass in diesem Fall keine Empfehlungen gegeben werden.

Benutzerdefinierte Knowledge-Empfehlungen

Mit benutzerdefinieren Knowledge-Empfehlungen können Sie die Oracle Analytics-System-Knowledge-Ressourcen ergänzen. Mit benutzerdefinierten Knowledge-Ressourcen kann der semantische Profiler von Oracle Analytics geschäftsspezifischere Semantic Types identifizieren und relevantere und besser gesteuerte Anreicherungsempfehlungen abgeben. Beispiel: Sie können eine benutzerdefinierte Knowledge-Referenz hinzufügen, die verschreibungspflichtige Medikamente in die USP-Arzneimittelkategorien "Analgetika" und "Opioide" einteilt.

Tutorialsymbol Tutorial

Sie können vorhandene semantische Dateien wie Unsupervised Semantic Parsing-(USP-)Dateien verwenden oder eigene semantische Dateien erstellen. Bitten Sie den Administrator, benutzerdefinierte Knowledge-Dateien in Oracle Analytics hochzuladen. Wenn Sie Datasets anreichern, präsentiert Oracle Analytics Anreicherungsempfehlungen basierend auf diesen semantischen Daten. Beim Erstellen von Arbeitsmappen können Sie auch Knowledge-Anreicherungen aus dem Datenbereich zu Ihren Visualisierungen hinzufügen.

Eigene benutzerdefinierte Knowledge-Dateien erstellen

Befolgen Sie beim Erstellen von eigenen semantischen Dateien folgende Richtlinien:

  • Erstellen Sie eine Datendatei im CSV- oder Microsoft Excel-(XLSX-)Format. Sie können Dateien bis zu einer Maximalgröße von 250 MB hochladen.
  • Füllen Sie die erste Spalte mit dem Schlüssel, mit dem Oracle Analytics das Profiling der Daten durchführt.
  • Füllen Sie die anderen Spalten mit den Anreicherungswerten.

Bitten Sie den Administrator, die benutzerdefinierte Knowledge-Datei in Oracle Analytics hochzuladen.

Allgemeine benutzerdefinierte Formatzeichenfolgen

Mit allgemeinen benutzerdefinierten Formatzeichenfolgen können Sie benutzerdefinierte Uhrzeit- oder Datumsformate erstellen.

In der Tabelle sind die allgemeinen benutzerdefinierten Formatzeichenfolgen und ihr jeweiliges Ergebnis aufgeführt. Sie ermöglichen die Anzeige von Datums- und Uhrzeitfeldern im Gebietsschema des Benutzers.

Allgemeine Formatzeichenfolge Ergebnis

[FMT:dateShort]

Formatiert das Datum im kurzen Datumsformat des Gebietsschemas. Sie können auch [FMT:date] eingeben.

[FMT:dateLong]

Formatiert das Datum im langen Datumsformat des Gebietsschemas.

[FMT:dateInput]

Formatiert das Datum in einem Format, das für Eingaben ins System geeignet ist

[FMT:time]

Formatiert die Uhrzeit im Zeitformat des Gebietsschemas.

[FMT:timeHourMin]

Formatiert die Uhrzeit im Zeitformat des Gebietsschemas, jedoch ohne Sekunden.

[FMT:timeInput]

Formatiert die Uhrzeit in einem Format, das für Eingaben ins System geeignet ist

[FMT:timeInputHourMin]

Formatiert die Uhrzeit in einem Format, das für Eingaben ins System geeignet ist, jedoch ohne Sekunden.

[FMT:timeStampShort]

Äquivalent zur Eingabe [FMT:dateShort] [FMT:time]. Formatiert das Datum im kurzen Datumsformat des Gebietsschemas und die Uhrzeit im Uhrzeitformat des Gebietsschemas. Sie können auch [FMT:timeStamp] eingeben.

[FMT:timeStampLong]

Äquivalent zur Eingabe [FMT:dateLong] [FMT:time]. Formatiert das Datum im langen Datumsformat des Gebietsschemas und die Uhrzeit im Uhrzeitformat des Gebietsschemas.

[FMT:timeStampInput]

Äquivalent zu [FMT:dateInput] [FMT:timeInput]. Formatiert das Datum und die Uhrzeit in einem Format, das für Eingaben ins System geeignet ist.

[FMT:timeHour]

Formatiert nur das Stundenfeld im Format des Gebietsschemas. Beispiel: 8 PM.

YY oder yy

Zeigt die letzten beiden Ziffern der Jahreszahl an. Beispiel: 11 für 2011.

YYY oder yyy

Zeigt die letzten drei Ziffern der Jahreszahl an. Beispiel: 011 für 2011.

YYYY oder yyyy

Zeigt die vierstellige Jahreszahl an. Beispiel: 2011.

M

Zeigt den Monat als Zahl, Beispiel: 2 für Februar.

MM

Zeigt den Monat als Zahl mit vorangestellter Null bei einstelligen Monaten, Beispiel: 02 für Februar.

MMM

Zeigt den abgekürzten Namen des Monats gemäß dem Gebietsschema des Benutzers, Beispiel: Feb.

MMMM

Zeigt den vollständigen Monatsnamen gemäß Gebietsschema des Benutzers, Beispiel: Februar.

D oder d

Zeigt den Tag des Monats, Beispiel: 1.

DD oder dd

Zeigt den Tag des Monats mit vorangestellter Null bei einstelligen Tagen, Beispiel: 01.

DDD oder ddd

Zeigt den abgekürzten Namen des Wochentags gemäß dem Gebietsschema des Benutzers, Beispiel: Do für Donnerstag.

DDDD oder dddd

Zeigt den vollständigen Namen des Wochentags gemäß dem Gebietsschema des Benutzers, Beispiel: Donnerstag.

DDDDD oder ddddd

Zeigt den ersten Buchstaben des Namens des Wochentags gemäß dem Gebietsschema des Benutzers, Beispiel: D für Donnerstag.

r

Zeigt den Tag des Jahres, Beispiel: 1.

rr

Zeigt den Tag des Jahres mit vorangestellter Null bei einstelligen Tagen, Beispiel: 01.

rrr

Zeigt den Tag des Jahres mit mindestens einer vorangestellten Null bei ein- oder zweistelligen Tagen, Beispiel: 001.

w

Zeigt die Woche des Jahres, Beispiel: 1.

ww

Zeigt die Woche des Jahres mit vorangestellter Null bei einstelligen Wochen, Beispiel: 01.

q

Zeigt das Quartal des Jahres, Beispiel: 4.

h

Zeigt die Stunde im 12-Stundenformat, Beispiel: 2.

H

Zeigt die Stunde im 24-Stundenformat, Beispiel: 23.

hh

Zeigt die Stunde im 12-Stundenformat mit vorangestellter Null bei einstelliger Stundenzahl, Beispiel: 01.

HH

Zeigt die Stunde im 24-Stundenformat mit vorangestellter Null bei einstelliger Stundenzahl, Beispiel: 23.

m

Zeigt die Minute, Beispiel: 7.

mm

Zeigt die Minute mit vorangestellter Null bei einstelliger Minutenzahl, Beispiel: 07.

s

Zeigt die Sekunde, Beispiel: 2.

Sie können auch Dezimalzahlen in die Zeichenfolge aufnehmen, Beispiel: s.# oder s.00. (Dabei steht # für eine optionale und 00 für eine obligatorische Ziffer.)

ss

Zeigt die Sekunde mit vorangestellter Null bei einstelliger Sekundenzahl, Beispiel: 02.

Sie können auch Dezimalzahlen in die Zeichenfolge aufnehmen, Beispiel: ss.# oder ss.00. (Dabei steht # für eine optionale und 0 für eine obligatorische Ziffer.)

S

Zeigt die Millisekunde, Beispiel: 2.

SS

Zeigt die Millisekunde mit vorangestellter Null bei einstelliger Millisekundenzahl, Beispiel: 02.

SSS

Zeigt die Millisekunde mit vorangestellter Null bei einstelliger Millisekundenzahl, Beispiel: 002.

tt

Zeigt die Abkürzung für "ante meridiem" (vormittags) oder "post meridiem" (nachmittags) gemäß dem Gebietsschema des Benutzers, Beispiel: pm.

gg

Zeigt die Ära gemäß dem Gebietsschema des Benutzers.