Supplere og omforme referanse

Bruk disse referanseopplysningene som en hjelp til å supplere og omforme dataene.

Omformingsreferanse

Finn ut mer om dataomformingsvalgene du kan få tilgang til i redigeringsprogrammet for omforming. Hvis du for eksempel vil kategorisere rundetider for et løp i en datasettkolonne, kan du bruke valget Rute.

Du angir omformingsvalg i redigeringsprogrammet for omforming ved å åpne datasettet, klikke på Valg (ellipsen øverst til høyre i datakolonnen Ellipse) og angi et valg (for eksempel Rute, Gi nytt navn eller Konverter til tekst).


Beskrivelse av GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png følger
.png

Valg Beskrivelse
Rute Oppretter egendefinerte grupper for tallområder. Du kan for eksempel opprette ruter for en alderskolonne med aldersområder som deles inn i Barn, Ungdom, Voksne og Eldre, basert på egendefinerte krav.
Beregn varighet Beregner varigheten mellom to datoer eller klokkeslett. Hvis du for eksempel vil analysere tidspunkt for ordrelevering, kan du beregne antallet dager mellom ORDER_DATE og DELIVERY_DATE.
Konverter til dato Endrer datatypen for kolonnen til dato, og sletter alle verdier som ikke er datoer, fra kolonnen.
Konverter til tall Endrer datatypen for kolonnen til tall og sletter alle verdier som ikke er tall, fra kolonnen.
Konverter til tekst Endre datatypen for en kolonne til tekst.
Opprett Oppretter en kolonne basert på en funksjon.
Dupliser Oppretter en kolonne med samme innhold som den valgte kolonnen.
Rediger Endrer kolonnedetaljene. Du kan for eksempel endre navnet, velge en annen kolonne eller oppdatere funksjoner.
Uttrekk – dato Trekker ut et intervall med opplysninger om dato og klokkeslett fra tidsstempler. Du kan for eksempel trekke ut året 2024, dag 23 i måneden eller klokkeslettet 15.00.
Gruppe, Betinget gruppe Velg Gruppe hivs du vil opprette egendefinerte grupper. Du kan for eksempel gruppere delstater sammen med egendefinerte områder, og du kan kategorisere dollarbeløp i grupper som angir små, middels og store.
Skjul Skjuler kolonnen i ruten Data og i visualiseringene. Hvis du vil se de skjulte kolonnene, klikker du på Skjulte kolonner (skyggeikon) i sidebunnteksten. Deretter kan du vise enkeltkolonner eller vise alle skjulte kolonner samtidig.
Logg Beregner den naturlige logaritmen for et uttrykk.
Små bokstaver Oppdaterer innholdet i en kolonne slik at verdiene får bare små bokstaver.
Potens Opphøyer verdiene i en kolonne i potensen du angir. Standardpotensen er 2.
Gi nytt navn Endrer navnet på en kolonne.
Erstatt Endrer bestemt tekst i den valgte kolonnen til en hvilken som helst verdi du angir. Du kan for eksempel endre alle forekomster av Herr til Hr..
Store eller små bokstaver i setning Oppdaterer innholdet i en kolonne slik at den første bokstaven i det første ordet i en setning får stor bokstav.
Del opp Deler en kolonneverdi inn i deler. Du kan for eksempel dele opp en kolonne som heter Navn, i fornavn og etternavn.
Kvadratrot Oppretter en kolonne som fylles ut med kvadratroten av verdien i den valgte kolonnen.
Store bokstaver Oppdaterer innholdet i en kolonne slik at verdiene får bare store bokstaver.

Dataprofiler og semantiske anbefalinger

Når du oppretter et datasett, utfører Oracle Analytics profilering på kolonnenivå for å produsere et sett med semantiske anbefalinger for reparasjon eller forbedring av dataene. Når du oppretter arbeidsbøker, kan du også inkludere kunnskapsforbedringer i visualiseringene ved å legge dem til fra ruten Data.

Disse anbefalingene er basert på at systemet oppdager en bestemt semantisk type automatisk under profileringstrinnet. Datasett som er basert på lokale emneområder, profileres for eksempel ved hjelp av en enkelt Øverste N-prøve.

Det finnes kategorier for semantiske typer, for eksempel geografiske steder som identifiseres med navn på poststeder, og gjenkjennbare mønstre som kredittkort, e-postadresser, fødselsnumre, datoer og gjentagende mønstre. Du kan også opprette egne tilpassede semantikktyper.

Kategorier av semantiske typer

Profilering brukes på ulike semantiske typer.

Kategorier for semantisk type profileres for å identifisere:

  • Geografiske steder, for eksempel bynavn.
  • Mønstre, for eksempel mønstre som finnes i kredittkortnumre eller e-postadresser.
  • Gjentagende mønstre, som fraser med bindestrek.

Anbefalinger av semantiske typer

Anbefalinger for reparasjon, forbedring eller supplering av datasettet fastsettes av datatypen.

Eksempler på anbefalinger for semantiske typer:

  • Supplementer – det legges til en ny kolonne i dataene som tilsvarer en bestemt type som er oppdaget, for eksempel et geografisk sted. Det kan for eksempel legges til befolkningsdata for en by.
  • Sammenslåing av kolonner – når det oppdages to kolonner i datasettet, der den ene inneholder fornavn, og den andre inneholder etternavn, anbefaler systemet at navnene slås sammen til én kolonne. For eksempel en kolonne av typen fornavn_etternavn.
  • Semantiske uttrekk – når en semantisk type består av undertyper, for eksempel et amerikansk_telefonnummer som omfatter et retningsnummer, anbefaler systemet at undertypen trekkes ut til en egen kolonne.
  • Deluttrekk – når det oppdages et skilletegn med generisk mønster i dataene, anbefaler systemet å trekke ut deler av dette mønsteret. Hvis systemet for eksempel oppdager gjentagende bruk av bindestreker i dataene, anbefaler det å trekke ut delene i separate kolonner, noe som potensielt kan gjøre dataene mer nyttige for analyse.
  • Datouttrekk – når det oppdages datoer, anbefaler systemet å trekke ut deler av datoen som kan forbedre dataanalysen. Du kan for eksempel trekke ut ukedagen fra en faktura- eller innkjøpsdato.
  • Fullstendig og delvis utydeliggjøring/maskering/sletting – når sensitive felt oppdages, for eksempel et kredittkortnummer, anbefaler systemet fullstendig eller delvis maskering av kolonnen, eller til og med sletting.

Gjenkjente mønsterbaserte semantiske typer

Semantiske typer identifiseres basert på mønstre i dataene.

Det gis anbefalinger for disse semantiske typene:

  • Datoer (i over 30 formater)
  • Fødselsnumre for USA (SSN)
  • Kredittkortnumre
  • Kredittkortattributter (CVV og utløpsdato)
  • E-postadresser
  • Nordamerikanske telefonnumre
  • Adresser i USA

Referansebaserte semantiske typer

Gjenkjenning av semantiske typer fastsettes av lastet referansekunnskap som følger med tjenesten.

Det gis referansebaserte anbefalinger for disse semantiske typene:

  • Navn på land
  • Landskoder
  • Navn på delstater (provinser)
  • Delstatskoder
  • Navn på fylker (rettsområder)
  • Bynavn (lokaliserte navn)
  • Postnumre

Anbefalte supplementer

Anbefalte supplementer er basert på de semantiske typene.

Supplementer fastsettes basert på hierarkiet for geografisk sted:

  • Land
  • Provins (delstat)
  • Rettsområde (fylke)
  • Lengdegrad
  • Breddegrad
  • Populasjon
  • Høyde over havet (i meter)
  • Tidssone
  • ISO-landskoder
  • FIPS (Federal Information Processing Series)
  • Navn på land
  • Hovedstad
  • Kontinent
  • ID for geografiske navn
  • Talte språk
  • Landskode for telefon
  • Postnummerformat
  • Postnummermønster
  • Landskode for telefon
  • Navn på valuta
  • Forkortelse for valuta
  • Geografisk toppnivådomene (GeoTLD)
  • Kvadratkilometer

Obligatoriske terskler

Profileringsprosessen bruker bestemte terskler til å ta beslutninger om bestemte semantiske typer.

Som en tommelfingerregel må 85 % av dataverdiene i kolonnen oppfylle kriteriene for én semantisk type for at systemet skal bestemme klassifiseringen. Dermed oppfyller ikke en kolonne terskelkravene hvis den inneholder 70 % fornavn og 30 % annet, og derfor blir det ikke gitt noen anbefalinger.

Anbefalinger for egendefinert kunnskap

Bruk anbefalinger om egendefinert kunnskap til å øke systemkunnskapen i Oracle Analytics. Med egendefinert kunnskap kan semantikkprofileringen i Oracle Analytics identifisere flere forretningsspesifikke semantikktyper og gi flere relevante og styrte supplementsanbefalinger. Du kan for eksempel legge til en referanse til egendefinert kunnskap som klassifiserer reseptmedisin i kategoriene Analgetika eller Opioider av USP-legemidler.

Ikonet Opplæring Opplæring

Du kan bruke eksisterende semantiske filer som UPS-filer (Unsupervised Semantic Parsing), eller du kan opprette egne semantiske filer. Be administratoren laste filer for egendefinerte kunnskap til Oracle Analytics. Når du forbedrer datasett, presenterer Oracle Analytics forbedringsanbefalinger basert på disse semantikkdataene. Når du oppretter arbeidsbøker, kan du også inkludere kunnskapsforbedringer i visualiseringene ved å legge dem til fra ruten Data.

Opprette egne filer for egendefinert kunnskap

Følg disse retningslinjene når du oppretter egne semantiske filer:

  • Opprett en datafil i CSV- eller Microsoft Excel-format (XLSX). Maksimal filstørrelse for lasting er 250 MB.
  • Fyll ut den første kolonnen med nøkkelen, som Oracle Analytics bruker til å profilere dataene.
  • Fyll ut de andre kolonnene med supplementsverdiene.

Be administratoren laste filen med egendefinert kunnskap til Oracle Analytics.

Generelle egendefinerte formatstrenger

Du kan bruke generelle strenger med egendefinert format til å opprette egendefinerte klokkeslett- eller datoformater.

Tabellen viser de generelle egendefinerte formatstrengene og resultatene som de viser. Disse gjør det mulig å vise dato- og klokkeslettfelt i de regionale innstillingene for brukeren.

Generell formatstreng Resultat

[FMT:dateShort]

Formaterer datoen i kort datoformat i den regionale innstillingen. Du kan også skrive inn [FMT:date].

[FMT:dateLong]

Formaterer datoen i langt datoformat i den regionale innstillingen.

[FMT:dateInput]

Formaterer datoen i et format som er akseptabelt for inndata tilbake til systemet.

[FMT:time]

Formaterer klokkeslettet i klokkeslettformatet i den regionale innstillingen.

[FMT:timeHourMin]

Formaterer klokkeslettet i klokkeslettformatet i den regionale innstillingen, men utelater sekundene.

[FMT:timeInput]

Formaterer klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet.

[FMT:timeInputHourMin]

Formaterer klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet, men utelater sekundene.

[FMT:timeStampShort]

Dette tilsvarer innskriving av [FMT:dateShort] [FMT:time]. Formaterer datoen i kort datoformat i den regionale innstillingen og klokkeslettet i klokkeslettformatet i den regionale innstillingen. Du kan også skrive inn [FMT:timeStamp].

[FMT:timeStampLong]

Dette tilsvarer innskriving av [FMT:dateLong] [FMT:time]. Formaterer datoen i langt datoformat i den regionale innstillingen og klokkeslettet i klokkeslettformatet i den regionale innstillingen.

[FMT:timeStampInput]

Dette tilsvarer innskriving av [FMT:dateInput] [FMT:timeInput]. Formaterer datoen og klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet.

[FMT:timeHour]

Formaterer timefeltet bare i formatet for den regionale innstillingen, for eksempel 8 PM.

ÅÅ eller åå

Viser de siste to sifrene i året, for eksempel 11 for 2011.

ÅÅÅ eller ååå

Viser de siste tre sifrene i året, for eksempel 011 for 2011.

ÅÅÅÅ eller åååå

Viser året med fire sifre, for eksempel 2011.

M

Viser den numeriske måneden, for eksempel 2 for februar.

MM

Viser den numeriske måneden, med null utfylt til venstre for måneder med ett siffer, for eksempel 02 for februar.

MMM

Viser det forkortede navnet på måneden i den regionale innstillingen for brukeren, for eksempel feb.

MMMM

Viser hele navnet på måneden i den regionale innstillingen for brukeren, for eksempel februar.

D eller d

Viser dagen i måneden, for eksempel 1.

DD eller dd

Viser dagen i måneden, med null utfylt til venstre for dager med ett siffer, for eksempel 01.

DDD eller ddd

Viser det forkortede navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel tor for torsdag.

DDDD eller dddd

Viser hele navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel torsdag.

DDDDD eller ddddd

Viser den første bokstaven i navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel t for torsdag.

r

Viser dagen i året, for eksempel 1.

rr

Viser dagen i året, med null utfylt til venstre for dager i året med ett siffer, for eksempel 01.

rrr

Viser dagen i året, med null utfylt til venstre for dager i året med ett siffer, for eksempel 001.

u

Viser uken i året, for eksempel 1.

uu

Viser uken i året, med null utfylt til venstre for uker i året med ett siffer, for eksempel 01.

k

Viser kvartalet i året, for eksempel 4.

t

Viser timen i 12-timersformat, for eksempel 2.

T

Viser timen i 24-timersformat, for eksempel 23.

tt

Viser timen i 12-timersformat, med null utfylt til venstre for timer med ett siffer, for eksempel 01.

TT

Viser timen i 24-timersformat, med null utfylt til venstre for timer med ett siffer, for eksempel 23.

m

Viser minuttet, for eksempel 7.

mm

Viser minuttet, med null utfylt til venstre for minutter med ett siffer, for eksempel 07.

s

Viser sekundet, for eksempel 2.

Du kan også inkludere desimaler i strengen, for eksempel s,# eller s,00 (der # betyr et valgfritt siffer og 0 betyr et obligatorisk siffer).

ss

Viser sekundet, med null utfylt til venstre for sekunder med ett siffer, for eksempel 02.

Du kan også inkludere desimaler i strengen, for eksempel ss,# eller ss,00 (der # betyr et valgfritt siffer og 0 betyr et obligatorisk siffer).

S

Viser millisekundet, for eksempel 2.

SS

Viser millisekundet, med null utfylt til venstre for millisekunder med ett siffer, for eksempel 02.

SSS

Viser millisekundet, med null utfylt til venstre for millisekunder med ett siffer, for eksempel 002.

tt

Viser AM eller PM i den regionale innstillingen for brukeren, for eksempel pm.

gg

Viser tidsepoken i den regionale innstillingen for brukeren.