Supplere og omforme referanse

Bruk disse referanseopplysningene som en hjelp til å supplere og omforme dataene.

Emner:

Omformingsreferanse

Finn ut mer om dataomformingsvalgene du kan få tilgang til i redigeringsprogrammet for omforming. Hvis du for eksempel vil kategorisere rundetider for et løp i en datasettkolonne, kan du bruke valget Rute.

Du angir omformingsvalg i redigeringsprogrammet for omforming ved å åpne datasettet, klikke på Valg (ellipsen øverst til høyre i datakolonnen ) og angi et valg (for eksempel Rute, Gi nytt navn eller Konverter til tekst).

Beskrivelse av GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png følger
.png

Valg	Beskrivelse
Rute	Oppretter egendefinerte grupper for tallområder. Du kan for eksempel opprette ruter for en alderskolonne med aldersområder som deles inn i Barn, Ungdom, Voksne og Eldre, basert på egendefinerte krav.
Beregn varighet	Beregner varigheten mellom to datoer eller klokkeslett. Hvis du for eksempel vil analysere tidspunkt for ordrelevering, kan du beregne antallet dager mellom ORDER_DATE og DELIVERY_DATE.
Konverter til dato	Endrer datatypen for kolonnen til dato, og sletter alle verdier som ikke er datoer, fra kolonnen.
Konverter til tall	Endrer datatypen for kolonnen til tall og sletter alle verdier som ikke er tall, fra kolonnen.
Konverter til tekst	Endre datatypen for en kolonne til tekst.
Opprett	Oppretter en kolonne basert på en funksjon.
Dupliser	Oppretter en kolonne med samme innhold som den valgte kolonnen.
Rediger	Endrer kolonnedetaljene. Du kan for eksempel endre navnet, velge en annen kolonne eller oppdatere funksjoner.
Uttrekk – dato	Trekker ut et intervall med opplysninger om dato og klokkeslett fra tidsstempler. Du kan for eksempel trekke ut året 2024, dag 23 i måneden eller klokkeslettet 15.00.
Gruppe, Betinget gruppe	Velg Gruppe hivs du vil opprette egendefinerte grupper. Du kan for eksempel gruppere delstater sammen med egendefinerte områder, og du kan kategorisere dollarbeløp i grupper som angir små, middels og store.
Skjul	Skjuler kolonnen i ruten Data og i visualiseringene. Hvis du vil se de skjulte kolonnene, klikker du på Skjulte kolonner (skyggeikon) i sidebunnteksten. Deretter kan du vise enkeltkolonner eller vise alle skjulte kolonner samtidig.
Logg	Beregner den naturlige logaritmen for et uttrykk.
Små bokstaver	Oppdaterer innholdet i en kolonne slik at verdiene får bare små bokstaver.
Potens	Opphøyer verdiene i en kolonne i potensen du angir. Standardpotensen er 2.
Gi nytt navn	Endrer navnet på en kolonne.
Erstatt	Endrer bestemt tekst i den valgte kolonnen til en hvilken som helst verdi du angir. Du kan for eksempel endre alle forekomster av Herr til Hr..
Store eller små bokstaver i setning	Oppdaterer innholdet i en kolonne slik at den første bokstaven i det første ordet i en setning får stor bokstav.
Del opp	Deler en kolonneverdi inn i deler. Du kan for eksempel dele opp en kolonne som heter Navn, i fornavn og etternavn.
Kvadratrot	Oppretter en kolonne som fylles ut med kvadratroten av verdien i den valgte kolonnen.
Store bokstaver	Oppdaterer innholdet i en kolonne slik at verdiene får bare store bokstaver.

Dataprofiler og semantiske anbefalinger

Når du oppretter et datasett, utfører Oracle Analytics profilering på kolonnenivå for å produsere et sett med semantiske anbefalinger for reparasjon eller forbedring av dataene. Når du oppretter arbeidsbøker, kan du også inkludere kunnskapsforbedringer i visualiseringene ved å legge dem til fra ruten Data.

Disse anbefalingene er basert på at systemet oppdager en bestemt semantisk type automatisk under profileringstrinnet. Datasett som er basert på lokale emneområder, profileres for eksempel ved hjelp av en enkelt Øverste N-prøve.

Det finnes kategorier for semantiske typer, for eksempel geografiske steder som identifiseres med navn på poststeder, og gjenkjennbare mønstre som kredittkort, e-postadresser, fødselsnumre, datoer og gjentagende mønstre. Du kan også opprette egne tilpassede semantikktyper.

Emner:

Kategorier av semantiske typer

Profilering brukes på ulike semantiske typer.

Kategorier for semantisk type profileres for å identifisere:

Geografiske steder, for eksempel bynavn.
Mønstre, for eksempel mønstre som finnes i kredittkortnumre eller e-postadresser.
Gjentagende mønstre, som fraser med bindestrek.

Anbefalinger av semantiske typer

Anbefalinger for reparasjon, forbedring eller supplering av datasettet fastsettes av datatypen.

Eksempler på anbefalinger for semantiske typer:

Supplementer – det legges til en ny kolonne i dataene som tilsvarer en bestemt type som er oppdaget, for eksempel et geografisk sted. Det kan for eksempel legges til befolkningsdata for en by.
Sammenslåing av kolonner – når det oppdages to kolonner i datasettet, der den ene inneholder fornavn, og den andre inneholder etternavn, anbefaler systemet at navnene slås sammen til én kolonne. For eksempel en kolonne av typen fornavn_etternavn.
Semantiske uttrekk – når en semantisk type består av undertyper, for eksempel et amerikansk_telefonnummer som omfatter et retningsnummer, anbefaler systemet at undertypen trekkes ut til en egen kolonne.
Deluttrekk – når det oppdages et skilletegn med generisk mønster i dataene, anbefaler systemet å trekke ut deler av dette mønsteret. Hvis systemet for eksempel oppdager gjentagende bruk av bindestreker i dataene, anbefaler det å trekke ut delene i separate kolonner, noe som potensielt kan gjøre dataene mer nyttige for analyse.
Datouttrekk – når det oppdages datoer, anbefaler systemet å trekke ut deler av datoen som kan forbedre dataanalysen. Du kan for eksempel trekke ut ukedagen fra en faktura- eller innkjøpsdato.
Fullstendig og delvis utydeliggjøring/maskering/sletting – når sensitive felt oppdages, for eksempel et kredittkortnummer, anbefaler systemet fullstendig eller delvis maskering av kolonnen, eller til og med sletting.

Gjenkjente mønsterbaserte semantiske typer

Semantiske typer identifiseres basert på mønstre i dataene.

Det gis anbefalinger for disse semantiske typene:

Datoer (i over 30 formater)
Fødselsnumre for USA (SSN)
Kredittkortnumre
Kredittkortattributter (CVV og utløpsdato)
E-postadresser
Nordamerikanske telefonnumre
Adresser i USA

Referansebaserte semantiske typer

Gjenkjenning av semantiske typer fastsettes av lastet referansekunnskap som følger med tjenesten.

Det gis referansebaserte anbefalinger for disse semantiske typene:

Navn på land
Landskoder
Navn på delstater (provinser)
Delstatskoder
Navn på fylker (rettsområder)
Bynavn (lokaliserte navn)
Postnumre

Anbefalte supplementer

Anbefalte supplementer er basert på de semantiske typene.

Supplementer fastsettes basert på hierarkiet for geografisk sted:

Land
Provins (delstat)
Rettsområde (fylke)
Lengdegrad
Breddegrad
Populasjon
Høyde over havet (i meter)
Tidssone
ISO-landskoder
FIPS (Federal Information Processing Series)
Navn på land
Hovedstad
Kontinent
ID for geografiske navn
Talte språk
Landskode for telefon
Postnummerformat
Postnummermønster
Landskode for telefon
Navn på valuta
Forkortelse for valuta
Geografisk toppnivådomene (GeoTLD)
Kvadratkilometer

Obligatoriske terskler

Profileringsprosessen bruker bestemte terskler til å ta beslutninger om bestemte semantiske typer.

Som en tommelfingerregel må 85 % av dataverdiene i kolonnen oppfylle kriteriene for én semantisk type for at systemet skal bestemme klassifiseringen. Dermed oppfyller ikke en kolonne terskelkravene hvis den inneholder 70 % fornavn og 30 % annet, og derfor blir det ikke gitt noen anbefalinger.

Anbefalinger for egendefinert kunnskap

Bruk anbefalinger om egendefinert kunnskap til å øke systemkunnskapen i Oracle Analytics. Med egendefinert kunnskap kan semantikkprofileringen i Oracle Analytics identifisere flere forretningsspesifikke semantikktyper og gi flere relevante og styrte supplementsanbefalinger. Du kan for eksempel legge til en referanse til egendefinert kunnskap som klassifiserer reseptmedisin i kategoriene Analgetika eller Opioider av USP-legemidler.

Opplæring

Du kan bruke eksisterende semantiske filer som UPS-filer (Unsupervised Semantic Parsing), eller du kan opprette egne semantiske filer. Be administratoren laste filer for egendefinerte kunnskap til Oracle Analytics. Når du forbedrer datasett, presenterer Oracle Analytics forbedringsanbefalinger basert på disse semantikkdataene. Når du oppretter arbeidsbøker, kan du også inkludere kunnskapsforbedringer i visualiseringene ved å legge dem til fra ruten Data.

Opprette egne filer for egendefinert kunnskap

Følg disse retningslinjene når du oppretter egne semantiske filer:

Opprett en datafil i CSV- eller Microsoft Excel-format (XLSX). Maksimal filstørrelse for lasting er 250 MB.
Fyll ut den første kolonnen med nøkkelen, som Oracle Analytics bruker til å profilere dataene.
Fyll ut de andre kolonnene med supplementsverdiene.

Be administratoren laste filen med egendefinert kunnskap til Oracle Analytics.

Generelle egendefinerte formatstrenger

Du kan bruke generelle strenger med egendefinert format til å opprette egendefinerte klokkeslett- eller datoformater.

Tabellen viser de generelle egendefinerte formatstrengene og resultatene som de viser. Disse gjør det mulig å vise dato- og klokkeslettfelt i de regionale innstillingene for brukeren.

Generell formatstreng	Resultat
[FMT:dateShort]	Formaterer datoen i kort datoformat i den regionale innstillingen. Du kan også skrive inn `[FMT:date]`.
[FMT:dateLong]	Formaterer datoen i langt datoformat i den regionale innstillingen.
[FMT:dateInput]	Formaterer datoen i et format som er akseptabelt for inndata tilbake til systemet.
[FMT:time]	Formaterer klokkeslettet i klokkeslettformatet i den regionale innstillingen.
[FMT:timeHourMin]	Formaterer klokkeslettet i klokkeslettformatet i den regionale innstillingen, men utelater sekundene.
[FMT:timeInput]	Formaterer klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet.
[FMT:timeInputHourMin]	Formaterer klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet, men utelater sekundene.
[FMT:timeStampShort]	Dette tilsvarer innskriving av `[FMT:dateShort] [FMT:time]`. Formaterer datoen i kort datoformat i den regionale innstillingen og klokkeslettet i klokkeslettformatet i den regionale innstillingen. Du kan også skrive inn `[FMT:timeStamp]`.
[FMT:timeStampLong]	Dette tilsvarer innskriving av `[FMT:dateLong] [FMT:time]`. Formaterer datoen i langt datoformat i den regionale innstillingen og klokkeslettet i klokkeslettformatet i den regionale innstillingen.
[FMT:timeStampInput]	Dette tilsvarer innskriving av `[FMT:dateInput] [FMT:timeInput]`. Formaterer datoen og klokkeslettet i et format som er akseptabelt for inndata tilbake til systemet.
[FMT:timeHour]	Formaterer timefeltet bare i formatet for den regionale innstillingen, for eksempel 8 PM.
ÅÅ eller åå	Viser de siste to sifrene i året, for eksempel `11` for 2011.
ÅÅÅ eller ååå	Viser de siste tre sifrene i året, for eksempel `011` for 2011.
ÅÅÅÅ eller åååå	Viser året med fire sifre, for eksempel `2011`.
M	Viser den numeriske måneden, for eksempel `2` for februar.
MM	Viser den numeriske måneden, med null utfylt til venstre for måneder med ett siffer, for eksempel `02` for februar.
MMM	Viser det forkortede navnet på måneden i den regionale innstillingen for brukeren, for eksempel `feb`.
MMMM	Viser hele navnet på måneden i den regionale innstillingen for brukeren, for eksempel `februar`.
D eller d	Viser dagen i måneden, for eksempel `1`.
DD eller dd	Viser dagen i måneden, med null utfylt til venstre for dager med ett siffer, for eksempel `01`.
DDD eller ddd	Viser det forkortede navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel `tor` for torsdag.
DDDD eller dddd	Viser hele navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel `torsdag`.
DDDDD eller ddddd	Viser den første bokstaven i navnet på dagen i uken i den regionale innstillingen for brukeren, for eksempel `t` for torsdag.
r	Viser dagen i året, for eksempel 1.
rr	Viser dagen i året, med null utfylt til venstre for dager i året med ett siffer, for eksempel 01.
rrr	Viser dagen i året, med null utfylt til venstre for dager i året med ett siffer, for eksempel 001.
u	Viser uken i året, for eksempel 1.
uu	Viser uken i året, med null utfylt til venstre for uker i året med ett siffer, for eksempel 01.
k	Viser kvartalet i året, for eksempel 4.
t	Viser timen i 12-timersformat, for eksempel `2`.
T	Viser timen i 24-timersformat, for eksempel `23`.
tt	Viser timen i 12-timersformat, med null utfylt til venstre for timer med ett siffer, for eksempel `01`.
TT	Viser timen i 24-timersformat, med null utfylt til venstre for timer med ett siffer, for eksempel `23`.
m	Viser minuttet, for eksempel `7`.
mm	Viser minuttet, med null utfylt til venstre for minutter med ett siffer, for eksempel `07`.
s	Viser sekundet, for eksempel `2`. Du kan også inkludere desimaler i strengen, for eksempel s,# eller s,00 (der # betyr et valgfritt siffer og 0 betyr et obligatorisk siffer).
ss	Viser sekundet, med null utfylt til venstre for sekunder med ett siffer, for eksempel `02`. Du kan også inkludere desimaler i strengen, for eksempel ss,# eller ss,00 (der # betyr et valgfritt siffer og 0 betyr et obligatorisk siffer).
S	Viser millisekundet, for eksempel 2.
SS	Viser millisekundet, med null utfylt til venstre for millisekunder med ett siffer, for eksempel 02.
SSS	Viser millisekundet, med null utfylt til venstre for millisekunder med ett siffer, for eksempel 002.
tt	Viser AM eller PM i den regionale innstillingen for brukeren, for eksempel `pm`.
gg	Viser tidsepoken i den regionale innstillingen for brukeren.