Reference til forbedring og transformation

Brug disse referenceoplysninger som hjælp, når du forbedrer og transformerer dine data.

Transformere reference

Få oplysninger om de datatransformationsvalg, som du kan få adgang til i transformationseditoren. Hvis du for eksempel vil kategorisere omgangstider i et racerløb i en datasætkolonne, kan du bruge valget Bin.

Åbn dit datasæt, og klik på Valg (ellipsen øverst til højre i datakolonnen Ellipse) for at angive transformationsvalg i transformationseditoren. Angiv derefter et valg (for eksempel Bin, Omdøb eller Konverter til tekst).


Beskrivelse af GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png følger
.png

Valg Beskrivelse
Bin Opret dine egne tilpassede grupper til talintervaller. Du kan for eksempel oprette bins for kolonnen Alder, der opdeler aldersintervaller, som placeres i en bin, i Præteenager, Ung, Voksen eller Senior på basis af tilpassede krav.
Beregn varighed Beregner varigheden mellem to datoer eller klokkeslæt. Hvis du for eksempel vil analysere leveringstiden for ordrer, kan du beregne antallet af dage mellem ORDER_DATE og DELIVERY_DATE.
Konverter til dato Ændrer kolonnens datatype til dato og sletter alle værdier, der ikke er datoer, fra kolonnen.
Konverter til tal Ændrer kolonnens datatype til tal, hvilket sletter alle værdier, der ikke er tal, fra kolonnen.
Konverter til tekst Ændrer en kolonnes datatype til tekst.
Opret Opretter en kolonne på basis af en funktion.
Dubler Opretter en kolonne med indhold, der er identisk med indholdet i den valgte kolonne.
Rediger Ændrer kolonnedetaljerne. Du kan for eksempel ændre navnet, vælge en anden kolonne eller opdatere funktioner.
Udtræk dato Udtrækker oplysninger om et dato- og klokkeslætinterval fra tidsstempler. Du kan for eksempel udtrække år som 2024, dag i måneden som 23 eller time på dagen som 15.
Gruppe, Betinget gruppe Vælg Gruppe for at oprette dine egne tilpassede grupper. Du kan for eksempel gruppere stater sammen med tilpassede regioner, og du kan kategorisere dollarbeløb i grupper, der angiver lille, mellem og stort.
Skjul Skjuler kolonnen i panelet Data og i visualiseringerne. Hvis du vil have vist de skjulte kolonner, skal du klikke på Skjulte kolonner (nedtonet ikon) i sidefoden. Derefter kan du få vist individuelle kolonner eller alle de skjulte kolonner på én gang.
Log Beregner den naturlige logaritme af et udtryk.
Små bogstaver Opdaterer indholdet af en kolonne med værdier, hvor alle bogstaver er skrevet med lille.
Potens Opløfter en kolonnes værdi til den potens, som du angiver. Standardpotensen er 2.
Omdøb Ændrer navnet på en kolonne.
Erstat Ændrer specifik tekst i den valgte kolonne til en hvilken som helst værdi, som du angiver. Du kan for eksempel ændre alle instanser af Mister til Mr..
Første bogstav i sætning med stort Opdaterer indholdet af en kolonne, så det første bogstav i det første ord i en sætning er stort.
Opdel Opdeler en kolonneværdi i dele. Du kan for eksempel opdele kolonnen Navn i fornavn og efternavn.
Kvadratrod Opretter en kolonne, der udfyldes med kvadratroden af værdien i den valgte kolonne.
Store bogstaver Opdaterer indholdet af en kolonne med værdier, hvor alle bogstaver er skrevet med stort.

Dataprofiler og semantiske anbefalinger

Når du opretter et datasæt, udfører Oracle Analytics kolonneniveauprofilering, så der oprettes et sæt semantiske anbefalinger til reparation eller forbedring af dine data. Når du opretter projektmapper, kan du også inkludere vidensforbedringer i dine visualiseringer ved at tilføje dem fra datapanelet.

Disse anbefalinger er baseret på, at systemet automatisk finder en specifik semantisk type under profileringstrinnet. For eksempel bliver datasæt, som er baseret på lokale emneområder, profileret ved hjælp af et simpelt Øverste N-eksempel.

Der er kategorier af semantiske typer, for eksempel geografiske placeringer, der identificeres af bynavne, genkendelige mønskre som for eksempel kreditkort, e-mailadresser og CPR-numre, datoer og tilbagevendende mønstre. Du kan også oprette dine egne tilpassede semantiske typer.

Kategorier af semantiske typer

Der anvendes profilering på forskellige semantiske typer.

Kategorier af semantiske typer profileres for at identificere følgende:

  • Geografiske placeringer, for eksempel bynavne.
  • Mønstre som dem, der findes i kreditkortnumre eller e-mailadresser.
  • Tilbagevendende mønstre, for eksempel udtryksdata med bindestreger.

Anbefalinger af semantiske typer

Anbefalede reparationer, forbedringer eller udvidelser af datasættet bestemmes af datatypen.

Eksempler på anbefalinger af semantiske typer:

  • Forbedringer - Tilføjelse af en ny kolonne i dine data, der svarer til en bestemt funden type som for eksempel en geografisk placering. For eksempel tilføjelse af befolkningsdata for en by.
  • Kolonnesammenkædninger - Når der findes to kolonner i datasættet, hvor den ene indeholder fornavne, og den anden indeholder efternavne, anbefaler systemet en sammenkædning af navnene i en enkelt kolonne. For eksempel en kolonne med navnet fornavn_efternavn.
  • Semantiske udtrækninger - Når en semantisk type består af undertyper, for eksempel et usa_telefon-nummer, der omfatter et områdenummer, anbefaler systemet, at undertypen udtrækkes i en kolonne for sig.
  • Udtrækning af dele - Når der registreres et generisk mønster i dataene, anbefaler systemet, at dele af det pågældende mønster udtrækkes. Hvis systemet for eksempel finder gentagne bindestreger i dataene, anbefaler det at udtrække delene i separate kolonner for potentielt at gøre dataene mere brugbare til analyse.
  • Datoudtrækninger - Når der udtrækkes datoer, anbefaler systemet, at der udtrækkes dele af datoerne, som kan lette analysen af dataene. Du kan for eksempel udtrække ugedagen fra en faktura- eller købsdato.
  • Fuld og delvis skjulning/maskering/sletning - Når der findes følsomme felter, for eksempel kreditkortnumre, anbefaler systemet, at kolonnen maskeres helt eller delvist eller endda fjernes.

Semantiske typer, der genkendes på basis af mønster

Semantiske typer identificeres på basis af mønstre, der findes i dine data.

Der gives anbefalinger for disse semantiske typer:

  • Datoer (i mere end 30 formater)
  • Personnumre (USA)
  • Kreditkortnumre
  • Kreditkortattributter (CVV og udløbsdato)
  • E-mailadresser
  • Nordamerikanske telefonnumre
  • Amerikanske adresser

Referencebaserede semantiske typer

Genkendelse af semantiske typer er bestemt af den indlæste referenceviden, som leveres af tjenesten.

Der gives referencebaserede anbefalinger for disse semantiske typer:

  • Landenavne
  • Landekoder
  • Navne på delstater og provinser
  • Statskoder
  • Navne på jurisdiktioner
  • Bynavne (lokaliserede navne)
  • Postnumre

Anbefalede forbedringer

Anbefalede forbedringer er baseret på de semantiske typer.

Forbedringer bestemmes på basis af det geografiske lokationshierarki:

  • Land
  • Provins (delstat)
  • Jurisdiktion (kommune)
  • Længdegrad
  • Breddegrad
  • Befolkningstal
  • Højde (i meter)
  • Tidszone
  • ISO-landekoder
  • FIPS (Federal Information Processing Series)
  • Landets navn
  • Hovedstad
  • Kontinent
  • GeoNames-ID
  • Talte sprog
  • Telefonlandekode
  • Postnummerformat
  • Postnummermønster
  • Telefonlandekode
  • Valutanavn
  • Valutaforkortelse
  • Geografisk topdomæne (GeoLTD)
  • Kvadratkilometer

Påkrævede tærskler

Profileringsprocessen bruger specifikke tærskler for at bestemme specifikke semantiske typer.

Generelt set skal 85 % af dataværdierne i kolonnen opfylde kriterierne for en enkelt semantisk type, før systemet kan bestemme klassificeringen. Det betyder, at en kolonne, der indeholder 70 % fornavne og 30 % "andre", ikke opfylder tærskelkravene, og der foretages derfor ikke nogen anbefalinger.

Tilpasset viden-anbefalinger

Brug tilpasset viden-anbefalinger for at forbedre Oracle Analytics-systemviden. Tilpasset viden gør det muligt for den semantiske profiler i Oracle Analytics at identificere mere forretningsspecifikke semantiske typer og angive mere relevante og styrede forslag til forbedringer. Det kan for eksempel være, at du vil tilføje en tilpasset viden-reference, der klassificerer receptpligtig medicin i USP-medicinkategorierne Smertestillende midler og Opioid.

Ikonet Selvstudium Selvstudium

Du kan bruge eksisterende semantiske filer såsom USP-filer (Unsupervised Semantic Parsing), eller du kan oprette dine egne semantiske filer. Bed administratoren om at uploade tilpasset viden-filer til Oracle Analytics. Når du forbedrer datasæt, viser Oracle Analytics anbefalinger til forbedring på baggrund af disse semantiske data. Når du opretter projektmapper, kan du også inkludere vidensforbedringer i dine visualiseringer ved at tilføje dem fra datapanelet.

Oprettelse af dine egne tilpasset viden-filer

Følg disse retningslinjer, når du opretter dine egne semantiske filer:

  • Opret en datafil i CSV- eller XLSX-format (Microsoft Excel). Du kan maksimalt uploade en fil på 250 MB.
  • Udfyld den første kolonne med den nøgle, som Oracle Analytics bruger til profilering af dataene.
  • Udfyld de øvrige kolonner med forbedringsværdierne.

Bed administratoren om at uploade din tilpasset viden-fil til Oracle Analytics.

Generelle tilpassede formatstrenge

Du kan bruge generelle tilpassede formatstrenge til at oprette tilpassede tids- eller datoformater.

Tabellen viser de generelle tilpassede formatstrenge og de resultater, som de viser. Disse gør det muligt at få vist dato- og tidsfelter i brugerens landestandard.

Generel formatstreng Resultat

[FMT:dateShort]

Formaterer datoen i landestandardens korte datoformat. Du kan også skrive [FMT:date].

[FMT:dateLong]

Formaterer datoen i landestandardens lange datoformat.

[FMT:dateInput]

Formaterer datoen i et format, der accepteres som input tilbage i systemet.

[FMT:time]

Formaterer klokkeslættet i landestandardens klokkeslætsformat.

[FMT:timeHourMin]

Formaterer klokkeslættet i landestandardens klokkeslætsformat, men udelader sekunderne.

[FMT:timeInput]

Formaterer klokkeslættet i et format, der accepteres som input tilbage i systemet.

[FMT:timeInputHourMin]

Formaterer klokkeslættet i et format, der accepteres som input tilbage i systemet, men udelader sekunderne.

[FMT:timeStampShort]

Svarer til at skrive [FMT:dateShort] [FMT:time]. Formaterer datoen i landestandardens korte datoformat og klokkeslættet i landestandardens klokkeslætsformat. Du kan også skrive [FMT:timeStamp].

[FMT:timeStampLong]

Svarer til at skrive [FMT:dateLong] [FMT:time]. Formaterer datoen i landestandardens lange datoformat og klokkeslættet i landestandardens klokkeslætsformat.

[FMT:timeStampInput]

Svarer til [FMT:dateInput] [FMT:timeInput]. Formaterer datoen og klokkeslættet i et format, der accepteres som input tilbage i systemet.

[FMT:timeHour]

Formaterer timefeltet udelukkende i landestandardens format, for eksempel 8 PM.

YY eller yy

Viser de sidste to cifre for året, for eksempel 11 for 2011.

YYY eller yyy

Viser de sidste tre cifre for året, for eksempel 011 for 2011.

YYYY eller yyyy

Viser det firecifrede årstal, for eksempel 2011.

M

Viser den numeriske måned, for eksempel 2 for februar.

MM

Viser den numeriske måned med et venstrestillet nul for måneder med et enkelt ciffer, for eksempel 02 for februar.

MMM

Viser det forkortede navn på måneden i brugerens landestandard, for eksempel Feb.

MMMM

Viser det fulde navn på måneden i brugerens landestandard, for eksempel Februar.

D eller d

Viser dagen i måneden, for eksempel 1.

DD eller dd

Viser dagen i måneden med et venstrestillet nul for dage med et enkelt ciffer, for eksempel 01.

DDD eller ddd

Viser det forkortede navn på ugedagen i brugerens landestandard, for eksempel Tor for torsdag.

DDDD eller dddd

Viser det fulde navn på ugedagen i brugerens landestandard, for eksempel Torsdag.

DDDDD eller ddddd

Viser det første bogstav i navnet på ugedagen i brugerens landestandard, for eksempel T for torsdag.

r

Viser dagen i året, for eksempel 1.

rr

Viser dagen i året med et venstrestillet nul for dage i året med et enkelt ciffer, for eksempel 01.

rrr

Viser dagen i året med et venstrestillet nul for dage i året med et enkelt ciffer, for eksempel 001.

w

Viser ugen i året, for eksempel 1.

ww

Viser ugen i året med et venstrestillet nul for uger med et enkelt ciffer, for eksempel 01.

q

Viser kvartalet i året, for eksempel 4.

h

Viser timetallet i 12-timers-systemet, for eksempel 2.

H

Viser timetallet i 24-timers-systemet, for eksempel 23.

hh

Viser timetallet i 12-timers-systemet med et venstrestillet nul for timetal med et enkelt ciffer, for eksempel 01.

HH

Viser timetallet i 24-timers-systemet med et venstrestillet nul for timetal med et enkelt ciffer, for eksempel 23.

m

Viser minuttallet, for eksempel 7.

mm

Viser minuttallet med et venstrestillet nul for minuttal med et enkelt ciffer, for eksempel 07.

s

Viser sekundtallet, for eksempel 2.

Du kan også medtage decimaler i strengen, for eksempel s.# eller s.00 (hvor # er et valgfrit ciffer, og 0 er et påkrævet ciffer).

ss

Viser sekundtallet med et venstrestillet nul for sekundtal med et enkelt ciffer, for eksempel 02.

Du kan også medtage decimaler i strengen, for eksempel ss.# eller ss.00 (hvor # er et valgfrit ciffer, og 0 er et påkrævet ciffer).

S

Viser millisekundtallet, for eksempel 2.

SS

Viser millisekundtallet med et venstrestillet nul for millisekundtal med et enkelt ciffer, for eksempel <systemoutput>02</systemoutput>.

SSS

Viser millisekundtallet med et venstrestillet nul for millisekundtal med et enkelt ciffer, for eksempel <systemoutput>002</systemoutput>.

tt

Viser det første bogstav i forkortelsen af ante meridiem eller post meridiem i brugerens landestandard, for eksempel p.

gg

Viser perioden i brugerens landestandard.