Referens för utökning och transformering

Använd den här referensinformationen som hjälp för att berika och transformera data.

Transformeringsreferens

Du hittar information om de alternativ för datatransformation du har åtkomst till i transformeringsredigeraren. Vill du till exempel kategorisera varvstider i en tävling i en datamängdskolumn kan du använda alternativet Behållare.

Du väljer transformationsalternativ i transformeringsredigeraren genom att öppna datamängden, klicka på Alternativ (de tre punkterna längst upp till höger i datakolumnenEllips) och sedan välja ett alternativ (till exempel Behållare, Ändra namn eller Konvertera till text).


Beskrivning av GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png följer
.png

Alternativ Beskrivning
Behållare Skapa egna anpassade grupper för nummerintervall. Du kan till exempel skapa behållare för en ålderkolumn med åldersintervall indelade i Pre-Teen, Young Adult, Adult och Senior.
Beräkna tidslängd Beräkna tidslängden mellan två datum eller två tidpunkter. Om du till exempel vill analysera tider för orderleveranser kan du beräkna antalet dagar mellan ORDER_DATE och DELIVERY_DATE.
Konvertera till datum Ändra datatypen i kolumnen till datum och ta bort alla värden som inte är datum från kolumnen.
Konvertera till tal Ändra datatypen i kolumnen till tal, vilket ta bort alla värden som inte är tal från kolumnen.
Konvertera till text Ändra datatypen i en kolumn till text.
Skapa Skapa en kolumn baserad på en funktion.
Duplicera Skapa en kolumn med exakt samma innehåll som i den valda kolumnen.
Redigera Ändra informationen i kolumnen. Du kan till exempel ändra namn, välja en annan kolumn eller uppdatera funktioner.
Extrahera datum Extrahera information om ett datum- och tidsintervall från tidstämplar. Du kan till exempel extrahera år som 2024, dag i månaden som 23 eller tidpunkt som 15.
Grupp, Villkorsgrupp Välj Grupp om du vill skapa egna anpassade grupper. Du kan till exempel gruppera Delstater tillsammans med anpassade regioner och du kan kategorisera dollarbelopp i grupper som anger små, mellanstora och stora.
Dölj Dölj kolumnen på datapanelen och i visualiseringarna. Om du vill visa de dolda kolumnerna klickar du på Dolda kolumner (spökikonen) i sidfoten. Sedan kan du visa enskilda kolumner eller visa alla dolda kolumner samtidigt.
Logaritm Beräkna den naturliga logaritmen för ett uttryck.
Gemener Uppdatera innehållet i en kolumn med värdena i gemener.
Exponent Höj värdena i en kolumn och till den exponent du väljer. Standardexponenten är 2.
Ändra namn Ändra namnet på en kolumn.
Ersätt Ändra specifik text i den valda kolumnen till ett värde du anger. Du kan till exempel ändra alla instanser av Mister till Mr..
Inledande versal Uppdatera innehållet i en kolumn så att den första bokstaven i det första ordet i en mening är versal.
Dela Dela upp ett kolumnvärde i delar. Du kan till exempel dela upp kolumnen Namn i för- och efternamn.
Kvadratrot Skapa en kolumn med kvadratroten av värdet i den valda kolumnen.
Versaler Uppdatera innehållet i en kolumn med värdena i versaler.

Dataprofiler och semantiska rekommendationer

När du skapar en datamängd utför Oracle Analytics profilering på kolumnnivå för att producera en uppsättning semantiska rekommendationer för att reparera eller berika data. När du skapar arbetsböcker kan du även inkludera kunskapsberikningar i dina visualiseringar genom att lägga till dem från datapanelen.

De här rekommendationerna baseras på att systemet upptäcker en viss semantisk typ automatiskt under profilsteget. Datamängder baserade på lokala ämnesområden profileras till exempel med ett enkelt Högsta N-exempel.

Det finns kategorier av semantiska typer, bland annat geografiska platser som identifieras med ortnamn, igenkännbara mönster i till exempel kreditkort, e-postadresser och personnummer, datum och återkommande mönster. Du kan också skapa egna anpassade semantiktyper.

Kategorier av semantiska typer

Profilering tillämpas på olika semantiktyper.

Kategorier av semantiktyper profileras för att identifiera följande:

  • Geografiska platser, t.ex. ortsnamn.
  • Mönster, t.ex. de som återfinns i kreditkortsnummer eller e-postadresser.
  • Återkommande mönster som data i fraser inom bindestreck.

Rekommendationer för semantiska typer

Rekommendationer om att reparera, förbättra eller berika datamängden fastställs av typen av data.

Exempel på rekommendationer avseende semantiktyper:

  • Berikningar – lägger till en ny kolumn för data som motsvarar en specifik upptäckt typ, t.ex. en geografisk plats. Det kan till exempel handla om att lägga till befolkningsdata för en stad.
  • Kolumnsammanfogningar – när två kolumner upptäcks i datamängden, en med förnamn och en med efternamn, rekommenderar systemet att namnen sammanfogas i en enda kolumn. Det kan till exempel vara kolumnen first_name_last_name.
  • Semantiska extraheringar – när en semantisk typ består av undertyper, t.ex. ett us_phone-nummer som innehåller riktnummer, rekommenderar systemet att undertypen extraheras till en egen kolumn.
  • Delextrahering - när en allmän mönsteravgränsare upptäcks i data rekommenderar systemet att delar av det mönstret extraheras. Om systemet till exempel upptäcker upprepade bindestreck i data rekommenderar det att delarna extraheras till egna kolumner för att om möjligt göra de data mer användbara för analyser.
  • Datumextraheringar - när datum upptäcks rekommenderar systemet att delar av datumet som kan förstärka dataanalysen extraheras. Du skulle till exempel kunna extrahera dagen i veckan från ett fakturadatum eller inköpsdatum.
  • Fullständig och delvis obfuskering/maskering/borttagning – när känsliga fält upptäcks, med t.ex. kreditkortsnummer, rekommenderar systemet fullständig eller delvis maskering av kolumnen, eller till och med borttagning.

Igenkända mönsterbaserade semantiska typer

Semantiktyper identifieras baserat på mönster som finns i data.

Rekommendationer ges för dessa semantiktyper:

  • Datum (i fler än 30 format)
  • Socialförsäkringsnummer USA (SSN)
  • Kreditkortsnummer
  • Kreditkortsattribut (CVV och sista giltighetsdatum)
  • E-postadresser
  • Nordamerikanska telefonnummer
  • Adresser för USA

Referensbaserade semantiska typer

Igenkänningen av semantiktyper fastställs av laddad referenskunskap som medföljer tjänsten.

Referensbaserade rekommendationer ges för dessa semantiktyper:

  • Namn på länder
  • Landskoder
  • Namn på delstater (provinser)
  • Delstatskoder
  • Namn på län (jurisdiktioner)
  • Ortnamn (språkanpassade namn)
  • Postnummer

Rekommenderade berikningar

Rekommenderade berikningar baseras på semantiktyperna.

Berikningar fastställs baserat på hierarkin för geografiska platser:

  • Land
  • Provins (delstat)
  • Jurisdiktion (län)
  • Longitud
  • Latitud
  • Folkmängd
  • Höjd över havet (i meter)
  • Tidszon
  • ISO-landskoder
  • FIPS (Federal Information Processing Series)
  • Landsnamn
  • Huvudstad
  • Kontinent
  • Id för GeoNames
  • Talade språk
  • Landskod för telefonnr
  • Postnummerformat
  • Postnummermönster
  • Landskod för telefonnr
  • Valutanamn
  • Valutaförkortning
  • Geografisk toppnivådomän (GeoLTD)
  • Kvadratkilometer

Obligatoriska tröskelvärden

I profileringsprocessen används specifika tröskelvärden för att fatta beslut om specifika semantiktyper.

Generellt måste 85 % av datavärdena i kolumnen uppfylla kriterierna för en enda semantiktyp för att systemet ska fastställa klassificeringen. Om en kolumn innehåller 70 % förnamn och 30 % "other" uppfylls därför inte tröskelvärdeskraven och inga rekommendationer kan göras.

Rekommendationer om anpassad kunskap

Använd anpassade kunskapsrekommendationer för att förstärka systemkunskapen i Oracle Analytics. Med anpassad kunskap kan den semantiska profileringen i Oracle Analytics identifiera mer affärsspecifika semantiktyper och göra mer relevanta och styrda berikningsrekommendationer. Du skulle t.ex. kunna lägga till en anpassad kunskapsreferens som klassificerar receptbelagda läkemedel i USP-läkemedelskategorin Analgetika eller Opioid.

Ikonen Självstudier Självstudier

Du kan använda befintliga semantiska filer, t.ex. USP-filer (Unsupervised Semantic Parsing), eller skapa egna semantiska filer. Be administratören att ladda upp anpassade kunskapsfiler till Oracle Analytics. När du berikar datamängder visar Oracle Analytics berikningsrekommendationer baserade på dessa semantiska data. När du skapar arbetsböcker kan du även inkludera kunskapsberikningar i dina visualiseringar genom att lägga till dem från datapanelen.

Skapa egna anpassade kunskapsfiler

Följ dessa anvisningar när du skapar egna semantiska filer:

  • Skapa en datafil i CSV- eller Microsoft Excel- (XLSX) format. Maximal filstorlek du kan ladda upp är 250 Mbyte.
  • Fyll den första kolumnen med nyckeln, som Oracle Analytics använder för att profilera data.
  • Fyll de övriga kolumnerna med berikningsvärdena.

Be administratören att ladda upp den anpassade kunskapsfilen till Oracle Analytics.

Strängar för allmänna anpassningsformat

Du kan använda allmänna strängar för anpassade format till att skapa anpassade tid- och datumformat.

Tabellen visar de allmänna anpassade formatsträngarna och resultaten som de visar. De tillåter visningen av datum- och tidsfält i användarens språkkonvention.

Allmän formatsträng Resultat

[FMT:dateShort]

Formaterar datumet i språkkonventionens korta datumformat. Du kan även skriva [FMT:date].

[FMT:dateLong]

Formaterar datumet i språkkonventionens långa datumformat.

[FMT:dateInput]

Formaterar datumet i ett format som går att mata tillbaka in i systemet.

[FMT:time]

Formaterar tiden i språkkonventionens långa tidsformat.

[FMT:timeHourMin]

Formaterar tiden i språkkonventionens långa tidsformat, men utesluter sekunderna.

[FMT:timeInput]

Formaterar tiden i ett format som går att mata tillbaka in i systemet.

[FMT:timeInputHourMin]

Formaterar tiden i ett format som går att mata tillbaka in i systemet, men utesluter sekunderna.

[FMT:timeStampShort]

Likadant som att skriva [FMT:dateShort] [FMT:time]. Formaterar datumet i språkkonventionens korta datumformat och tiden i språkkonventionens tidsformat. Du kan även skriva [FMT:timeStamp].

[FMT:timeStampLong]

Likadant som att skriva [FMT:dateLong] [FMT:time]. Formaterar datumet i språkkonventionens långa datumformat och tiden i språkkonventionens tidsformat.

[FMT:timeStampInput]

Likadant som att skriva [FMT:dateInput] [FMT:timeInput]. Formaterar datumet och tiden i ett format som går att mata tillbaka in i systemet.

[FMT:timeHour]

Formaterar timfältet endast i språkkonventionens format, som 20.

ÅÅ eller åå

Visar de två sista siffrorna i årtalet, till exempel 11 för 2011.

ÅÅÅ eller ååå

Visar de tre sista siffrorna i årtalet, till exempel 011 för 2011.

ÅÅÅÅ eller åååå

Visar året med fyra siffror, till exempel 2011.

M

Visar den numeriska månaden, till exempel 2 för februari.

MM

Visar den numeriska månaden och fylls ut med nollor till vänster för månader med en siffra, till exempel 02 för februari.

MMM

Visar förkortade månadsnamn i användarens språkkonvention, till exempel feb.

MMMM

Visar hela månaden i användarens språkkonvention, till exempel Februari.

D eller d

Visar månadens dag, till exempel 1.

DD eller dd

Visar månadens dag och fylls ut med nollor till vänster för dagar med en siffra, till exempel 01.

DDD eller ddd

Visar förkortade veckodagar i användarens språkkonvention, till exempel to för torsdag.

DDDD eller dddd

Visar hela veckodagen i användarens språkkonvention, till exempel torsdag.

DDDDD eller ddddd

Visar veckodagens första bokstav i användarens språkkonvention, till exempel t för torsdag.

r

Visar årets dag, till exempel 1.

rr

Visar årets dag och fyll ut med nollor till vänster för dagar på året med en siffra, till exempel 01.

rrr

Visar årets dag och fyll ut med nollor till vänster för dagar på året med en siffra, till exempel 001.

w

Visar årets vecka, till exempel 1.

ww

Visar årets vecka och fyll ut med nollor till vänster för veckor på året med en siffra, till exempel 01.

k

Visar årets kvartal, till exempel 4.

h

Visar timmen för 12-timmars tid, till exempel 2.

H

Visar timmen för 24-timmars tid, till exempel 23.

hh

Visar timmen för 12-timmars tid och fylls ut med nollor till vänster för timmar med en siffra, till exempel 01.

HH

Visar timmen för 24-timmars tid och fylls ut med nollor till vänster för timmar med en siffra, till exempel 23.

m

Visar minuten, till exempel 7.

mm

Visar minuten och fylls ut med nollor till vänster för minuter med en siffra, till exempel 07.

s

Visar sekunden, till exempel 2.

Du kan även inkludera decimaler i strängen, som s.# eller s.00 (där # är en valfri siffra och 0 är en obligatorisk siffra).

ss

Visar sekunden och fylls ut med nollor till vänster för sekunder med en siffra, till exempel 02.

Du kan även inkludera decimaler i strängen, som ss.# eller ss.00 (där # är en valfri siffra och 0 är en obligatorisk siffra).

S

Visar millisekunden, till exempel 2.

SS

Visar millisekunden och fylls ut med nollor till vänster för millisekunder med en siffra, till exempel 02.

SSS

Visar millisekunden och fylls ut med nollor till vänster för millisekunder med en siffra, till exempel 002.

tt

Visar förkortningen av ante meridiem eller post meridiem i användarens språkkonvention, till exempel em.

gg

Visar eran i användarens språkkonvention.