Reference til forbedring og transformation

Brug disse referenceoplysninger som hjælp, når du forbedrer og transformerer dine data.

Emner:

Transformere reference

Få oplysninger om de datatransformationsvalg, som du kan få adgang til i transformationseditoren. Hvis du for eksempel vil kategorisere omgangstider i et racerløb i en datasætkolonne, kan du bruge valget Bin.

Åbn dit datasæt, og klik på Valg (ellipsen øverst til højre i datakolonnen ) for at angive transformationsvalg i transformationseditoren. Angiv derefter et valg (for eksempel Bin, Omdøb eller Konverter til tekst).

Beskrivelse af GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png følger
.png

Valg	Beskrivelse
Bin	Opret dine egne tilpassede grupper til talintervaller. Du kan for eksempel oprette bins for kolonnen Alder, der opdeler aldersintervaller, som placeres i en bin, i Præteenager, Ung, Voksen eller Senior på basis af tilpassede krav.
Beregn varighed	Beregner varigheden mellem to datoer eller klokkeslæt. Hvis du for eksempel vil analysere leveringstiden for ordrer, kan du beregne antallet af dage mellem ORDER_DATE og DELIVERY_DATE.
Konverter til dato	Ændrer kolonnens datatype til dato og sletter alle værdier, der ikke er datoer, fra kolonnen.
Konverter til tal	Ændrer kolonnens datatype til tal, hvilket sletter alle værdier, der ikke er tal, fra kolonnen.
Konverter til tekst	Ændrer en kolonnes datatype til tekst.
Opret	Opretter en kolonne på basis af en funktion.
Dubler	Opretter en kolonne med indhold, der er identisk med indholdet i den valgte kolonne.
Rediger	Ændrer kolonnedetaljerne. Du kan for eksempel ændre navnet, vælge en anden kolonne eller opdatere funktioner.
Udtræk dato	Udtrækker oplysninger om et dato- og klokkeslætinterval fra tidsstempler. Du kan for eksempel udtrække år som 2024, dag i måneden som 23 eller time på dagen som 15.
Gruppe, Betinget gruppe	Vælg Gruppe for at oprette dine egne tilpassede grupper. Du kan for eksempel gruppere stater sammen med tilpassede regioner, og du kan kategorisere dollarbeløb i grupper, der angiver lille, mellem og stort.
Skjul	Skjuler kolonnen i panelet Data og i visualiseringerne. Hvis du vil have vist de skjulte kolonner, skal du klikke på Skjulte kolonner (nedtonet ikon) i sidefoden. Derefter kan du få vist individuelle kolonner eller alle de skjulte kolonner på én gang.
Log	Beregner den naturlige logaritme af et udtryk.
Små bogstaver	Opdaterer indholdet af en kolonne med værdier, hvor alle bogstaver er skrevet med lille.
Potens	Opløfter en kolonnes værdi til den potens, som du angiver. Standardpotensen er 2.
Omdøb	Ændrer navnet på en kolonne.
Erstat	Ændrer specifik tekst i den valgte kolonne til en hvilken som helst værdi, som du angiver. Du kan for eksempel ændre alle instanser af Mister til Mr..
Første bogstav i sætning med stort	Opdaterer indholdet af en kolonne, så det første bogstav i det første ord i en sætning er stort.
Opdel	Opdeler en kolonneværdi i dele. Du kan for eksempel opdele kolonnen Navn i fornavn og efternavn.
Kvadratrod	Opretter en kolonne, der udfyldes med kvadratroden af værdien i den valgte kolonne.
Store bogstaver	Opdaterer indholdet af en kolonne med værdier, hvor alle bogstaver er skrevet med stort.

Dataprofiler og semantiske anbefalinger

Når du opretter et datasæt, udfører Oracle Analytics kolonneniveauprofilering, så der oprettes et sæt semantiske anbefalinger til reparation eller forbedring af dine data. Når du opretter projektmapper, kan du også inkludere vidensforbedringer i dine visualiseringer ved at tilføje dem fra datapanelet.

Disse anbefalinger er baseret på, at systemet automatisk finder en specifik semantisk type under profileringstrinnet. For eksempel bliver datasæt, som er baseret på lokale emneområder, profileret ved hjælp af et simpelt Øverste N-eksempel.

Der er kategorier af semantiske typer, for eksempel geografiske placeringer, der identificeres af bynavne, genkendelige mønskre som for eksempel kreditkort, e-mailadresser og CPR-numre, datoer og tilbagevendende mønstre. Du kan også oprette dine egne tilpassede semantiske typer.

Emner:

Kategorier af semantiske typer

Der anvendes profilering på forskellige semantiske typer.

Kategorier af semantiske typer profileres for at identificere følgende:

Geografiske placeringer, for eksempel bynavne.
Mønstre som dem, der findes i kreditkortnumre eller e-mailadresser.
Tilbagevendende mønstre, for eksempel udtryksdata med bindestreger.

Anbefalinger af semantiske typer

Anbefalede reparationer, forbedringer eller udvidelser af datasættet bestemmes af datatypen.

Eksempler på anbefalinger af semantiske typer:

Forbedringer - Tilføjelse af en ny kolonne i dine data, der svarer til en bestemt funden type som for eksempel en geografisk placering. For eksempel tilføjelse af befolkningsdata for en by.
Kolonnesammenkædninger - Når der findes to kolonner i datasættet, hvor den ene indeholder fornavne, og den anden indeholder efternavne, anbefaler systemet en sammenkædning af navnene i en enkelt kolonne. For eksempel en kolonne med navnet fornavn_efternavn.
Semantiske udtrækninger - Når en semantisk type består af undertyper, for eksempel et usa_telefon-nummer, der omfatter et områdenummer, anbefaler systemet, at undertypen udtrækkes i en kolonne for sig.
Udtrækning af dele - Når der registreres et generisk mønster i dataene, anbefaler systemet, at dele af det pågældende mønster udtrækkes. Hvis systemet for eksempel finder gentagne bindestreger i dataene, anbefaler det at udtrække delene i separate kolonner for potentielt at gøre dataene mere brugbare til analyse.
Datoudtrækninger - Når der udtrækkes datoer, anbefaler systemet, at der udtrækkes dele af datoerne, som kan lette analysen af dataene. Du kan for eksempel udtrække ugedagen fra en faktura- eller købsdato.
Fuld og delvis skjulning/maskering/sletning - Når der findes følsomme felter, for eksempel kreditkortnumre, anbefaler systemet, at kolonnen maskeres helt eller delvist eller endda fjernes.

Semantiske typer, der genkendes på basis af mønster

Semantiske typer identificeres på basis af mønstre, der findes i dine data.

Der gives anbefalinger for disse semantiske typer:

Datoer (i mere end 30 formater)
Personnumre (USA)
Kreditkortnumre
Kreditkortattributter (CVV og udløbsdato)
E-mailadresser
Nordamerikanske telefonnumre
Amerikanske adresser

Referencebaserede semantiske typer

Genkendelse af semantiske typer er bestemt af den indlæste referenceviden, som leveres af tjenesten.

Der gives referencebaserede anbefalinger for disse semantiske typer:

Landenavne
Landekoder
Navne på delstater og provinser
Statskoder
Navne på jurisdiktioner
Bynavne (lokaliserede navne)
Postnumre

Anbefalede forbedringer

Anbefalede forbedringer er baseret på de semantiske typer.

Forbedringer bestemmes på basis af det geografiske lokationshierarki:

Land
Provins (delstat)
Jurisdiktion (kommune)
Længdegrad
Breddegrad
Befolkningstal
Højde (i meter)
Tidszone
ISO-landekoder
FIPS (Federal Information Processing Series)
Landets navn
Hovedstad
Kontinent
GeoNames-ID
Talte sprog
Telefonlandekode
Postnummerformat
Postnummermønster
Telefonlandekode
Valutanavn
Valutaforkortelse
Geografisk topdomæne (GeoLTD)
Kvadratkilometer

Påkrævede tærskler

Profileringsprocessen bruger specifikke tærskler for at bestemme specifikke semantiske typer.

Generelt set skal 85 % af dataværdierne i kolonnen opfylde kriterierne for en enkelt semantisk type, før systemet kan bestemme klassificeringen. Det betyder, at en kolonne, der indeholder 70 % fornavne og 30 % "andre", ikke opfylder tærskelkravene, og der foretages derfor ikke nogen anbefalinger.

Tilpasset viden-anbefalinger

Brug tilpasset viden-anbefalinger for at forbedre Oracle Analytics-systemviden. Tilpasset viden gør det muligt for den semantiske profiler i Oracle Analytics at identificere mere forretningsspecifikke semantiske typer og angive mere relevante og styrede forslag til forbedringer. Det kan for eksempel være, at du vil tilføje en tilpasset viden-reference, der klassificerer receptpligtig medicin i USP-medicinkategorierne Smertestillende midler og Opioid.

Selvstudium

Du kan bruge eksisterende semantiske filer såsom USP-filer (Unsupervised Semantic Parsing), eller du kan oprette dine egne semantiske filer. Bed administratoren om at uploade tilpasset viden-filer til Oracle Analytics. Når du forbedrer datasæt, viser Oracle Analytics anbefalinger til forbedring på baggrund af disse semantiske data. Når du opretter projektmapper, kan du også inkludere vidensforbedringer i dine visualiseringer ved at tilføje dem fra datapanelet.

Oprettelse af dine egne tilpasset viden-filer

Følg disse retningslinjer, når du opretter dine egne semantiske filer:

Opret en datafil i CSV- eller XLSX-format (Microsoft Excel). Du kan maksimalt uploade en fil på 250 MB.
Udfyld den første kolonne med den nøgle, som Oracle Analytics bruger til profilering af dataene.
Udfyld de øvrige kolonner med forbedringsværdierne.

Bed administratoren om at uploade din tilpasset viden-fil til Oracle Analytics.

Generelle tilpassede formatstrenge

Du kan bruge generelle tilpassede formatstrenge til at oprette tilpassede tids- eller datoformater.

Tabellen viser de generelle tilpassede formatstrenge og de resultater, som de viser. Disse gør det muligt at få vist dato- og tidsfelter i brugerens landestandard.

Generel formatstreng	Resultat
[FMT:dateShort]	Formaterer datoen i landestandardens korte datoformat. Du kan også skrive `[FMT:date]`.
[FMT:dateLong]	Formaterer datoen i landestandardens lange datoformat.
[FMT:dateInput]	Formaterer datoen i et format, der accepteres som input tilbage i systemet.
[FMT:time]	Formaterer klokkeslættet i landestandardens klokkeslætsformat.
[FMT:timeHourMin]	Formaterer klokkeslættet i landestandardens klokkeslætsformat, men udelader sekunderne.
[FMT:timeInput]	Formaterer klokkeslættet i et format, der accepteres som input tilbage i systemet.
[FMT:timeInputHourMin]	Formaterer klokkeslættet i et format, der accepteres som input tilbage i systemet, men udelader sekunderne.
[FMT:timeStampShort]	Svarer til at skrive `[FMT:dateShort] [FMT:time]`. Formaterer datoen i landestandardens korte datoformat og klokkeslættet i landestandardens klokkeslætsformat. Du kan også skrive `[FMT:timeStamp]`.
[FMT:timeStampLong]	Svarer til at skrive `[FMT:dateLong] [FMT:time]`. Formaterer datoen i landestandardens lange datoformat og klokkeslættet i landestandardens klokkeslætsformat.
[FMT:timeStampInput]	Svarer til `[FMT:dateInput] [FMT:timeInput]`. Formaterer datoen og klokkeslættet i et format, der accepteres som input tilbage i systemet.
[FMT:timeHour]	Formaterer timefeltet udelukkende i landestandardens format, for eksempel 8 PM.
YY eller yy	Viser de sidste to cifre for året, for eksempel `11` for 2011.
YYY eller yyy	Viser de sidste tre cifre for året, for eksempel `011` for 2011.
YYYY eller yyyy	Viser det firecifrede årstal, for eksempel `2011`.
M	Viser den numeriske måned, for eksempel `2` for februar.
MM	Viser den numeriske måned med et venstrestillet nul for måneder med et enkelt ciffer, for eksempel `02` for februar.
MMM	Viser det forkortede navn på måneden i brugerens landestandard, for eksempel `Feb`.
MMMM	Viser det fulde navn på måneden i brugerens landestandard, for eksempel `Februar`.
D eller d	Viser dagen i måneden, for eksempel `1`.
DD eller dd	Viser dagen i måneden med et venstrestillet nul for dage med et enkelt ciffer, for eksempel `01`.
DDD eller ddd	Viser det forkortede navn på ugedagen i brugerens landestandard, for eksempel `Tor` for torsdag.
DDDD eller dddd	Viser det fulde navn på ugedagen i brugerens landestandard, for eksempel `Torsdag`.
DDDDD eller ddddd	Viser det første bogstav i navnet på ugedagen i brugerens landestandard, for eksempel `T` for torsdag.
r	Viser dagen i året, for eksempel 1.
rr	Viser dagen i året med et venstrestillet nul for dage i året med et enkelt ciffer, for eksempel 01.
rrr	Viser dagen i året med et venstrestillet nul for dage i året med et enkelt ciffer, for eksempel 001.
w	Viser ugen i året, for eksempel 1.
ww	Viser ugen i året med et venstrestillet nul for uger med et enkelt ciffer, for eksempel 01.
q	Viser kvartalet i året, for eksempel 4.
h	Viser timetallet i 12-timers-systemet, for eksempel `2`.
H	Viser timetallet i 24-timers-systemet, for eksempel `23`.
hh	Viser timetallet i 12-timers-systemet med et venstrestillet nul for timetal med et enkelt ciffer, for eksempel `01`.
HH	Viser timetallet i 24-timers-systemet med et venstrestillet nul for timetal med et enkelt ciffer, for eksempel `23`.
m	Viser minuttallet, for eksempel `7`.
mm	Viser minuttallet med et venstrestillet nul for minuttal med et enkelt ciffer, for eksempel `07`.
s	Viser sekundtallet, for eksempel `2`. Du kan også medtage decimaler i strengen, for eksempel s.# eller s.00 (hvor # er et valgfrit ciffer, og 0 er et påkrævet ciffer).
ss	Viser sekundtallet med et venstrestillet nul for sekundtal med et enkelt ciffer, for eksempel `02`. Du kan også medtage decimaler i strengen, for eksempel ss.# eller ss.00 (hvor # er et valgfrit ciffer, og 0 er et påkrævet ciffer).
S	Viser millisekundtallet, for eksempel 2.
SS	Viser millisekundtallet med et venstrestillet nul for millisekundtal med et enkelt ciffer, for eksempel <systemoutput>02</systemoutput>.
SSS	Viser millisekundtallet med et venstrestillet nul for millisekundtal med et enkelt ciffer, for eksempel <systemoutput>002</systemoutput>.
tt	Viser det første bogstav i forkortelsen af ante meridiem eller post meridiem i brugerens landestandard, for eksempel `p`.
gg	Viser perioden i brugerens landestandard.