Databaseanalysefunktioner

Med databaseanalysefunktioner kan du udføre avanceret analyse og data mining-analyse, for eksempel opdagelse af afvigelser, klyngedata, dataudpluk og affinitetsanalyse. Der er adgang til analysefunktioner, når du opretter adgang til en Oracle-database eller Oracle Autonomous Data Warehouse.

Ikonet Selvstudium LiveLabs Sprint

Hvis du vil vise trinnet Database Analytics i datafloweditoren, skal du oprette adgang til en Oracle-database eller Oracle Autonomous Data Warehouse.

Funktionstyper Beskrivelse

Dynamisk registrering af afvigelser

Registrer afvigelser i dine inputdata uden en foruddefineret model. Det kan for eksempel være, at du vil fremhæve usædvanlige økonomiske transaktioner.

Når du tager denne funktion i brug sammen med store datasæt, skal du konfigurere partitionskolonnerne for at maksimere ydeevnen.

Dynamiske klynger

Grupper dine inputdata i klynger uden en foruddefineret model. Du vil for eksempel finde og beskrive kundesegmenter til marketingformål.

Når du tager denne funktion i brug sammen med store datasæt, skal du konfigurere partitionskolonnerne for at maksimere ydeevnen.

Typisk elementsæt

Opdag relationer i dine data ved at identificere sæt af elementer, der ofte forekommer sammen. Denne data mining-teknik kaldes også "association rule learning", affinitetsanalyse eller, i detailbranchen, "market basket analysis". Hvis du bruger typisk elementsæt som værktøj til "market basket analysis", vil du måske opdage, at kunder, som køber shampoo, også køber hårbalsam.

Denne operation er ressourcekrævende, og dens ydeevne afhænger af en række faktorer, for eksempel inputdatasættets volumen, kardinaliteten af transaktions-ID og kardinaliteten af kolonnen Elementværdi. Hvis du vil undgå en mulig forringelse af ydeevnen, kan du prøve at angive en højere værdi for den minimale understøttelsesprocent (standarden er 0,25) og gradvist reducere den for at give plads til flere elementsæt i dit output.

Datastikprøve

Vælger en vilkårlig datastikprøveprocent fra en tabel. Du angiver blot den ønskede datastikprøveprocent. Du vil for eksempel tage en datastikprøve på ti procent af dine data.

Tokenopdeling af tekst

Du kan analysere tekstdata ved at opdele dem i separate ord og tælle forekomsterne af hvert ord. Når du kører dataflowet, opretter Oracle Analytics en tabel i databasen med navnet DR$Indeksnavn$I, som indeholder tokenteksten og de detaljer, der er relateret til tokenantallet. Brug tabellen DR$Indeksnavn$I til at oprette et datasæt.

  • Under Output skal du bruge valget Opret ud for hvert felt til at vælge de kolonner, som skal indekseres.

  • Under Parametre og derefter Tekstkolonne skal du klikke på Vælg en kolonne for at vælge det felt, som du vil opdele i separate ord. Brug valget Referencekolonne<nr.> til at inkludere en eller flere kolonner i outputdatasættet. Brug valget Brug særlig lexer til sprog til at vælge specifikke sprog såsom kinesisk, dansk, hollandsk, engelsk, finsk, tysk, norsk, japansk, koreansk og svensk til særlige lexers. Se Dokumentation til Oracle-database for at få flere detaljer om understøttede sprog.

Den databaseforbindelse, som du bruger til dit dataflow, kræver særlige databaseprivilegier. Kontroller følgende hos systemadministratoren:
  • Din databasekonto har grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Du bruger en Oracle Analytics-forbindelse med samme brugernavn som det skema, hvor kildetabellen findes. Dette er bedste praksis for at undgå problemer med adgangsprivilegier, når dataflowet kører.
  • Den databasetabelkolonne, som du analyserer, har ikke et eksisterende CONTEXT-indeks. Hvis der findes et CONTEXT-indeks i den databasetabel, som du analyserer, skal du fjerne dette indeks, før du kører dataflowet for tokenopdeling af tekst.

Tidsserie

Tidsserie er en data mining-teknik, der prognosticerer målværdier på basis af en kendt historik for målværdier. Inputtet til tidsserieanalyser er en sekvens af målværdier. Den beregner estimater af målværdien for hver periode i et tidsvindue, der kan omfatte op til 30 perioder ud over de historiske data.

Modellen beregner også forskellige statistikker, der måler tilpasningsgrad i forhold til historiske data. Disse statistikker er tilgængelige som et yderligere outputdatasæt via en parameterindstilling.

Bemærk: Tidsseriealgoritmen er kun tilgængelig fra Oracle-databaseversion 18c og frem.

Ophævelse af pivotering af data

Omdan data, der er gemt i kolonner, til rækkeformat. Du kan for eksempel omdanne flere kolonner, der viser en indtægtsmetrikværdi for hvert år, til en enkelt indtægtskolonne med flere værdirækker for dimensionen Year. Du vælger blot de metrikkolonner, der skal omdannes, og angiver et navn til den nye kolonne. Resultatet er et nyt datasæt med færre kolonner og flere rækker.

Bemærk: Når du vil bruge analysefunktioner, skal du sørge for, at administratoren har aktiveret analysefunktioner (Konsol, Avancerede systemindstillinger, Valg for ydeevne og kompatibilitet, Aktiver Database Analytics-node i dataflows).