Funktioner för databasanalys

Med funktioner för databasanalys kan du utföra avancerade analyser och datautvinningsanalyser, till exempel identifiera avvikelser, klustra data, sampla data och utföra affinitetsanalys. Analysfunktioner finns tillgängliga när du ansluter till en Oracle-databas eller Oracle Autonomous Data Warehouse.

Ikonen Självstudier LiveLabs Sprint

Om du vill visa steget Databasanalys i dataflödesredigeraren måste du ansluta till en Oracle-databas eller till Oracle Autonomous Data Warehouse.

Funktionstyper Beskrivning

Dynamisk avvikelseidentifiering

Identifierar avvikelser i indata utan någon fördefinierad modell. Det skulle till exempel kunna vara så att du vill markera ovanliga ekonomiska transaktioner.

När du distribuerar den här funktionen med stora datamängder ska du konfigurera partitionskolumnerna för att maximera prestanda.

Dynamisk klustring

Klustra indata utan fördefinierad modell. Det skulle till exempel kunna vara så att du vill karakterisera och upptäcka kundsegment för marknadsföringsändamål.

När du distribuerar den här funktionen med stora datamängder ska du konfigurera partitionskolumnerna för att maximera prestanda.

Vanlig objektuppsättning

Upptäck relationer i dina data genom att identifiera uppsättningarna av objekt som ofta visas tillsammans. Den här datautvinningstekniken kallas även associationsregelinlärning, affinitetsanalyser eller marknadskorgsanalys inom detaljhandeln. Om du använder en vanlig objektuppsättning som ett verktyg för marknadskorgsanalys kan du se att kunder som köper schampo även köper balsam.

Den här funktionen är resursintensiv och dess prestanda beror på flera faktorer, bland annat volymen på datamängdens indata, kardinalitet för transaktions-id och kardinalitet för kolumnen Objektvärde. För att undvika potentiell prestandaförsämring i databasen kan du prova med ett högre värde för minsta stödprocent (standard är 0,25) och gradvis minska det för att passa fler objektuppsättningar i dina utdata.

Sampla data

Väljer en slumpvis sampelprocentandel av data från en tabell. Du anger bara vilken procentandel av data som du vill sampla. Det kan till exempel vara så att du vill utföra en slumpvis sampling av tio procent av data.

Texttokenisering

Analysera textuella data genom att dela upp dem i olika ord och räkna förekomsterna av varje ord. När du kör ditt dataflöde skapar Oracle Analytics en tabell i databasen med namnet DR$IndexName$I, vilket innehåller detaljer relaterade till tokentexten och tokenantalet. Använd tabellen DR$IndexName$I för att skapa en datamängd.

  • Under Utdata använder du alternativet Skapa bredvid varje fält för att välja de kolumner som du vill indexera.

  • Under Parametrar och sedan Textkolumn klickar du på Välj en kolumn för att välja det fält som du vill dela upp i separata ord. Använd alternativen Referenskolumn<-nummer> om du vill inkludera en eller flera kolumner i datamängdens utdata. Använd alternativet Använd särskild lexikalisk analys för språk för att välja vissa språk som kinesiska, danska, nederländska, engelska, finska, tyska, norska, japanska, koreanska och svenska för särskilda lexikaliska analyser. Mer information om vilka språk som stöds finns i Oracle Database-dokumentation.

Databasanslutningen som du använder för ditt dataflöde kräver speciella databasbehörigheter. Kontrollera med din administratör att:
  • ditt databaskonto har grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • du använder en anslutning till Oracle Analytics med samma användarnamn som schemat i vilket källtabellen finns. Det här är bästa praxis för att undvika problem med åtkomstbehöriget när dataflödet körs.
  • kolumnen i databasens tabell som du analyserar inte har något befintligt CONTEXT-index. Om det finns ett befintligt CONTEXT-index på databastabellen som du analyserar tar du bort det indexet innan du kör dataflödet för texttokeniseringen.

Tidsserie

Tidsserie är en teknik för datautvinning som prognostiserar målvärdet baserat på en känd historik över målvärden. Tidsserieanalysens indata är en sekvens av målvärden. Den ger uppskattningar av målvärdet för varje period inom ett tidsfönster som kan inkludera upp till 30 perioder utöver historiska data.

Modellen beräknar också olika statistiska data som mäter goodness of fit för historiska data. Dessa statistiska data är tillgängliga som en ytterligare utdatamängd via en parameterinställning.

Obs! Algoritmen för tidsserie finns bara i version 18c och senare av Oracle Database.

Ta bort pivotering för data

Transponera data som lagras i kolumner till radformat. Det skulle till exempel kunna vara så att du vill transponera flera kolumner som visar ett värde för intäktsmätetal för varje år till en enda intäktskolumn med flera värderader för årsdimensionen. Du väljer helt enkelt de mätetalskolumner som ska transponeras och anger ett namn för den nya kolumnen. Du får en ny datamängd med färre kolumner och fler rader.

Obs! Om du tänker använda analysfunktioner måste du kontrollera att administratören har aktiverat analysfunktioner (via Konsol, Avancerade systeminställningar, Prestanda och kompatibilitet, Aktivera databasanalysnod i dataflöden).