Funcţii de analiză pentru baze de date

Funcţiile de analiză pentru bazele de date vă permit să efectuaţi analize avansate şi analize de data mining, de exemplu, detectarea anomaliilor, gruparea datelor în clustere, eşantionarea datelor şi analiza de afinitate. Funcţiile de analiză sunt disponibile atunci când vă conectaţi la o bază de date Oracle sau la un depozit Oracle Autonomous Data Warehouse.

Pictograma Tutorial Sprint LiveLabs

Pentru afişarea pasului Analiză bază de date în editorul de fluxuri de lucru, trebuie să vă conectaţi la o bază de date Oracle sau Oracle Autonomous Data Warehouse.

Tipuri de funcţii Descriere

Detectare dinamică a anomaliilor

Detectaţi anomalii în datele de intrare fără un model predefinit. De exemplu, doriţi să evidenţiaţi tranzacţii financiare neobişnuite.

Când implementaţi această funcţie la seturi mari de date, configuraţi coloanele partiţiei pentru a maximiza performanţa.

Gruparea dinamică în clustere

Se clusterizează date fără un model predefinit. De exemplu, doriţi să caracterizaţi şi să descoperiţi segmente de clienţi pe care să le folosiţi în scopuri de marketing.

Când implementaţi această funcţie la seturi mari de date, configuraţi coloanele partiţiei pentru a maximiza performanţa.

Set de elemente frecvent

Descoperiţi relaţiile din datele dvs., identificând seturi de elemente care apar adesea împreună. Această tehnică de data mining este cunoscută şi sub numele de învăţare a regulilor de asociere, analiză a afinităţii sau, în industria de vânzare cu amănuntul, ca analiză a coşului de consum. Dacă utilizaţi un set de elemente frecvent ca instrument de analiză a coşului de consum, s-ar putea să aflaţi că acei clienţi care cumpără şampon cumpără şi revitalizant pentru păr.

Această operaţie este mare consumatoare de resurse, iar performanţa sa depinde de mai mulţi factori, cum ar fi volumul setului de date de intrare, cardinalitatea ID-ului tranzacţiei şi cardinalitatea coloanei de valoare a elementului. Pentru a evita o potenţială degradare a performanţei la baza de date, încercaţi cu o valoare mai mare a procentului minim de asistenţă (valoarea prestabilită este de 0,25) şi reduceţi-o treptat pentru a primi mai multe seturi de date în rezultatele dvs.

Eşantionarea datelor

Se selectează un procentaj de date eşantion aleatoriu dintr-un tabel. Specificaţi procentajul de date pe care doriţi să le eşantionaţi. De exemplu, poate doriţi să eşantionaţi aleatoriu 10% din datele dvs.

Tokenizarea textului

Analizaţi datele de tip text, descompunându-le în cuvinte distincte şi numărând apariţiile fiecărui cuvânt. Atunci când vă rulaţi fluxul de date, Oracle Analytics creează în baza de date un tabel cu numele DR$IndexName$I, care conţine textul tokenurilor şi detalii legate de numărul de tokenuri. Utilizaţi tabelul DR$IndexName$I pentru a crea un set de date.

  • Sub Rezultate, utilizaţi opţiunea Creare de lângă fiecare câmp pentru a selecta coloanele de indexat.

  • Sub Parametri, apoi Coloană text, faceţi clic pe Selectaţi o coloană pentru a selecta câmpul pe care doriţi să-l descompună în cuvinte separate. Utilizaţi opţiunile Coloană de referinţă<number> pentru a include una sau mai multe coloane în setul de date de ieşire. Utilizaţi opţiunea Utilizare analizor lexical special pentru a selecta o anumită limbă, precum chineză, daneză, neerlandeză, engleză, finlandeză, germană, norvegiană, japoneză, coreeană şi suedeză pentru analizoarele lexicale speciale. Consultaţi Documentaţie pentru bazele de date Oracle pentru mai multe detalii despre limbile acceptate.

Conexiunea bazei de date pe care o utilizaţi pentru fluxul dvs. de date, necesită privilegii speciale pentru baza de date. Verificaţi împreună cu administratorul dvs. că:
  • Contul dvs. pentru baza de date are grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Utilizaţi o conexiune Oracle Analytics cu acelaşi nume de utilizator ca şi schema în care există tabelul sursă. Aceasta este cea mai bună practică, pentru a evita problemele cu privilegiile de acces atunci când rulează fluxul de date.
  • Coloana tabelului din baza de date pe care o analizaţi nu are niciun index CONTEXT existent. Dacă există un index CONTEXT în tabelul bazei de date pe care îl analizaţi, eliminaţi acel index înainte de a rula fluxul de date de tokenizare a textului.

Serie cronologică

Seria cronologică este o tehnică de data mining care prognozează valoarea vizată pe baza istoricului cunoscut al valorilor vizate. Intrarea pentru analiza seriei cronologice este o secvenţă de valori vizate. Oferă estimări ale valorii vizate pentru fiecare perioadă a unui interval de timp, care poate include cu până la 30 de perioade mai mult decât datele istorice.

Modelul calculează şi diverse statistici care măsoară nivelul de potrivire cu datele istorice. Aceste statistici sunt disponibile ca set de date de ieşire suplimentar printr-o setare a parametrilor.

Notă: Algoritmul seriei cronologice este disponibil numai începând cu versiunea 18c a Oracle Database.

Anularea pivotării datelor

Transpuneţi date stocate pe coloane în format pe rânduri. De exemplu, doriţi să transpuneţi mai multe coloane care conţin o valoare metrică de venit pentru fiecare an într-o singură coloană cu rânduri cu valori multiple pentru dimensiunea anului. Selectaţi coloanele cu metrica de transpus şi specificaţi o denumire pentru noua coloană. Obţineţi un nou set de date cu mai puţine coloane şi mai multe rânduri.

Notă: Pentru a utiliza funcţiile de analiză, asiguraţi-vă că administratorul a activat funcţiile de analiză (consultaţi Consolă, Setări de sistem avansate, Performanţă şi compatibilitate, Activare nod de analiză a bazei de date din Fluxuri de date).