Funkcie analytiky databázy

Funkcie analytiky databázy umožňujú vykonať rozšírenú analýzu a analýzu dolovania dát, napríklad na detekciu anomálií, klastrovanie dát, vzorkovanie dát a analýzu afinity. Funkcie analytiky sú dostupné pri pripojení k databáze Oracle alebo Oracle Autonomous Data Warehouse.

Ikona tutoriálu LiveLabs Sprint

Ak chcete zobraziť krok Analytika databázy v editore dátového toku, pripojte sa databáze Oracle alebo k databáze Oracle Autonomous Data Warehouse.

Typy funkcií Popis

Dynamická detekcia anomálií

Umožňuje zistiť anomálie vo vstupných dátach bez preddefinovaného modelu. Môžete napríklad zvýrazniť nezvyčajné finančné transakcie.

Ak túto funkciu nasadíte na veľké množiny dát, nakonfigurujte stĺpce partícií, aby ste dosiahli maximálny výkon.

Dynamické klastrovanie

Umožňuje klastrovať vstupné dáta bez preddefinovaného modelu. Môžete napríklad charakterizovať a vyhľadávať segmenty zákazníkov na marketingové účely.

Ak túto funkciu nasadíte na veľké množiny dát, nakonfigurujte stĺpce partícií, aby ste dosiahli maximálny výkon.

Častá množina položiek

Odhaľte vzťahy v dátach identifikovaním množín položiek, ktoré sa často vyskytujú spolu. Táto technika dolovania dát je známa aj ako učenie pravidiel priradenia, analýza afinity a v odvetví maloobchodu ako analýza spotrebného koša. Keď používate častú množinu položiek ako nástroj na analýzu spotrebného koša, môžete napríklad zistiť, že zákazníci, ktorí si kúpia šampón, si kúpia aj vlasový kondicionér.

Táto operácia je náročná na prostriedky a jej výkon závisí od viacerých faktorov, ako je objem vstupnej množiny dát, kardinalita ID transakcie a kardinalita stĺpca hodnôt položky. Aby ste predišli potenciálnemu zníženiu výkonu databázy, začnite s vyššou hodnotou minimálneho percenta podpory (predvolená hodnota je 0,25) a postupne ju znižujte, aby do výstupu zahrnula väčšie množstvo množín položiek.

Vzorkovanie dát

Vyberie náhodné vzorové percento dát z tabuľky. Stačí zadať percento dát, ktoré chcete vzorkovať. Môžete napríklad náhodne vzorkovať 10 % dát.

Tokenizácia textu

Analyzujte textové dáta ich rozdelením na jednotlivé slová a spočítaním ich výskytu. Keď spustíte dátový tok, služba Oracle Analytics vytvorí v databáze tabuľku s názvom DR$IndexName$I, ktorá obsahuje text tokenu a detaily súvisiace s počtom tokenov. Tabuľku DR$IndexName$I použite na vytvorenie množiny dát.

  • V sekcii Výstupy použite voľbu Vytvoriť vedľa každého poľa na výber stĺpcov pre index.

  • V sekcii Parametre, Textový stĺpec kliknite na položku Vybrať stĺpec a vyberte pole, ktoré chcete rozdeliť na samostatné slová. Pomocou volieb Referenčný stĺpec<číslo> pridajte jeden alebo viacero stĺpcov do výstupnej množiny dát. Pomocou voľby Použiť špeciálny lexer jazyka môžete vybrať konkrétne jazyky, ako je angličtina, čínština, dánčina, fínčina, holandčina, japončina, kórejčina, nemčina, nórčina, a švédčina, pre špeciálne lexery. Ďalšie podrobnosti o podporovaných jazykoch nájdete v dokumentácii databázy Oracle.

Databázové pripojenie, ktoré používate pre dátový tok, vyžaduje špeciálne databázové privilégiá. Overte u administrátora, že:
  • Databázové konto obsahuje výraz grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Používa sa pripojenie k službe Oracle Analytics s rovnakým menom používateľa ako schéma, v ktorej sa nachádza zdrojová tabuľka. Toto je osvedčený postup na vyhnutie sa problémom s prístupovými privilégiami, keď je spustený dátový tok.
  • Stĺpec tabuľky databázy, ktorý analyzujete, nemá žiadny existujúci index CONTEXT. Ak v tabuľke databázy, ktorú analyzujete, existuje index CONTEXT, pred spustením dátového toku tokenizácie textu tento index odstráňte.

Časové série

Časové série predstavujú techniku na dolovanie dát, ktorá prognózuje cieľovú hodnotu na základe známej histórie cieľových hodnôt. Vstupom do analýzy časových sérií je sekvencia cieľových hodnôt. Poskytuje odhady cieľovej hodnoty pre každé obdobie časového úseku, ktoré môže zahŕňať až 30 období nad rámec historických dát.

Model tiež vypočítava rôzne štatistiky, ktoré merajú mieru súladu s historickými dátami. Tieto štatistiky sú k dispozícii ako ďalšia výstupná množina dát prostredníctvom nastavenia parametrov.

Poznámka: Algoritmus časových sérií je k dispozícii len od verzie databázy Oracle 18c.

Konverzia stĺpcov na riadky pomocou operácie unpivot

Umožňuje transponovať dáta uložené v stĺpcoch do formátu riadkov. Napríklad môžete transponovať viaceré stĺpce s hodnotou metriky výnosov za jednotlivé roky do jedného stĺpca výnosov s viacerými riadkami hodnôt pre dimenziu roka. Stačí vybrať stĺpce metriky na transponovanie a zadať názov pre nový stĺpec. Výsledkom je nová množina dát s menším počtom stĺpcov a väčším počtom riadkov.

Poznámka: Ak chcete používať analytické funkcie, uistite sa, že ich administrátor aktivoval (pozrite si funkcie Konzola, Rozšírené systémové nastavenia, Výkon a kompatibilita, Aktivovať uzol analytiky databázy v dátových tokoch).