Funkcie analytiky databázy umožňujú vykonať rozšírenú analýzu a analýzu dolovania dát, napríklad na detekciu anomálií, klastrovanie dát, vzorkovanie dát a analýzu afinity. Funkcie analytiky sú dostupné pri pripojení k databáze Oracle alebo Oracle Autonomous Data Warehouse.
Ak chcete zobraziť krok Analytika databázy v editore dátového toku, pripojte sa databáze Oracle alebo k databáze Oracle Autonomous Data Warehouse.
Typy funkcií | Popis |
---|---|
Dynamická detekcia anomálií |
Umožňuje zistiť anomálie vo vstupných dátach bez preddefinovaného modelu. Môžete napríklad zvýrazniť nezvyčajné finančné transakcie. Ak túto funkciu nasadíte na veľké množiny dát, nakonfigurujte stĺpce partícií, aby ste dosiahli maximálny výkon. |
Dynamické klastrovanie |
Umožňuje klastrovať vstupné dáta bez preddefinovaného modelu. Môžete napríklad charakterizovať a vyhľadávať segmenty zákazníkov na marketingové účely. Ak túto funkciu nasadíte na veľké množiny dát, nakonfigurujte stĺpce partícií, aby ste dosiahli maximálny výkon. |
Častá množina položiek |
Odhaľte vzťahy v dátach identifikovaním množín položiek, ktoré sa často vyskytujú spolu. Táto technika dolovania dát je známa aj ako učenie pravidiel priradenia, analýza afinity a v odvetví maloobchodu ako analýza spotrebného koša. Keď používate častú množinu položiek ako nástroj na analýzu spotrebného koša, môžete napríklad zistiť, že zákazníci, ktorí si kúpia šampón, si kúpia aj vlasový kondicionér. Táto operácia je náročná na prostriedky a jej výkon závisí od viacerých faktorov, ako je objem vstupnej množiny dát, kardinalita ID transakcie a kardinalita stĺpca hodnôt položky. Aby ste predišli potenciálnemu zníženiu výkonu databázy, začnite s vyššou hodnotou minimálneho percenta podpory (predvolená hodnota je 0,25) a postupne ju znižujte, aby do výstupu zahrnula väčšie množstvo množín položiek. |
Vzorkovanie dát |
Vyberie náhodné vzorové percento dát z tabuľky. Stačí zadať percento dát, ktoré chcete vzorkovať. Môžete napríklad náhodne vzorkovať 10 % dát. |
Tokenizácia textu |
Analyzujte textové dáta ich rozdelením na jednotlivé slová a spočítaním ich výskytu. Keď spustíte dátový tok, služba Oracle Analytics vytvorí v databáze tabuľku s názvom DR$IndexName$I, ktorá obsahuje text tokenu a detaily súvisiace s počtom tokenov. Tabuľku DR$IndexName$I použite na vytvorenie množiny dát.
Databázové pripojenie, ktoré používate pre dátový tok, vyžaduje špeciálne databázové privilégiá. Overte u administrátora, že:
|
Časové série |
Časové série predstavujú techniku na dolovanie dát, ktorá prognózuje cieľovú hodnotu na základe známej histórie cieľových hodnôt. Vstupom do analýzy časových sérií je sekvencia cieľových hodnôt. Poskytuje odhady cieľovej hodnoty pre každé obdobie časového úseku, ktoré môže zahŕňať až 30 období nad rámec historických dát. Model tiež vypočítava rôzne štatistiky, ktoré merajú mieru súladu s historickými dátami. Tieto štatistiky sú k dispozícii ako ďalšia výstupná množina dát prostredníctvom nastavenia parametrov. Poznámka: Algoritmus časových sérií je k dispozícii len od verzie databázy Oracle 18c. |
Konverzia stĺpcov na riadky pomocou operácie unpivot |
Umožňuje transponovať dáta uložené v stĺpcoch do formátu riadkov. Napríklad môžete transponovať viaceré stĺpce s hodnotou metriky výnosov za jednotlivé roky do jedného stĺpca výnosov s viacerými riadkami hodnôt pre dimenziu roka. Stačí vybrať stĺpce metriky na transponovanie a zadať názov pre nový stĺpec. Výsledkom je nová množina dát s menším počtom stĺpcov a väčším počtom riadkov. |
Poznámka: Ak chcete používať analytické funkcie, uistite sa, že ich administrátor aktivoval (pozrite si funkcie Konzola, Rozšírené systémové nastavenia, Výkon a kompatibilita, Aktivovať uzol analytiky databázy v dátových tokoch).