Analytické funkce pro databáze

Analytické funkce pro databáze vám umožní provádět pokročilou analýzu a analýzu vytěžování dat, například zjišťování anomálií, shlukování dat, vzorkování dat a analýzu spřažení. Analytické funkce jsou dostupné, když se připojíte k databázi Oracle nebo službě Oracle Autonomous Data Warehouse.

Ikona výukového programu Iterace LiveLabs

Chcete-li zobrazit krok Analýza databáze v editoru toku dat, musíte se připojit k databázi Oracle nebo Oracle Autonomous Data Warehouse.

Typy funkcí Popis

Dynamická detekce anomálií

Funkce slouží k detekci anomálií ve vstupních datech bez předem definovaného modelu. Funkci můžete například použít, když chcete zvýraznit neobvyklé finanční transakce.

Při nasazení této funkce na velké datové sady konfigurujte sloupce oddílu, abyste zajistili maximální výkon.

Dynamické shlukování

Funkce slouží ke shlukování vstupních dat bez předem definovaného modelu. Funkci můžete například použít, když chcete kvůli marketingovým účelům zjistit a charakterizovat segmenty zákazníků.

Při nasazení této funkce na velké datové sady konfigurujte sloupce oddílu, abyste zajistili maximální výkon.

Sada častých položek

Odhalte vztahy ve svých datech identifikací sad položek, které se často objevují společně. Tato technika vytěžování dat je také označována jako učení asociačním pravidlům, analýza spřažení nebo v oblasti maloobchodu jako analýza spotřebního koše. Pokud používáte sadu častých položek jako nástroj pro analýzu spotřebního koše, možná zjistíte, že zákazníci, kteří si kupují šampon, si kupují také vlasový kondicionér.

Tato operace je náročná na zdroje a její provedení závisí na několika faktorech, jako jsou objem vstupních datových sad, mohutnost ID transakce a mohutnost sloupce Hodnota položky. Chcete-li předejít možnému snížení výkonu v databázi, zkuste použít vyšší hodnotu minimálního procenta podpory (výchozí hodnota je 0,25) a postupně ji snižujte, aby se do vašeho výstupu vešlo více sad položek.

Vzorkování dat

Funkce slouží k výběru náhodných vzorkových procent dat z tabulky. Jednoduše zadáte procenta dat, která chcete získat jako vzorek. Funkci můžete například použít, když chcete vytvořit náhodný vzorek deseti procent dat.

Tokenizace textu

Analyzujte textová data rozdělením na odlišná slova a počítáním výskytů jednotlivých slov. Když spustíte datový tok, služba Oracle Analytics vytvoří v databázi tabulku s názvem DR$název_indexu$I, která obsahuje text tokenů a podrobnosti související s počtem tokenů. Tabulku DR$název_indexu$I použijte k vytvoření datové sady.

  • V části Výstupy použijte volbu Vytvořit vedle jednotlivých polí a vyberte sloupce k indexaci.

  • V části Parametry a její dílčí části Textový sloupec klikněte na položku Vybrat sloupec a vyberte pole, které chcete rozdělit na samostatná slova. Pomocí voleb Referenční sloupec <číslo> zahrňte jeden nebo více sloupců do výstupní datové sady.

Připojení k databázi, které používáte pro datový tok, vyžaduje speciální oprávnění databáze. Ověřte u správce následující:
  • Váš databázový účet má právo spouštět příkaz EXECUTE v balíku CTXSYS.CTX_DDL na názvu schématu.
  • Používáte připojení ke službě Oracle Analytics se stejným uživatelským jménem jako pro schéma, ve kterém existuje zdrojová tabulka. Jedná se o osvědčený postup, jak se vyhnout problémům s přístupovými oprávněními, když je spuštěn datový tok.
  • Vámi analyzovaný sloupec tabulky databáze neobsahuje žádný existující index CONTEXT. Pokud vámi analyzovaná tabulka databáze obsahuje existující index CONTEXT, odeberte tento index před spuštěním datového toku tokenizace textu.

Časové řady

Časové řady představují techniku vytěžování dat, která předpovídá cílovou hodnotu na základě známé historie cílových hodnot. Vstupem pro analýzu časových řad je sekvence cílových hodnot. Poskytuje odhady cílové hodnoty pro každé období časového okna, které může zahrnovat až 30 období přesahujících historická data.

Model také počítá různé statistické údaje, které zjišťují, zda je dosaženo dobré shody s historickými daty. Tyto statistické údaje jsou dostupné jako doplňková výstupní datová sada prostřednictvím nastavení parametru.

Poznámka: Algoritmus časových řad je dostupný pouze u databází Oracle verze 18c a novějších.

Zrušení kontingenčních dat

Funkce slouží k transponování dat uložených ve sloupcích do formátů řádků. Funkci můžete například použít k transponování několika sloupců zobrazujících hodnotu metriky výnosu jednotlivých roků do jediného sloupce výnosu s několika řádky hodnot pro dimenzi roků. Jednoduše vyberete sloupce metriky k transponování a zadáte název nového sloupce. Získáte novou datovou sadu s méně sloupci a více řádky.

Poznámka: Chcete-li používat analytické funkce, ujistěte se, že je správce povolil (prostřednictvím konzoly a položek Systémy systému, Výkon a kompatibilita, Aktivovat analytický uzel databáze v datových tocích).