Datové profily a sémantická doporučení

Při vytváření datové sady provede Oracle Analytics profilování na úrovni sloupců, aby se vytvořila sada sémantických doporučení k opravě či rozšíření dat. Při vytváření sešitů můžete do vizualizací zahrnout také rozšíření znalostí, a to jejich přidáním z panelu Data.

Poznámka:

Rozšíření znalostí jsou obvykle při výchozím nastavení aktivována, nicméně editory sešitů je mohou aktivovat nebo deaktivovat pro datové sady, které vlastní nebo pro které mají práva k úpravám. Služba Oracle Analytics pro obohacení datových sad generovaných z toku dat neposkytuje doporučení automaticky. V takovém případě musí pro datovou sadu její vlastník nebo správce nejprve aktivovat volbu obohacení znalostí. Viz část Aktivace obohacení znalostí pro datové sady.

Tato doporučení jsou založena automatické detekci konkrétního sémantického typu systémem během kroku profilování. Například datové sady založené na místních cílových oblastech se profilují pomocí jednoduchého vzorku Prvních N.

Existují kategorie sémantických typů, jako jsou zeměpisná místa identifikovaná názvy měst, rozpoznatelné vzory jako u kreditních karet, e-mailových adres a čísel sociálního zabezpečení, kalendářní data a opakující se vzory. Můžete také vytvořit své vlastní sémantické typy.

Kategorie sémantických typů

Profilování se vztahuje na různé sémantické typy.

Kategorie sémantických typů jsou profilovány, aby umožnily identifikovat:

  • Geografická místa, jako jsou názvy měst.
  • Vzory, se kterými je možné setkat se u čísel kreditních karet nebo e-mailových adres.
  • Opakující se vzory, např. data frází s pomlčkami.

Doporučení sémantických typů

Doporučení pro opravy, vylepšení nebo obohacení datové sady jsou určována podle typu dat.

Příklady doporučení pro sémantické typy:

  • Rozšíření - Přidání nového sloupce do vašich dat, který odpovídá konkrétnímu detekovanému typu, např. geografickému místu. Například přidání dat o populaci k městu.
  • Zřetězení sloupců - Pokud jsou v datové sadě detekovány dva sloupce, z nichž jeden obsahuje jména a druhý příjmení, systém doporučí zřetězení jmen do jednoho sloupce. Například sloupec jméno_příjmení.
  • Sémantické extrakce - Pokud se sémantický typ skládá z podtypů, např. telefonní_číslo_usa, které zahrnuje předvolbu, systém doporučí extrakci dílčího typu do vlastního sloupce.
  • Extrakce součásti - Pokud je v datech detekován obecný oddělovač vzorů, systém doporučí extrahovat součásti daného vzoru. Pokud například systém v datech detekuje opakující se dělení slov, doporučí extrakci součástí do samostatných sloupců, aby byla data případně užitečnější pro analýzu.
  • Extrakce data - Pokud jsou detekována data, systém doporučí extrakci součástí data, které mohou vylepšit analýzu dat. Můžete například extrahovat den v týdnu z data faktury nebo nákupu.
  • Úplné nebo částečné zakrytí/maskování/odstranění - Pokud jsou detekována citlivá pole, např. číslo kreditní karty, systém doporučí úplné nebo částečné maskování sloupce, případně úplné odstranění.

Sémantické typy na základě rozpoznaného vzoru

Sémantické typy jsou identifikovány na základě vzorů nalezených ve vašich datech.

Doporučení jsou poskytována pro tyto sémantické typy:

  • Data (ve více než 30 formátech)
  • Číslo sociálního pojištění v USA (SSN)
  • Čísla kreditních karet
  • Atributy kreditních karet (CVV a datum expirace)
  • E-mailové adresy
  • Telefonní čísla tarifů v Severní Americe
  • Adresy v USA

Sémantické typy založené na referencích

Rozeznávání sémantických typů vychází z načtených referenčních znalostí poskytnutých službou.

Doporučení založená na referencích jsou poskytována pro tyto sémantické typy:

  • Názvy zemí
  • Kódy zemí
  • Názvy států (provincie)
  • Kódy států
  • Názvy okresů (jurisdikce)
  • Názvy měst (lokalizované názvy)
  • PSČ

Doporučená rozšíření

Doporučená rozšíření jsou založena na sémantických typech.

Rozšíření jsou určována na základě hierarchie geografického umístění:

  • Země
  • Okres (stát)
  • Jurisdikce (okres)
  • Zeměpisná délka
  • Zeměpisná šířka
  • Populace
  • Nadmořská výška (v metrech)
  • Časové pásmo
  • Kódy zemí ISO
  • Federal Information Processing Series (FIPS)
  • Název země
  • Hlavní město
  • Kontinent
  • ID geografických názvů
  • Používané jazyky
  • Telefon - předčíslí země
  • Formát PSČ
  • Vzor PSČ
  • Telefon - předčíslí země
  • Název měny
  • Zkratka měny
  • Geografická doména nejvyššího řádu (GeoLTD)
  • Čtvereční KM

Požadované prahové hodnoty

Proces profilování používá specifické prahové hodnoty k rozhodování o konkrétních sémantických typech.

Podle obecného pravidla musí 85 % datových hodnot ve sloupci splňovat kritéria pro jeden sémantický typ, aby systém mohl určit klasifikaci. V důsledku toho nebude sloupec, který obsahuje např. 70 % jmen a 30 % hodnot „ostatní“, splňovat požadavky na prahovou hodnotu a nebudou tedy provedena doporučení.

Doporučení pro vlastní znalosti

Použijte doporučení pro vlastní znalosti k rozšíření znalostí systému Oracle Analytics. Vlastní znalosti umožňují sémantickému profileru služby Oracle Analytics identifikovat více sémantických typů specifických pro danou firmu a vytvářet relevantnější a řízená doporučení pro rozšíření. Můžete například přidat referenci vlastních znalostí, která klasifikuje léky na předpis do kategorií léků USP Analgetika nebo Opiáty.

Ikona výukového programu Výukový program

Požádejte správce, aby odeslal soubory vlastních znalostí do služby Oracle Analytics. Když rozšiřujete datové sady, služba Oracle Analytics nabídne doporučení pro rozšíření založená na těchto sémantických datech. Při vytváření sešitů můžete do vizualizací zahrnout také rozšíření znalostí, a to jejich přidáním z panelu Data.

Vytváření vlastních souborů s vlastními znalostmi

Při vytváření sémantických souborů postupujte podle těchto pokynů:

  • Vytvořte datový soubor ve formátu CSV nebo Microsoft Excel (XLSX). Maximální velikost souboru, který lze odeslat, je 250 MB.
  • Naplňte první sloupec klíčem, který služba Oracle Analytics používá k profilování dat. Klíčem může být například datum s mírou podrobnosti Den, které umožňuje analýzu dat podle zdaňovací období.
  • Naplňte ostatní sloupce hodnotami rozšíření.

Požádejte správce, aby odeslal soubor vašich vlastních znalostí do služby Oracle Analytics.

Příklad – Integrace časových rámců do vašich dat

Tento příklad ukazuje, jak lze do dat prodejů přidat časové rámce podniku a aktivovat analýzu prodeje podle zdaňovacího období, pokud původní datová sada neobsahuje fiskální data.

Příklad vizualizace ukazuje prodeje podle čtvrtletí v letech 2019, 2020, 2021, 2022 a 2023, kde je každý rok zastoupen jinou barvou. Ve zdrojových datech prodeje nemáte fiskální data, proto nasadíte další přizpůsobené znalosti pro přidání fiskálních dat do datové sady.

Nejprve připravíte fiskální data v souboru Fiscal Calendar.xlsx. Soubor obsahuje datum (dd-mm-yyyy), zdaňovací období, měsíc zdaňovacího období a týden zdaňovacího období. Zdrojový soubor může například obsahovat „01-23-2025“ ve sloupci data, „2025“ ve sloupci zdaňovací období a atributy k doplnění zbývajících sloupců.

Požádejte správce, aby odeslal soubor Fiscal Calendar.xlsx do přizpůsobené oblasti znalostí v konzole.

Poté vytvoříte datovou sadu obsahující Prodeje a ORDER_DATE a v editoru datových sad vyberte v doporučeních pro obohacení Obohatit ORDER_DATE o zdaňovací období.Obohatit ORDER_DATE o měsíc zdaňovacího období. Služba Oracle Analytics přidá tato dvě obohacení do datové sady.

Nakonec vytvoříte sešit a do vizualizace (pod ORDER_DATE) přidáte Zdaňovací obdobíČtvrtletí zdaňovacího obdobíProdeje. Poznámka: Zdaňovací obdobíČtvrtletí zdaňovacího období můžete přidat přímo, aniž byste museli přidat původní sloupec ORDER_DATE.