Profilovanie dát a sémantické odporúčania

Keď vytvoríte množinu dát, služba Oracle Analytics ju profiluje na úrovni stĺpcov, aby sa vytvorila množina sémantických odporúčaní na opravu alebo obohatenie dát. Pri vytváraní zošitov môžete obohatenia poznatkov pridať do vizualizácií aj tak, že ich pridáte z panela Dáta.

Poznámka:

Obohatenia poznatkov sú zvyčajne predvolene aktivované, ale editori zošita ich môžu aktivovať alebo deaktivovať pre množiny dát, ktoré vlastnia alebo pre ktoré majú privilégiá na úpravu. Služba Oracle Analytics automaticky neposkytuje odporúčania na obohatenie pre množiny dát generované z dátového toku. V tomto prípade musí vlastník alebo administrátor množiny dát najprv aktivovať voľbu obohatenia poznatkov pre množinu dát. Pozrite si časť Aktivácia obohatenia poznatkov pre množiny dát.

Tieto odporúčania sú založené na automatickej detekcii konkrétneho sémantického typu počas kroku profilovania. Množiny dát založené na lokálnych tematických oblastiach sa napríklad profilujú pomocou jednoduchej vzorky prvých N.

Existujú kategórie sémantických typov, ako sú geografické lokality identifikované názvami miest, rozpoznateľné vzory, ako napríklad na kreditných kartách, e-mailové adresy a čísla sociálneho poistenia, dátumy a opakujúce sa vzory. Môžete vytvoriť aj vlastné sémantické typy.

Kategórie sémantických typov

Profilovanie sa používa pre rôzne sémantické typy.

Kategórie sémantických typov sa profilujú, aby bolo možné identifikovať:

  • geografické lokality, napríklad názvy miest,
  • vzory, ako sú napríklad čísla kreditných kariet alebo e-mailové adresy,
  • opakujúce sa vzory, napríklad dáta fráz rozdelených pomlčkami.

Odporúčania sémantických typov

Odporúčania na opravu, zlepšenie alebo obohatenie množiny dát sa určujú podľa typu dát.

Príklady odporúčaní sémantického typu:

  • Obohatenia – pridanie nového stĺpca k dátam, ktorý zodpovedá konkrétnemu zistenému typu, napríklad geografickej lokalite. Napríklad pridanie dát o počte obyvateľov pre mesto.
  • Zreťazenia stĺpcov – ak sa v množine dát zistia dva stĺpce, z ktorých jeden obsahuje krstné mená a druhý priezviská, systém odporučí ich zreťazenie do jedného stĺpca. Napríklad do stĺpca meno_priezvisko.
  • Sémantické extrakcie – ak sémantický typ pozostáva z podtypov, ako napríklad telefónne_číslo, ktoré zahŕňa predvoľbu, systém odporúča extrakciu podtypu do samostatného stĺpca.
  • Extrakcia časti – ak sa v dátach zistí všeobecný oddeľovač vzorov, systém odporúča extrakciu častí tohto vzoru. Ak napríklad systém zistí v dátach opakujúce sa rozdelenie pomocou pomlčiek, odporúča extrakciu častí do samostatných stĺpcov, aby sa tak dáta potenciálne mohli stať užitočnejšími na účely analýzy.
  • Extrakcie dátumov – ak sa zistia dátumy, systém odporúča extrakciu častí dátumu, ktorá by mohla rozšíriť možnosti analýzy dát. Môžete napríklad extrahovať deň v týždni z dátumu faktúry alebo nákupu.
  • Úplné a čiastočné obfuskovanie, maskovanie alebo odstránenie – pri zistení polí obsahujúcich citlivé informácie, ako je napríklad číslo kreditnej karty, systém odporúča úplné alebo čiastočné maskovanie stĺpca alebo dokonca jeho odstránenie.

Sémantické typy na základe rozpoznaných vzorov

Sémantické typy sa identifikujú na základe vzorov v dátach.

Odporúčania sa poskytujú pre tieto sémantické typy:

  • dátumy (vo viac ako 30 formátoch),
  • číslo sociálneho poistenia pre USA (SSN),
  • čísla kreditných kariet,
  • atribúty kreditných kariet (CVV a dátum uplynutia platnosti),
  • e-mailové adresy,
  • telefónne čísla pre Severnú Ameriku,
  • adresy v USA.

Sémantické typy založené na referenciách

Rozpoznávanie sémantických typov je určované zavedenými referenčnými poznatkami poskytnutými spolu so službou.

Odporúčania založené na referenciách sa poskytujú pre tieto sémantické typy:

  • názvy krajín,
  • kódy krajín,
  • názvy štátov (provincií),
  • kódy štátov,
  • názvy okresov (daňových príslušností),
  • názvy miest (lokalizované názvy),
  • kódy PSČ.

Odporúčané obohatenia

Odporúčané obohatenia sú založené na sémantických typoch.

Obohatenia sa určujú na základe hierarchie geografickej lokality:

  • krajina,
  • provincia (štát),
  • daňová príslušnosť (okres),
  • zemepisná dĺžka,
  • zemepisná šírka,
  • počet obyvateľov,
  • nadmorská výška (v metroch),
  • časové pásmo,
  • kódy ISO krajín,
  • kódy FIPS (Federal Information Processing Series),
  • názov krajiny,
  • hlavné mesto,
  • kontinent,
  • ID geografických názvov,
  • používané jazyky,
  • telefónna predvoľba krajiny,
  • formát PSČ,
  • vzor PSČ,
  • telefónna predvoľba krajiny,
  • názov meny,
  • skratka meny,
  • geografická doména najvyššej úrovne (GeoLTD),
  • rozloha v štvorcových km.

Požadované prahy

Proces profilovania používa špecifické prahové hodnoty na určovanie konkrétnych sémantických typov.

Vo všeobecnosti platí, že na to, aby mohol systém určiť klasifikáciu, musí 85 % dátových hodnôt v stĺpci spĺňať kritériá. To znamená, že stĺpec, ktorý obsahuje 70 % krstných mien a 30 % iných dát, nespĺňa prahové požiadavky, a preto sa v súvislosti s ním neposkytnú žiadne odporúčania.

Odporúčania vlastnej bázy poznatkov

Pomocou odporúčaní vlastnej bázy poznatkov môžete rozšíriť systémovú bázu poznatkov služby Oracle Analytics. Vlastná báza poznatkov umožňuje sémantickému profilovaciemu programu služby Oracle Analytics identifikovať viac podnikových sémantických typov a poskytovať relevantnejšie a lepšie riadené odporúčania na obohatenie. Môžete napríklad pridať referenciu na vlastnú bázu poznatkov, ktorá triedi lieky na predpis podľa liekových kategórií USP – analgetiká alebo opiáty.

Ikona tutoriálu Tutoriál

O nahranie súborov vlastnej bázy poznatkov do služby Oracle Analytics požiadajte administrátora. Keď obohacujete množiny dát, Oracle Analytics na základe týchto sémantických dát poskytuje odporúčania pre obohatenie. Pri vytváraní zošitov môžete obohatenia poznatkov pridať do vizualizácií aj tak, že ich pridáte z panela Dáta.

Vytvorenie vlastných súborov vlastnej bázy poznatkov

Pri vytváraní sémantických súborov postupujte podľa týchto pokynov:

  • Súbor s dátami vytvorte vo formáte CSV alebo Microsoft Excel (XLSX). Maximálna veľkosť súboru, ktorý možno nahrať, je 250 MB.
  • Prvý stĺpec vyplňte kľúčom, ktoré bude služba Oracle Analytics používať na profilovanie dát. Kľúčom môže byť napríklad dátum s podrobnosťami o dni, ktorý umožní analýzu dát podľa fiškálneho roka.
  • Ostatné stĺpce vyplňte hodnotami na obohatenie.

O nahranie súboru vlastnej bázy poznatkov do služby Oracle Analytics požiadajte administrátora.

Príklad: Integrácia podnikových časových rámcov v dátach

V tomto príklade je znázornené, ako môžete pridať podnikové časové rámce do dát predaja a aktivovať analýzu predaja podľa fiškálneho roka, ak pôvodná množina dát neobsahuje fiškálne dáta.

V príklade vizualizácie sa zobrazuje predaj podľa štvrťroka v rokoch 2019, 2020, 2021, 2022 a 2023, kde je každý rok reprezentovaný inou farbou. V zdrojových dátach predaja nemáte fiškálne dáta, takže nasadzujete ďalšiu vlastnú bázu poznatkov na pridanie fiškálnych dát do svojej množiny dát.

Najprv pripravte fiškálne dáta v súbore Fiscal Calendar.xlsx. Súbor obsahuje dátum (mm-dd-rrrr), fiškálny rok, fiškálny mesiac a fiškálny týždeň. Zdrojový súbor môže mať napríklad hodnotu 01-23-2025 v stĺpci dátumu, hodnotu 2025 v stĺpci fiškálneho roka a atribúty na vyplnenie zostávajúcich stĺpcov.

Požiadajte administrátora o nahratie súboru Fiscal Calendar.xlsx do oblasti vlastnej bázy poznatkov v konzole.

Potom vytvorte množinu dát obsahujúcu položky Sales a ORDER_DATE a v editore množiny dát vyberte v odporúčaniach obohatenia položky Enrich ORDER_DATE WITH Fiscal Year a Enrich ORDER_DATE with Fiscal Month. Oracle Analytics pridá tieto dve obohatenia do množiny dát.

Nakoniec vytvorte zošit a do vizualizácie pridajte položky Fiscal Year (Fiškálny rok) a Fiscal Qtr (Fiškálny štvrťrok) (v stĺpci ORDER_DATE) a Sales (Predaj). Poznámka: Položky Fiscal Year (Fiškálny rok) a Fiscal Qtr (Fiškálny štvrťrok) môžete pridať priamo bez toho, aby ste museli pridať pôvodný stĺpec ORDER_DATE.