Reference pro rozšíření a transformaci

Tyto referenční informace vám pomohou rozšířit a transformovat data.

Reference pro transformaci

Získejte informace o volbách pro transformaci dat, k nimž máte přístup v editoru transformací po kliknutí pravým tlačítkem myši na sloupec datové sady. Chcete-li například rozdělit do kategorií časy na kolo ze závodu ve sloupci datové sady, můžete kliknout pravým tlačítkem myši na sloupec „Čas na kolo“ a vybrat volbu Zásobník.

Volba Popis
Zásobník Vytvoří vlastní skupiny pro rozsahy čísel. Můžete například vytvořit zásobníky pro sloupec Věk s rozsahy věku rozdělenými do zásobníků Prepubescenti, Mladí dospělí, Dospělí nebo Staří lidé založené na vlastních požadavcích.
Převést na datum Změní typ dat sloupce na datum a odstraní tak ze sloupce všechny hodnoty, které nejsou datum.
Převést na číslo Změní typ dat sloupce na číslo a odstraní tak ze sloupce všechny hodnoty, které nejsou číslo.
Převést na text Změní typ dat sloupce na Text.
Vytvořit Vytvoří sloupec založený na funkci.
Duplicitní Vytvoří sloupec, který bude mít stejný obsah jako vybraný sloupec.
Upravit Upravte sloupec. Můžete například změnit název, vybrat jiný sloupec nebo aktualizovat funkce.
Skupina, Podmíněná skupina Vybráním volby Seskupit si můžete vytvořit vlastní skupiny. Můžete například seskupit státy spolu s vlastními oblastmi a uspořádat částky v dolarech do skupin označujících malé, střední a velké částky.
Skrýt Skryje sloupec na panelu Data a ve vizualizacích. Pokud chcete zobrazit skryté sloupce, klikněte na Skryté sloupce (ikona ducha) v zápatí stránky. Potom můžete zobrazit skryté sloupce jednotlivě nebo všechny najednou.
Logaritmus Vypočítá přirozený logaritmus výrazu.
Malá písmena Aktualizuje obsah sloupce hodnotami, které všechny mají malá písmena.
Mocnina Umocní hodnoty ve sloupci na vámi zadanou mocninu. Výchozí mocnina je 2.
Přejmenování Umožňuje změnit název libovolného sloupce.
Nahradit Změní specifický text ve vybraném sloupci na jiné hodnoty, které zadáte. Ve sloupci můžete například změnit všechny instance Pan na Paní.
Velikost písmen věty Aktualizuje obsah sloupce tak, aby první písmeno prvního slova věty začínalo velkým písmenem.
Rozdělit Rozdělí hodnotu konkrétního sloupce na části. Sloupec Jméno můžete například rozdělit na jméno a příjmení.
Druhá odmocnina Vytvoří sloupec naplněný druhou odmocninou hodnoty ve vybraném sloupci.
Velká písmena Aktualizuje obsah sloupce hodnotami, které všechny mají velká písmena.

Datové profily a sémantická doporučení

Při vytváření datové sady provede Oracle Analytics profilování na úrovni sloupců, aby se vytvořila sada sémantických doporučení k opravě či rozšíření dat. Při vytváření sešitů můžete do vizualizací zahrnout také rozšíření znalostí, a to jejich přidáním z panelu Data.

Tato doporučení jsou založena automatické detekci konkrétního sémantického typu systémem během kroku profilování. Například datové sady založené na místních cílových oblastech se profilují pomocí jednoduchého vzorku Prvních N.

Existují kategorie sémantických typů, jako jsou zeměpisná místa identifikovaná názvy měst, rozpoznatelné vzory jako u kreditních karet, e-mailových adres a čísel sociálního zabezpečení, kalendářní data a opakující se vzory. Můžete také vytvořit své vlastní sémantické typy.

Kategorie sémantických typů

Profilování se vztahuje na různé sémantické typy.

Kategorie sémantických typů jsou profilovány, aby umožnily identifikovat:

  • Geografická místa, jako jsou názvy měst.
  • Vzory, se kterými je možné setkat se u čísel kreditních karet nebo e-mailových adres.
  • Opakující se vzory, např. data frází s pomlčkami.

Doporučení sémantických typů

Doporučení pro opravy, vylepšení nebo obohacení datové sady jsou určována podle typu dat.

Příklady doporučení pro sémantické typy:

  • Rozšíření - Přidání nového sloupce do vašich dat, který odpovídá konkrétnímu detekovanému typu, např. geografickému místu. Například přidání dat o populaci k městu.
  • Zřetězení sloupců - Pokud jsou v datové sadě detekovány dva sloupce, z nichž jeden obsahuje jména a druhý příjmení, systém doporučí zřetězení jmen do jednoho sloupce. Například sloupec jméno_příjmení.
  • Sémantické extrakce - Pokud se sémantický typ skládá z podtypů, např. telefonní_číslo_usa, které zahrnuje předvolbu, systém doporučí extrakci dílčího typu do vlastního sloupce.
  • Extrakce součásti - Pokud je v datech detekován obecný oddělovač vzorů, systém doporučí extrahovat součásti daného vzoru. Pokud například systém v datech detekuje opakující se dělení slov, doporučí extrakci součástí do samostatných sloupců, aby byla data případně užitečnější pro analýzu.
  • Extrakce data - Pokud jsou detekována data, systém doporučí extrakci součástí data, které mohou vylepšit analýzu dat. Můžete například extrahovat den v týdnu z data faktury nebo nákupu.
  • Úplné nebo částečné zakrytí/maskování/odstranění - Pokud jsou detekována citlivá pole, např. číslo kreditní karty, systém doporučí úplné nebo částečné maskování sloupce, případně úplné odstranění.

Sémantické typy na základě rozpoznaného vzoru

Sémantické typy jsou identifikovány na základě vzorů nalezených ve vašich datech.

Doporučení jsou poskytována pro tyto sémantické typy:

  • Data (ve více než 30 formátech)
  • Číslo sociálního pojištění v USA (SSN)
  • Čísla kreditních karet
  • Atributy kreditních karet (CVV a datum expirace)
  • E-mailové adresy
  • Telefonní čísla tarifů v Severní Americe
  • Adresy v USA

Sémantické typy založené na referencích

Rozeznávání sémantických typů vychází z načtených referenčních znalostí poskytnutých službou.

Doporučení založená na referencích jsou poskytována pro tyto sémantické typy:

  • Názvy zemí
  • Kódy zemí
  • Názvy států (provincie)
  • Kódy států
  • Názvy okresů (jurisdikce)
  • Názvy měst (lokalizované názvy)
  • PSČ

Doporučená rozšíření

Doporučená rozšíření jsou založena na sémantických typech.

Rozšíření jsou určována na základě hierarchie geografického umístění:

  • Země
  • Okres (stát)
  • Jurisdikce (okres)
  • Zeměpisná délka
  • Zeměpisná šířka
  • Populace
  • Nadmořská výška (v metrech)
  • Časové pásmo
  • Kódy zemí ISO
  • Federal Information Processing Series (FIPS)
  • Název země
  • Hlavní město
  • Kontinent
  • ID geografických názvů
  • Používané jazyky
  • Telefon - předčíslí země
  • Formát PSČ
  • Vzor PSČ
  • Telefon - předčíslí země
  • Název měny
  • Zkratka měny
  • Geografická doména nejvyššího řádu (GeoLTD)
  • Čtvereční KM

Požadované prahové hodnoty

Proces profilování používá specifické prahové hodnoty k rozhodování o konkrétních sémantických typech.

Podle obecného pravidla musí 85 % datových hodnot ve sloupci splňovat kritéria pro jeden sémantický typ, aby systém mohl určit klasifikaci. V důsledku toho nebude sloupec, který obsahuje např. 70 % jmen a 30 % hodnot „ostatní“, splňovat požadavky na prahovou hodnotu a nebudou tedy provedena doporučení.

Doporučení pro vlastní znalosti

Použijte doporučení pro vlastní znalosti k rozšíření znalostí systému Oracle Analytics. Vlastní znalosti umožňují sémantickému profileru služby Oracle Analytics identifikovat více sémantických typů specifických pro danou firmu a vytvářet relevantnější a řízená doporučení pro rozšíření. Můžete například přidat referenci vlastních znalostí, která klasifikuje léky na předpis do kategorií léků USP Analgetika nebo Opiáty.

Ikona výukového programu Výukový program

Můžete použít existující sémantické soubory, jako jsou soubory USP (Unsupervised Semantic Parsing), nebo vytvořit vlastní sémantické soubory. Požádejte správce, aby odeslal soubory vlastních znalostí do služby Oracle Analytics. Když rozšiřujete datové sady, služba Oracle Analytics nabídne doporučení pro rozšíření založená na těchto sémantických datech. Při vytváření sešitů můžete do vizualizací zahrnout také rozšíření znalostí, a to jejich přidáním z panelu Data.

Vytváření vlastních souborů s vlastními znalostmi

Při vytváření vlastních sémantických souborů postupujte podle těchto pokynů:

  • Vytvořte datový soubor ve formátu CSV nebo Microsoft Excel (XLSX). Maximální velikost souboru, který lze odeslat, je 250 MB.
  • Naplňte první sloupec klíčem, který služba Oracle Analytics používá k profilování dat.
  • Naplňte ostatní sloupce hodnotami rozšíření.

Požádejte správce, aby odeslal soubor vašich vlastních znalostí do služby Oracle Analytics.

Obecné řetězce vlastního formátu

Pomocí obecných řetězců vlastního formátu můžete vytvářet vlastní formáty času nebo data.

Tabulka obsahuje obecné řetězce pro vlastní formát a výsledky, které se při jejich použití zobrazí. Uvedené řetězce umožňují zobrazit pole data a času v národním prostředí uživatele.

Obecný formátovací řetězec Výsledek

[FMT:dateShort]

Formátuje datum do krátkého formátu data příslušného národního prostředí. Můžete také zadat [FMT:date].

[FMT:dateLong]

Formátuje datum do dlouhého formátu data příslušného národního prostředí.

[FMT:dateInput]

Formátuje datum do formátu přijatelného pro vstup zpět do systému.

[FMT:time]

Formátuje čas do formátu času příslušného národního prostředí.

[FMT:timeHourMin]

Formátuje čas do formátu času příslušného národního prostředí, ale vypouští sekundy.

[FMT:timeInput]

Formátuje čas do formátu přijatelného pro vstup zpět do systému.

[FMT:timeInputHourMin]

Formátuje čas do formátu přijatelného pro vstup zpět do systému, ale vypouští sekundy.

[FMT:timeStampShort]

Ekvivalent pro zápis [FMT:dateShort] [FMT:time]. Formátuje datum do krátkého formátu data příslušného národního prostředí a čas do formátu času příslušného národního prostředí. Můžete také zadat [FMT:timeStamp].

[FMT:timeStampLong]

Ekvivalent pro zápis [FMT:dateLong] [FMT:time]. Formátuje datum do dlouhého formátu data příslušného národního prostředí a čas do formátu času příslušného národního prostředí.

[FMT:timeStampInput]

Ekvivalent pro zápis [FMT:dateInput] [FMT:timeInput]. Formátuje datum a čas do formátu přijatelného pro vstup zpět do systému.

[FMT:timeHour]

Formátuje pouze pole hodin do formátu příslušného národního prostředí, například 8 odp.

YY nebo yy

Zobrazí poslední dvě číslice roku, například 11 pro rok 2011.

YYY nebo yyy

Zobrazí poslední tři číslice roku, například 011 pro rok 2011.

YYYY nebo yyyy

Zobrazí čtyři číslice roku, například 2011.

M

Zobrazuje měsíc v číselné podobě, například 2 pro únor.

MM

Zobrazuje měsíc v číselné podobě. Pro jednociferné měsíce se zleva doplní nula, například 02 pro únor.

MMM

Zobrazuje název měsíce ve zkrácené podobě v jazyku národního prostředí uživatele, například Úno.

MMMM

Zobrazuje celý název měsíce v jazyku národního prostředí uživatele, například Únor.

D nebo d

Zobrazuje den v měsíci, například 1.

DD nebo dd

Zobrazuje den v měsíci. Pro jednociferné dny se zleva doplní nula, například 01.

DDD nebo ddd

Zobrazuje název dne v týdnu ve zkrácené podobě v jazyku národního prostředí uživatele, například Čt pro čtvrtek.

DDDD nebo dddd

Zobrazuje celý název dne v týdnu v jazyku národního prostředí uživatele, například Čtvrtek.

DDDDD nebo ddddd

Zobrazuje první písmeno názvu dne v týdnu v jazyku národního prostředí uživatele, například Č pro čtvrtek.

r

Zobrazuje den v roce, například 1.

rr

Zobrazuje den v roce. Pro jednociferné dny v roce se zleva doplní nula, například 01.

rrr

Zobrazuje den v roce. Pro jednociferné dny v roce se zleva doplní nuly, například 001.

w

Zobrazuje týden v roce, například 1.

ww

Zobrazuje týden v roce. Pro jednociferné týdny se zleva doplní nula, například 01.

q

Zobrazuje čtvrtletí roku, například 4.

h

Zobrazuje hodiny ve 12hodinovém formátu, například 2.

H

Zobrazuje hodiny ve 24hodinovém formátu, například 23.

hh

Zobrazuje hodiny ve 12hodinovém formátu. Pro jednociferné hodnoty hodin se zleva doplní nula, například 01.

HH

Zobrazuje hodiny ve 24hodinovém formátu. Pro jednociferné hodnoty hodin se zleva doplní nula, například 23.

m

Zobrazuje minuty, například 7.

mm

Zobrazuje minuty. Pro jednocifernou hodnotu minut se zleva doplní nula, například 07.

s

Zobrazuje sekundy, například 2.

Do řetězce můžete také zahrnout desetinné číslice, například s.# nebo s.00 (kde # znamená volitelnou číslici a 0 znamená vyžadovanou číslici).

ss

Zobrazuje sekundy. Pro jednocifernou hodnotu sekund se zleva doplní nula, například 02.

Do řetězce můžete také zahrnout desetinné číslice, například ss.# nebo ss.00 (kde # znamená volitelnou číslici a 0 znamená vyžadovanou číslici).

S

Zobrazuje milisekundy, například 2.

SS

Zobrazuje milisekundy. Pro jednocifernou hodnotu milisekund se zleva doplní nula, například 02.

SSS

Zobrazuje milisekundy. Pro jednocifernou hodnotu milisekund se zleva doplní nuly, například 002.

tt

Zobrazuje zkrácené označení pro dopolední nebo odpolední hodiny v jazyku národního prostředí uživatele, například odp.

gg

Zobrazuje dobu v jazyku národního prostředí uživatele.