Transformace dat pomocí nahrazení

Transformujte data ve sloupci pomocí jednoduchého vzoru nebo regulárního výrazu. Například ve sloupci State (Stát) můžete změnit CA na plný název California.

Použít lze jakýkoli regulární výraz kompatibilní se syntaxí jazyka Perl (PCRE), kterému se také říká regulární výraz. Transformace jsou použity na každý příslušný řádek v datové sadě.
  1. Na domovské stránce otevřete datovou sadu nebo sešit.
    • Umístěte ukazatel myši na datovou sadu, klikněte na ikonu Akce a poté vyberte položku Otevřít. V datovém schématu nebo schématu spojení klikněte pravým tlačítkem myši na datový zdroj a kliknutím na položku Otevřít zobrazíte editor transformací.
    • Umístěte ukazatel myši na sešit, který obsahuje datovou sadu, klikněte na ikonu Akce, vyberte položku Otevřít a poté klikněte na volbu Data. V datovém schématu nebo schématu spojení klikněte pravým tlačítkem myši na datový zdroj a kliknutím na položku Otevřít zobrazíte editor transformací.

    Poznámka:

    Oracle Analytics zobrazí datové schéma pro datové sady s jednou tabulkou nebo schéma spojení pro datové sady s více tabulkami.
  2. Umístěte ukazatel myši na textový sloupec, který chcete transformovat, nebo příslušný sloupec vyberte.
  3. Klikněte na Volby v dolní části dlaždice kvality a poté klikněte na volbu Nahradit.
    Tip: Chcete-li současně nahradit více než jednu hodnotu, použijte volbu Nahradit seznam hodnot.
  4. V editorku kroku Nahradit určete, jak mají být porovnány hodnoty. Například:
    • Klikněte na položku Použít regulární výraz, chcete-li porovnávat pomocí složitého regulárního výrazu (regex).
    • Chcete-li například změnit hodnotu „male“ (muž) na „M“, ale nikoli hodnotu „female“ (žena) na „feM“, klikněte na volbu Porovnávat pouze celé hodnoty.
  5. Do polí Řetězec k nahrazení a Nový řetězec zadejte doslovný text nebo regulární výrazy pro hledání a nahrazení (s rozlišováním malých a velkých písmen).
    Příklady:
    • Chcete-li změnit řetězec „2553 Bolman Court“ na „2553 #Bolman# #Court#“, vyberte volbu Použít regulární výraz, zadejte řetězec ([A-Za-z]+) do pole Řetězec k nahrazení a řetězec #$1# do pole Nový řetězec.
    • Chcete-li změnit „male“ na „M“, vyberte volbu Porovnat pouze celé hodnoty, zadejte text male do pole Řetězec k nahrazení a písmeno M do pole Nový řetězec. Tím vyměníte text „male“ za „M“, ale nevyměníte text „female“ za „feM“.

    Po vyplnění obou polí se v podokně náhledu zobrazí náhled transformovaných dat. Upravujte volby nahrazení, dokud v podokně náhledu nedosáhnete požadované transformace.
  6. Klikněte na položku Přidat krok.
    Služba Oracle Analytics přidá krok na panel Přípravný skript.
  7. Chcete-li uložit změny přípravy dat a použít je pro svá data, klikněte na tlačítko Uložit.

Ukázkové transformace nahrazení pomocí regulárních výrazů

Dále uvádíme několik příkladů použití regulárních výrazů k transformaci dat.

V těchto příkladech výraz pro vyhledávání ukazuje, co je zadáno v poli Řetězec k nahrazení, a hodnota nahrazení ukazuje, co je zadáno v poli Nový řetězec.

Tabulka 3-1 Ukázkové transformace nahrazení

Vyhledávací výraz Hodnota nahrazení Původní text Nahrazený text Poznámky
@([a-z]+)(?=\.[a-z]{3}) @example MichelePFalk@yahoo.com MichelePFalk@example.com Tento příklad nahradí detaily domény v e-mailové adrese.
^Gray|Grey$ Silver

Grey

Gray

Graystone

Silver

Silver

Graystone

Znaky ^$ znamenají, že chcete hledat jen shody celého řetězce. Svislý pruh je regulární výraz pro logické OR, proto v tomto případě regulární výraz hledá "Gray" nebo "Grey" a nalezený řetězec nahradí řetězcem "Silver".

Řetězec Graystone není transformován, protože regulární výraz hledá jen shody celé hodnoty.

\d+ 9999

8398 Park Street

123 Oracle Parkway

9999 Park Street

9999 Oracle Parkway

Tento regulární výraz hledá jednu " \d" nebo více "+" číslic a nahradí je řetězcem "9999". Nahrazení proběhne i v případě, že původní text má pouze tři číslice.
([A-z]+)(\d+) $2

UA101654

US829383

101654

829383

Tento regulární výraz hledá jedno "[A-z]" nebo více "+" za sebou jdoucích písmen následovaných jednou " \d" nebo více "+" číslicemi - každý z obou výrazů je uzavřen do závorek, čímž zachytí dvě skupiny znaků - první ([A-z]) a druhou (\d+) - tyto skupiny jsou automaticky očíslovány a je možné je následně použít ve výrazu nahrazení zápisem znaku dolaru a čísla skupiny, například "$2".
([A-z]+)(\d+) Postal Code: $2

UA101654

US829383

Postal Code: 101654

Postal Code: 829383

Tento příklad používá stejný výraz shody jako předchozí příklad, ale navíc ukazuje, jak vložit vlastní nahrazující text do skupiny. Text lze vložit před nebo za vkládanou zachycenou skupinu znaků.