Gegevens transformeren door middel van vervangen

Transformeer gegevens in een kolom met behulp van een eenvoudige patroonovereenkomst of een reguliere uitdrukking (regex). In de kolom 'Staat' kunt u CA bijvoorbeeld wijzigen in Californië.

U kunt elke Perl-compatibele reguliere uitdrukking (PCRE) gebruiken. Zulke uitdrukkingen worden ook wel regex-uitdrukkingen genoemd. Transformaties worden toegepast op elke toepasselijke rij in een gegevensset.
  1. Ga op de beginpagina met uw muis op een gegevensset van u staan, klik op Acties en selecteer vervolgens Openen.
    Als de gegevensset één tabel bevat, ziet u de transformatie-editor. Als de gegevensset meerdere tabellen bevat, ziet u het joindiagram. Klik in het joindiagram met de rechtermuisknop op een gegevensbron en klik op Openen om de transformatie-editor te tonen.

  2. Wijs de tekstkolom aan die u wilt transformeren of selecteer deze.
  3. Klik op Opties aan de onderkant van de kwaliteitstegel en klik vervolgens op Vervangen.
    Tip: als u meer dan één waarde per keer wilt vervangen, gebruikt u de optie Waardelijst vervangen.
  4. Geef in de stapeditor voor het vervangen aan hoe u waarden wilt matchen. Bijvoorbeeld:
    • Klik op Reguliere uitdrukking gebruiken om te matchen met een complexe reguliere uitdrukking (regex).
    • Klik op Alleen hele waarden matchen om "man" te wijzigen in "M" maar "bemand" niet te wijzigen in "beMd".
  5. Geef in de velden Te vervangen string en Nieuwe string de letterlijke tekst of reguliere uitdrukkingen op die u wilt zoeken en vervangen (hoofdlettergevoelig).
    Voorbeelden:
    • Als u "2553 Bolman Court" wilt wijzigen in "2553 #Bolman# #Court#", selecteert u Reguliere uitdrukking gebruiken, typt u ([A-Za-z]+) in het veld Te vervangen string en typt u vervolgens #$1# in het veld Nieuwe string.
    • Als u "man" wilt wijzigen in "M", selecteert u Alleen hele waarden matchen, typt u man in het veld Te vervangen string en typt u vervolgens M in het veld Nieuwe string. Hiermee wordt "man" gewijzigd in "M" maar "bemand" niet in "beMd".

    Wanneer u beide velden hebt ingevuld, ziet u een voorbeeld van de getransformeerde gegevens in het voorbeeldvenster. Pas de vervangingsopties aan totdat u de gewenste transformatie ziet in het voorbeeldvenster.
  6. Klik op Stap toevoegen.
    In Oracle Analytics wordt een stap toegevoegd aan het paneel Voorbereidingsscript.
  7. Klik op Opslaan om uw wijzigingen tijdens de gegevensvoorbereiding op te slaan en toe te passen op uw gegevens.

Transformaties vervangen met behulp van reguliere uitdrukkingen: voorbeelden

Hier volgen enkele voorbeelden van het gebruik van reguliere uitdrukkingen (regex) om gegevens te transformeren.

In deze voorbeelden ziet u in 'Zoekuitdrukking' wat u moet invoeren in het veld Te vervangen string. In 'Vervangingswaarde' ziet u wat u moet invoeren in het veld Nieuwe string.

Tabel 4-1 Voorbeelden van het vervangen van transformaties

Zoekuitdrukking Vervangingswaarde Oorspronkelijke tekst Vervangen tekst Opmerkingen
@([a-z]+)(?=\.[a-z]{3}) @voorbeeld MichelePFalk@yahoo.com MichelePFalk@voorbeeld.com In dit voorbeeld worden de domeingegevens in het e-mailadres vervangen.
^Grijs|Grijstint$ Zilver

Grijs

Grijstint

Grijstinten

Zilver

Zilver

Grijstinten

De tekens ^$ geven aan dat er alleen mag worden gezocht naar overeenkomsten met de volledige string. De verticale balk is de reguliere uitdrukking voor OF. In dit geval wordt met de reguliere uitdrukking gezocht naar "Grijs" of "Grijstint" en wordt deze vervangen door "Zilver".

De string Grijstinten wordt niet getransformeerd omdat met de reguliere uitdrukking alleen wordt gezocht naar overeenkomsten met de volledige waarde.

\d+ 9999

Schoolstraat 8398

Hoofdweg 123

Schoolstraat 9999

Hoofdweg 9999

Met deze reguliere uitdrukking wordt gezocht naar één "\d" of meer "+" cijfers en worden deze vervangen door "9999". De vervanging werkt ook als de oorspronkelijke tekst maar drie cijfers bevat.
([A-z]+)(\d+) $2

UA101654

US829383

101654

829383

Met deze reguliere uitdrukking wordt gezocht naar één "[A-z]" of meer "+" opeenvolgende letters gevolgd door één "\d" of meer "+" getallen. Elk van de twee uitdrukkingen bevat haakjes waarmee twee groepen worden gedefinieerd. De eerste groep is ([A-z]) en de tweede (\d+). Deze groepen worden automatisch genummerd en kunnen vervolgens in de vervanging worden gebruikt door het dollarteken voor de tweede groep te gebruiken, bijvoorbeeld "$2".
([A-z]+)(\d+) Postcode: $2

UA101654

US829383

Postcode: 101654

Postcode: 829383

In dit voorbeeld wordt dezelfde overeenkomstuitdrukking gebruikt als in het vorige voorbeeld. In dit voorbeeld wordt echter getoond hoe u naast een groep uw eigen vervangende tekst invoegt. Tekst kan worden ingevoegd voor en na een ingetrokken overeenkomstgroep.