置換を使用したデータの変換

単純なパターン一致または正規(regex)表現を使用して列のデータを変換します。 たとえば、「状態」列では、CAをCaliforniaに変更できます。

正規表現とも呼ばれる、任意のPerl Compatible Regular Expression (PCRE)を使用できます。 変換は、データセット内のすべての該当する行に適用されます。
  1. ホーム・ページで、データセットまたはワークブックを開きます。
    • データセットにカーソルを合せ、「アクション」をクリックして「開く」を選択します。 「データ・ダイアグラム」または「結合ダイアグラム」でデータ・ソースを右クリックし、「開く」をクリックして変換エディタを表示します。
    • データセットを含むワークブックにカーソルを合せ、「アクション」をクリックし、「開く」を選択し、次に「データ」をクリックします。 「データ・ダイアグラム」または「結合ダイアグラム」でデータ・ソースを右クリックし、「開く」をクリックして変換エディタを表示します。
  2. 変換するテキスト列にカーソルを合せるか、その列を選択します。
  3. 品質タイルの下部にある「オプション」をクリックし、「置換」をクリックします。
    ヒント: 一度に複数の値を置き換えるには、「値リストを置換」オプションを使用します。
  4. 置換ステップ・エディタで、値を照合する方法を指定します。 たとえば:
    • 「正規表現の使用」をクリックして、複雑な正規表現(regex)を使用して照合します。
    • 「全部の値のみと一致」をクリックして、"male"を"M"に変更しますが、"female"は"feM"に変更しません。
  5. 「置換する文字列」フィールドと「新規文字列」フィールドで、検索および置換(大/小文字を区別)するリテラル・テキストまたは正規表現を指定します。
    例:
    • "2553 Bolman Court"を"2553 #Bolman# #Court#"に変更するには、「正規表現の使用」を選択して「置換する文字列」フィールドに([A-Za-z]+)と入力し、「新規文字列」フィールドに#$1#と入力します。
    • "male"を"M"に変更するには、「全部の値のみと一致」を選択して、「置換する文字列」フィールドにmaleと入力し、「新規文字列」フィールドにMと入力します これによって、"male"は"M"に変更されますが、"female"は"feM"に変更されません。

    両方のフィールドに入力すると、変換されたデータのプレビューがプレビュー・ペインに表示されます。 プレビュー・ペインに希望する変換が表示されるまで置換オプションを調整します。
  6. 「ステップを追加」をクリックします。
    Oracle Analyticsでは、ステップが「準備スクリプト」パネルに追加されます。
  7. データの準備の変更を保存してこれらをデータに適用するには、「保存」をクリックします。

正規表現を使用した置換変換の例

正規(regex)表現を使用してデータを変換する例をいくつか示します。

これらの例では、「置換する文字列」フィールドに入力する内容を「検索式」に示し、「新規文字列」フィールドに入力する内容を「置換値」に示しています。

表4-1 置換変換の例

検索式 置換値 元のテキスト 置換後のテキスト ノート
@([a-z]+)(?=\.[a-z]{3}) @example MichelePFalk@yahoo.com MichelePFalk@example.com この例は、電子メール・アドレスのドメイン詳細を置換します。
^Gray|Grey$ Silver

Grey

Gray

Graystone

Silver

Silver

Graystone

^$文字は、文字列全体の一致のみを探すことを意味します。 垂直バーはORの正規表現であるため、この場合、正規表現は"Gray"または"Grey"を探し、"Silver"で置換します。

正規表現は値全体の一致のみを探すため、文字列Graystoneは変換されません。

\d+ 9999

8398 Park Street

123 Oracle Parkway

9999 Park Street

9999 Oracle Parkway

この正規表現は、1つ("\d")またはそれを超える("+")桁の数字を"9999"で置換します。 置換は、元のテキストに3桁しかnない場合にも機能します。
([A-z]+)(\d+) $2

UA101654

US829383

101654

829383

この正規表現は、1つ("[A-z]")またはそれを超える("+")連続する文字と、それに続く1つ("\d")またはそれを超える("+")桁の数字を意味します。2つの式はそれぞれかっこで囲まれており、これは2つのグループ(最初の部分([A-z])と2番目の部分(\d+))をキャプチャします。これらのグループは自動的に採番されるため、2番目のグループ用のドル記号を使用することで置換で使用できます("$2"など)。
([A-z]+)(\d+) 郵便番号: $2

UA101654

US829383

郵便番号: 101654

郵便番号: 829383

この例では、グループに加えて独自の置換テキストを挿入する方法を示していることを除き、前の例と同じ一致式を使用します。 テキストは、リコールされた一致グループの前後に挿入できます。