置換を使用したデータの変換

単純なパターン一致または正規(regex)表現を使用して列のデータを変換します。たとえば、「状態」列では、CAをCaliforniaに変更できます。

正規表現とも呼ばれる、任意のPerl Compatible Regular Expression (PCRE)を使用できます。変換は、データセット内のすべての該当する行に適用されます。

データセットの変換エディタに移動します。
- プロジェクト - プロジェクトを開く場合、「データ」ページをクリックし、「データ・ダイアグラム」で、準備するデータセットをダブルクリックするか開きます。
  データセットに複数の表が含まれている場合は、各表のタブを含む「結合ダイアグラム」が表示されます。表のタブをクリックし、新しいウィンドウの変換エディタで編集します。
- データセット - データセットを開くと、変換エディタが表示されます。
  データセットに複数の表が含まれている場合は、各表のタブを含む「結合ダイアグラム」が表示されます。表のタブをクリックし、変換エディタで編集します。
ノート:

ほとんどのデータ・ソースから、複数の表を使用してデータセットを作成できます。Oracle Applications、Google Analytics、DropboxおよびEssbaseは例外です。
変換するテキスト列を選択します。
「オプション」、「置換」の順にクリックします。
置換ステップ・エディタで、値を照合する方法を指定します。
- 「正規表現の使用」をクリックして、複雑な正規表現(regex)を使用して照合します。
- 「全部の値のみと一致」をクリックして、"male"を"M"に変更しますが、"female"は"feM"に変更しません。
「置換する文字列」フィールドと「新規文字列」フィールドで、検索および置換(大/小文字を区別)するリテラル・テキストまたは正規表現を指定します。
例:
- "2553 Bolman Court"を"2553 #Bolman# #Court#"に変更するには、「正規表現の使用」を選択して「置換する文字列」フィールドに([A-Za-z]+)と入力し、「新規文字列」フィールドに#$1#と入力します。
- "male"を"M"に変更するには、「全部の値のみと一致」を選択して、「置換する文字列」フィールドにmaleと入力し、「新規文字列」フィールドにMと入力します。これによって、"male"は"M"に変更されますが、"female"は"feM"に変更されません。
両方のフィールドに入力すると、変換されたデータのプレビューがプレビュー・ペインに表示されます。プレビュー・ペインに希望する変換が表示されるまで置換オプションを調整します。
「ステップの追加」をクリックして詳細を保存し、変換ステップを「準備スクリプト」ペインに追加します。

正規表現を使用した置換変換の例

正規(regex)表現を使用してデータを変換する例をいくつか示します。

これらの例では、「置換する文字列」フィールドに入力する内容を「検索式」に示し、「新規文字列」フィールドに入力する内容を「置換値」に示しています。

文字列のテキストの置換

この例は、電子メール・アドレスのドメイン詳細を置換します。

検索式: @([a-z]+)(?=\.[a-z]{3})

置換値: @example

元のテキスト: MichelePFalk@yahoo.com

置換後のテキスト: MichelePFalk@example.com

一致した値の置換

^$文字は、文字列全体の一致のみを探すことを意味します。垂直バーはORの正規表現であるため、この場合、正規表現はGrayまたはGreyを探し、Silverで置換します。

正規表現は値全体の一致のみを探すため、文字列Graystoneは変換されません。

検索式: ^Gray|Grey$

置換値: Silver

元のテキスト: Grey, Gray, and Graystone

置換後のテキスト: Silver, Silver, Graystone

マスク値

この正規表現は、\d (1桁) + (以上)の数値を探し、それらを9999に置き換えます。この置換は、元のテキストに3桁の数字のみが含まれる場合にも機能します。

検索式: \d+

置換値: 9999

元のテキスト: 8398 Park Street, 123 Oracle Parkway

置換後のテキスト: 9999 Park Street, 9999 Oracle Parkway

文字列からの文字の削除

この正規表現は、[A-z] (1文字) + (以上)の連続する文字に、\d (1桁) + (以上)の数字が続く文字列を探します。2つの式それぞれがカッコで囲まれているので、2つのグループ(最初は([A-z])で2番目は(\d+))が取得されます。これらのグループには自動的に番号が付けられます。2番目のグループは、ドル記号を使用して$2のように記述できます。

検索式: ([A-z]+)(\d+)

置換値: Postal Code: $2

元のテキスト: UA101654, US829383

置換後のテキスト: 101654, 829383

文字列へのテキストの追加

この例では、グループに加えて独自の置換テキストを挿入する方法を示していることを除き、前の例と同じ一致式を使用します。リコールされた一致グループの前後にテキストを挿入できます。

検索式: ([A-z]+)(\d+)

置換値: Postal Code: $2

元のテキスト: UA101654, US829383

置換後のテキスト: Postal Code: 101654, Postal Code: 829383