空白の正規化

「空白の正規化」プロセッサは、文字列値の中の空白文字をすべて正規化して、単語間の複数のスペースを1つのスペース文字に正規化します。さらに、先頭および末尾の空白文字も削除します。

EDQでは、空白文字は次のように定義されています。

  • スペース

  • 改行、行送り、タブなどの印刷不可能な文字(および、その他のASCII文字0から31すべて)

「空白の正規化」は、すべての値が通常のスペース設定になるように、フリー・テキスト・フィールドを解析する前によく使用されます。また、余分なスペースが残存している可能性がある他の変換の後にもよく使用されます。たとえば、テキスト・フィールドから単語または数値を除去した場合は、単語間に余分なスペースが残っている可能性があります。

次の表に、構成オプションを示します。

構成 説明

入力

空白文字を正規化する文字列または文字列配列型の属性を指定します。数値属性および日付属性は有効な入力ではありません。

配列属性を入力すると、変換はすべての配列要素に適用され、1つの配列属性が出力されます。

オプション

なし。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

次のデータ属性が出力されます。

  • [Attribute Name].WhitespaceNormalized: 単語間のスペース設定が正規化された新しい属性。値は、元の属性値の空白文字を正規化して導出されます。

フラグ

なし。

「空白の正規化」トランスフォーマでは、処理に関するサマリー統計は表示されません。

データ・ビューには、各入力属性とともに、右側に新しく導出された空白文字を正規化した属性が表示されます。

出力フィルタ

なし。

この例では、「空白の正規化」プロセッサを使用して、住所の1行目にある属性の単語間のスペースを正規化します。

Address1 Address1.WhitespaceNormalized

Medway House[space][space][space], Bridge Street

Medway House[space], Bridge Street

Monarch Mill[space][space], Jones Street

Monarch Mill[space], Jones Street

Unit 1[space][space], Barnard Road

Unit 1[space], Barnard Road

Alston Street[space][space][space][space],

Alston Street[space],