照合変換: 空白の正規化

「空白の正規化」変換は、文字列の中のすべての空白を正規化して、単語間のすべてのス空白を1つのスペース文字に正規化します。さらに、先頭および末尾の空白も削除します。

EDQでは、空白文字は次のように定義されています。

  • スペース

  • 改行、行送り、タブなどの印刷不可能な文字(および、その他のASCII文字0から31すべて)

「空白の正規化」変換は、データセット内に複数のスペースなどのキーイング・エラーが発生する可能性がある場合に使用します。たとえば、値の文字編集距離(「比較: 文字編集距離」を参照)で1つのスペースと複数のスペースの間で差異が認識されないようにする場合、比較内で空白を正規化すると便利です。スペース以外の空白(改行、タブ、その他の印刷不可能な文字など)のすべての書式を区切り文字として有効に使用できるように、クラスタ化時に「文字列から配列を作成」変換の前に使用することもできます。つまり、値"John[space]Simpson"と"John[tab][space]Simpson"では、後者のみ"John[tab]" ("John"ではない)というクラスタ値が生成されるのではなく、両方とも同じようにトークン化されます。

オプション

なし。

変換例

次の表に、変換の例を示します。

表1-88 「空白の正規化」変換の例

変換済の値

John[space][tab][carriage return]Simpson

John[space]Simpson

John[space][space]Simpson

John[space]Simpson

[space]John[space]Simpson

John[space]Simpson

John[space]Simpson[space][carriage return]

John[space]Simpson