照合変換: 文字列から配列を作成
「文字列から配列を作成」変換を使用すると、単一のテキスト値を可変数の固有の値に分割できます。作成された固有の値ごとにクラスタが作成されるため、これは照合のためにクラスタを作成する場合に便利です。これにより、一般的な単語が含まれる値はすべて、値の中の単語の順序に関係なく、照合目的で同じクラスタに入ります。たとえば、名前識別子に'John Simpson'と'Simpson, J'の値が含まれる場合、カンマとスペースの区切り文字を使用して配列を作成してクラスタリングすることで、2つのレコードは同じクラスタ('Simpson')に入ります。
「文字列から配列を作成」変換は、メインの文字列から配列を作成プロセッサと同様に機能しますが、特に、クラスタリングの際に値をクラスタ・キーとして使用する複数の単語に分割する場合に使用します。
「文字列から配列を作成」は比較内では使用できないことに注意してください。
複数のレコードに共通の単語が含まれる場合にそれらのレコードが同じクラスタに挿入されるように、「文字列から配列を作成」変換はクラスタリングの際の最後の変換として使用してください。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
オプション |
次のオプションを指定します。
|
例
この例では、Address1識別子に対するクラスタの構成に「文字列から配列を作成」変換を組み込みます。
サンプル構成
クラスタを形成するために、次の変換をAddress1識別子に追加します。
-
大文字
-
数値の削除
-
単語の削除(The、House、Road、Street、Avenue、Laneなどのごく一般的な単語を除外します。)
-
空白の正規化
-
文字列から配列を作成
変換例
次の表に、前述の構成を使用した変換の例を示します。
表1-86 「文字列から配列を作成」変換の例
値 | 最初の4つの変換後の値 | 「文字列から配列を作成」変換後の値 |
---|---|---|
The Maltings, 14 Appletree Lane |
MALTINGS, APPLETREE |
1 - MALTINGS 2 - APPLETREE |
14 Appletree Lane |
APPLETREE |
1 - APPLETREE |
The Maltings |
MALTINGS |
1 - MALTINGS |
32 Rushton Road, Coventry |
RUSHTON, COVENTRY |
1 - RUSHTON 2 - COVENTRY |
32 Rushton Rd |
RUSHTON |
1 - RUSHTON |
15 Stroud Green Road |
STROUD GREEN |
1 - STROUD 2 - GREEN |
14 Green End Avenue |
GREEN END |
1 - GREEN 2 - END |
変換後に共通の値を共有するレコードはすべて同じクラスタに挿入されます。たとえば、前述の最初の2つのレコードは'APPLETREE'クラスタに挿入され、最初のレコードと3番目のレコードは'MALTINGS'クラスタに挿入されます。