照合変換: 文字列から配列を作成

「文字列から配列を作成」変換を使用すると、単一のテキスト値を可変数の固有の値に分割できます。作成された固有の値ごとにクラスタが作成されるため、これは照合のためにクラスタを作成する場合に便利です。これにより、一般的な単語が含まれる値はすべて、値の中の単語の順序に関係なく、照合目的で同じクラスタに入ります。たとえば、名前識別子に'John Simpson'と'Simpson, J'の値が含まれる場合、カンマとスペースの区切り文字を使用して配列を作成してクラスタリングすることで、2つのレコードは同じクラスタ('Simpson')に入ります。

「文字列から配列を作成」変換は、メインの文字列から配列を作成プロセッサと同様に機能しますが、特に、クラスタリングの際に値をクラスタ・キーとして使用する複数の単語に分割する場合に使用します。

「文字列から配列を作成」は比較内では使用できないことに注意してください。

複数のレコードに共通の単語が含まれる場合にそれらのレコードが同じクラスタに挿入されるように、「文字列から配列を作成」変換はクラスタリングの際の最後の変換として使用してください。

次の表に、構成オプションを示します。

構成 説明

オプション

次のオプションを指定します。

  • 区切り文字参照データ: データを分割するための区切り文字または文字列の標準的で再使用可能なセットを指定でき、制御文字を区切り文字として使用できます。タイプ: 参照データ。デフォルト値: *デリミタ。

  • 区切り文字: スペースやカンマなどの単純な区切り文字の場合は、参照データを作成せずに、使用する区切り文字を指定できます。参照リストに加えてこれらを使用すると、両方のオプションで指定されたすべての区切り文字を使用してデータが分割されます。タイプ: フリー・テキスト。デフォルト値: スペース。

この例では、Address1識別子に対するクラスタの構成に「文字列から配列を作成」変換を組み込みます。

サンプル構成

クラスタを形成するために、次の変換をAddress1識別子に追加します。

  1. 大文字

  2. 数値の削除

  3. 単語の削除(The、House、Road、Street、Avenue、Laneなどのごく一般的な単語を除外します。)

  4. 空白の正規化

  5. 文字列から配列を作成

変換例

次の表に、前述の構成を使用した変換の例を示します。

表1-86 「文字列から配列を作成」変換の例

最初の4つの変換後の値 「文字列から配列を作成」変換後の値

The Maltings, 14 Appletree Lane

MALTINGS, APPLETREE

1 - MALTINGS

2 - APPLETREE

14 Appletree Lane

APPLETREE

1 - APPLETREE

The Maltings

MALTINGS

1 - MALTINGS

32 Rushton Road, Coventry

RUSHTON, COVENTRY

1 - RUSHTON

2 - COVENTRY

32 Rushton Rd

RUSHTON

1 - RUSHTON

15 Stroud Green Road

STROUD GREEN

1 - STROUD

2 - GREEN

14 Green End Avenue

GREEN END

1 - GREEN

2 - END

変換後に共通の値を共有するレコードはすべて同じクラスタに挿入されます。たとえば、前述の最初の2つのレコードは'APPLETREE'クラスタに挿入され、最初のレコードと3番目のレコードは'MALTINGS'クラスタに挿入されます。