Soundex

「Soundex」プロセッサは、指定属性内の各値にsoundexコードを生成します。Soundexは発音が似ている名称を同一コードとして表す抽象キーです。Soundexは、特に苗字/姓に適用されます(他のドメインでの使用には注意が必要です)。

Soundexコードは発音が同じでも綴りが異なる場合に使用されます。soundexコードを作成すると、重複チェックのときに生データ値のかわりにSoundexを頻繁に使用できます。

次の表に、構成オプションを示します。

構成 説明

入力

soundexコードを作成する文字列属性または文字配列属性を指定します。

配列属性を入力すると、変換はすべての配列要素に適用され、1つの配列属性が出力されます。

オプション

なし。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

次のデータ属性が出力されます。

  • Soundex: 各入力属性から導出されたsoundexコードを持つ新しい属性。

フラグ

なし。

Soundexトランスフォーマでは、処理に関するサマリー統計は表示されません。

データ・ビューには、入力配列属性とともに、右側に新しい配列サイズ属性が表示されます。

出力フィルタ

なし。入力されたすべてのレコードが出力されます。

この例では、Surname属性に対してSoundex変換を使用します。Surname属性は、顧客表の中のNAME属性から作成されました。それには、「文字列から配列を作成」プロセッサを使用して属性をスペース区切りで分割し、「配列要素の選択」プロセッサを使用して配列内の2番目の要素を選択することでSurnameを出力します。

Surname (昇順) Surname.Soundex

ADAMSKI

A352

AHMED

A530

AITKEN

A325

ALLAN

A450

ALLEN

A450

同じ値と考えられるALLANとALLENのような誤字の場合でも、同一のsoundexコードが生成されます。