Soundex
「Soundex」プロセッサは、指定属性内の各値にsoundexコードを生成します。Soundexは発音が似ている名称を同一コードとして表す抽象キーです。Soundexは、特に苗字/姓に適用されます(他のドメインでの使用には注意が必要です)。
Soundexコードは発音が同じでも綴りが異なる場合に使用されます。soundexコードを作成すると、重複チェックのときに生データ値のかわりにSoundexを頻繁に使用できます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
soundexコードを作成する文字列属性または文字配列属性を指定します。 配列属性を入力すると、変換はすべての配列要素に適用され、1つの配列属性が出力されます。 |
オプション |
なし。 |
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
次のデータ属性が出力されます。
|
フラグ |
なし。 |
Soundexトランスフォーマでは、処理に関するサマリー統計は表示されません。
データ・ビューには、入力配列属性とともに、右側に新しい配列サイズ属性が表示されます。
出力フィルタ
なし。入力されたすべてのレコードが出力されます。
例
この例では、Surname属性に対してSoundex変換を使用します。Surname属性は、顧客表の中のNAME属性から作成されました。それには、「文字列から配列を作成」プロセッサを使用して属性をスペース区切りで分割し、「配列要素の選択」プロセッサを使用して配列内の2番目の要素を選択することでSurnameを出力します。
Surname (昇順) | Surname.Soundex |
---|---|
ADAMSKI |
A352 |
AHMED |
A530 |
AITKEN |
A325 |
ALLAN |
A450 |
ALLEN |
A450 |
同じ値と考えられるALLANとALLENのような誤字の場合でも、同一のsoundexコードが生成されます。