照合変換: Soundex
「Soundex」変換は、発音が同じでもスペルミスなどが原因で異なる可能性のある値から共通のsoundexキーを作成します。
「Soundex」変換は、「Metaphone」変換に似ていますが、別の方法を使用して2つの値の発音が同じかどうかを検出します。一般にこの変換は、同じキーを生成するために必要な2つの値の発音の類似性を判断する基準が緩く、たとえば、"Smith"と"Snaith"では同じキーが生成されます(metaphoneでは異なるキーが生成されます)。
さらに、「Soundex」変換は単一の単語(複数の単語からなる値の処理では最初の単語)に対してのみ機能するということも重要です。つまり、"Margaret Hawkins"と"Margaret Johnson"では同じsoundexキー(M626)が生成されますが、異なるmetaphoneキーが生成されます。
「Soundex」変換は、名や姓などの単一の名前識別子に対してクラスタリングまたは照合を行う場合に便利です。これは、名前のようにスペルミスがよくあるキー識別子で、同一である可能性のある名前を照合ルールで確実に捕捉する必要がある場合に使用します。
オプション
なし
例
この例では、「Soundex」変換を使用して、姓識別子の値をそのsoundexキーに変換することにより、小さなデータセットに初期クラスタを作成します。
変換例
次の表に、「Soundex」変換の例を示します。
表1-95 「Soundex」変換の例
値 | 変換済の値 |
---|---|
Howard |
H630 |
Hayward |
H630 |
Hardy |
H630 |
価格 |
P620 |
Pierce |
P620 |
Preece |
P620 |
Pryke |
P620 |
Roberts |
R163 |
Robertson |
R163 |