照合変換: ノイズ削除
「ノイズ削除」変換を使用すると、値をクラスタリングまたは比較する際に、メインの「ノイズ削除」プロセッサと同じようにノイズ文字を削除できます。ノイズ文字は一致するレコードの検出能力を低下させる可能性があるため、これによって照合の精度が上がります。たとえば、値"Castle (Investments) Ltd"と"Castle Investments Ltd"は高い一致ですが、前者の値からカッコを取り除かなければ、両者の文字編集距離は2になります。
「ノイズ削除」変換は、フリー・テキスト・フィールドを使用して値が入力された識別子を使用するレコードを照合する場合に使用します。フリー・テキスト・フィールドでは、同じデータが多く書式で入力されるうえ、入力エラーによって「(」や「)」などのノイズ文字が挿入される可能性があります。「ノイズ削除」変換を使用すると、照合の際にこのようなエラーを解決できます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
オプション |
次のオプションを指定します。
|
例
この例では、データはテキスト・ファイルからインポートされたため、すべての属性は文字列型です。データ型プロファイリング(「データ型プロファイラ」を参照)で、属性の1つに、電話番号の市外局番に対応する数値が含まれることがわかりました。クラスタリングの際に、データは数値書式に変換されます。
サンプル構成
この例では、「ノイズ削除」変換を使用して、照合の際に会社名からノイズ文字を削除します。使用するノイズ文字は次のとおりです。& + ( ) - *
変換例
次の表に、前述の構成を使用した変換の例を示します。
表1-79 「ノイズ削除」変換の例
値 | 変換済の値 |
---|---|
Castle (Investments) Ltd |
Castle Investments Ltd |
Castle Investments Ltd |
Castle Investments Ltd |
Ipswich & Norwich Co-op |
Ipswich Norwich Coop |
Ipswich + Norwich Co-operative |
Ipswich Norwich Cooperative |
Barclays Bank - Cambridge |
Barclays Bank Cambridge |
Barclays Bank (Cambridge) |
Barclays Bank Cambridge |
George & Sons ***in administration*** |
George Sons in administration |