照合変換: ノイズ削除

「ノイズ削除」変換を使用すると、値をクラスタリングまたは比較する際に、メインの「ノイズ削除」プロセッサと同じようにノイズ文字を削除できます。ノイズ文字は一致するレコードの検出能力を低下させる可能性があるため、これによって照合の精度が上がります。たとえば、値"Castle (Investments) Ltd"と"Castle Investments Ltd"は高い一致ですが、前者の値からカッコを取り除かなければ、両者の文字編集距離は2になります。

「ノイズ削除」変換は、フリー・テキスト・フィールドを使用して値が入力された識別子を使用するレコードを照合する場合に使用します。フリー・テキスト・フィールドでは、同じデータが多く書式で入力されるうえ、入力エラーによって「(」や「)」などのノイズ文字が挿入される可能性があります。「ノイズ削除」変換を使用すると、照合の際にこのようなエラーを解決できます。

次の表に、構成オプションを示します。

構成 説明

オプション

次のオプションを指定します。

  • ノイズ文字参照データ: ノイズ値のリスト(文字またはテキスト文字列)。タイプ: 参照データ。デフォルト値: *ノイズ文字。

  • ノイズ文字: 追加のノイズ文字。タイプ: フリー・テキスト。デフォルト値: なし。

    注意: すべての文字は追加の個別的なノイズ削除文字として処理されます。値は、出現した箇所で削除されるテキスト文字列としてみなされません。

この例では、データはテキスト・ファイルからインポートされたため、すべての属性は文字列型です。データ型プロファイリング(「データ型プロファイラ」を参照)で、属性の1つに、電話番号の市外局番に対応する数値が含まれることがわかりました。クラスタリングの際に、データは数値書式に変換されます。

サンプル構成

この例では、「ノイズ削除」変換を使用して、照合の際に会社名からノイズ文字を削除します。使用するノイズ文字は次のとおりです。& + ( ) - *

変換例

次の表に、前述の構成を使用した変換の例を示します。

表1-79 「ノイズ削除」変換の例

変換済の値

Castle (Investments) Ltd

Castle Investments Ltd

Castle Investments Ltd

Castle Investments Ltd

Ipswich & Norwich Co-op

Ipswich Norwich Coop

Ipswich + Norwich Co-operative

Ipswich Norwich Cooperative

Barclays Bank - Cambridge

Barclays Bank Cambridge

Barclays Bank (Cambridge)

Barclays Bank Cambridge

George & Sons ***in administration***

George Sons in administration