マッチ: Denoise

「Denoise」変換を使用すると、値をクラスタリングまたは比較するときに、メインの「Denoise」プロセッサと同じ方法で、値から「ノイズ」文字を削除できます。ノイズ文字があるとマッチ・レコードの検索機能が低下する可能性があるため、これを削除するとマッチの精度が向上します。たとえば、値「Castle (Investments) Ltd」と「Castle Investments Ltd」は高いマッチですが、前者の値からカッコを削除しないと、文字編集距離は2になります。

用途

「Denoise」変換は、自由形式テキスト・フィールドを使用して値が入力された識別子を使用して、レコードを照合する場合に使用します。自由形式テキスト・フィールドを使用すると、同じデータが様々な書式で入力され、「(」や「)」などのノイズ文字が挿入される場合も含めて、入力ミスが発生する可能性があります。「Denoise」変換を使用すると、マッチ処理でこのようなミスの影響を回避できます。

オプション

オプション

タイプ

目的

デフォルト値

Noise characters Reference Data

参照データ

ノイズ文字のリスト(文字またはテキスト文字列)

*Noise Characters

Noise characters

自由形式テキスト

追加のノイズ文字

注意: すべての文字は、追加のノイズ除去文字として個々に処理されます。値全体は、検出されると削除されるテキスト文字列とみなされません。

なし

構成例

この例では、マッチ処理で「Denoise」変換を使用して、会社名からノイズ文字を削除します。次のノイズ文字が使用されます。

& + ( ) - *

変換例

次の表に、前述の構成を使用した「Denoise」変換の例を示します。

変換された値

Castle (Investments) Ltd

Castle Investments Ltd

Castle Investments Ltd

Castle Investments Ltd

Ipswich & Norwich Co-op

Ipswich Norwich Coop

Ipswich + Norwich Co-operative

Ipswich Norwich Cooperative

Barclays Bank - Cambridge

Barclays Bank Cambridge

Barclays Bank (Cambridge)

Barclays Bank Cambridge

George & Sons ***in administration***

George Sons in administration

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.