「Denoise」変換を使用すると、値をクラスタリングまたは比較するときに、メインの「Denoise」プロセッサと同じ方法で、値から「ノイズ」文字を削除できます。ノイズ文字があるとマッチ・レコードの検索機能が低下する可能性があるため、これを削除するとマッチの精度が向上します。たとえば、値「Castle (Investments) Ltd」と「Castle Investments Ltd」は高いマッチですが、前者の値からカッコを削除しないと、文字編集距離は2になります。
「Denoise」変換は、自由形式テキスト・フィールドを使用して値が入力された識別子を使用して、レコードを照合する場合に使用します。自由形式テキスト・フィールドを使用すると、同じデータが様々な書式で入力され、「(」や「)」などのノイズ文字が挿入される場合も含めて、入力ミスが発生する可能性があります。「Denoise」変換を使用すると、マッチ処理でこのようなミスの影響を回避できます。
オプション |
タイプ |
目的 |
デフォルト値 |
参照データ |
ノイズ文字のリスト(文字またはテキスト文字列) |
*Noise Characters |
|
Noise characters |
自由形式テキスト |
追加のノイズ文字 注意: すべての文字は、追加のノイズ除去文字として個々に処理されます。値全体は、検出されると削除されるテキスト文字列とみなされません。 |
なし |
構成例
この例では、マッチ処理で「Denoise」変換を使用して、会社名からノイズ文字を削除します。次のノイズ文字が使用されます。
& + ( ) - *
変換例
次の表に、前述の構成を使用した「Denoise」変換の例を示します。
値 |
変換された値 |
Castle (Investments) Ltd |
Castle Investments Ltd |
Castle Investments Ltd |
Castle Investments Ltd |
Ipswich & Norwich Co-op |
Ipswich Norwich Coop |
Ipswich + Norwich Co-operative |
Ipswich Norwich Cooperative |
Barclays Bank - Cambridge |
Barclays Bank Cambridge |
Barclays Bank (Cambridge) |
Barclays Bank Cambridge |
George & Sons ***in administration*** |
George Sons in administration |
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.