「Strip Words」マッチを使用すると、文字列値をクラスタリングまたは比較する前に、特定の単語を文字列値から削除します。これは、メインの「Strip Words」プロセッサと完全に同じ方法で機能します。
「Strip Words」変換は、値の識別に不要な特定の単語が様々な形式で含まれるテキスト値をクラスタリングまたは比較する場合に非常に役立ちます。たとえば、会社名を照合する場合、「LIMITED」、「LTD」、「GRP」、「GROUP」、「PLC」などの接尾辞を削除すると、識別子値の意味のある部分を照合できます。
オプション |
タイプ |
目的 |
デフォルト値 |
Reference data |
参照データ |
属性値から削除する単語のリスト。 |
なし
|
Delimiter Reference Data |
参照データ |
データを分割するためのデリミタ文字または文字列の標準的で再使用可能なセットを指定でき、制御文字をデリミタとして使用できます。 |
*Delimiters |
Delimiter characters |
自由形式テキスト |
スペースやカンマなどの単純なデリミタの場合は、参照データを作成せずに、使用するデリミタを指定できます。 参照リストに加えてこれらを使用すると、両方のオプションで指定されたすべてのデリミタを使用してデータが分割されることに注意してください。 |
スペース |
Ignore case? |
Yes/No |
マップの参照列と照合するときに、大/小文字を無視するかどうかを決定します。 |
Yes |
この例では、会社名識別子の比較で「Strip Words」変換を使用します。
構成例
使用する参照データの左端の列には、次の単語が含まれています。
CORP、CORPORATION、LIMITED、LTD、PLC、GROUP、GRP
Delimiter Reference Data: *Delimiters
Delimiter characters: なし
Ignore case?: Yes
変換例
次の表に、「Strip Words」変換の前述の構成を使用した変換の例を示します。
値 |
変換された値 |
ORACLE CORP |
ORACLE |
ORACLE CORPORATION |
ORACLE |
INTERCHANGE GROUP LIMITED |
INTERCHANGE |
INTERCHANGE GROUP |
INTERCHANGE |
INTERCHANGE GRP LTD |
INTERCHANGE |
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.