マッチ: Strip Words

「Strip Words」マッチを使用すると、文字列値をクラスタリングまたは比較する前に、特定の単語を文字列値から削除します。これは、メインの「Strip Words」プロセッサと完全に同じ方法で機能します。

用途

「Strip Words」変換は、値の識別に不要な特定の単語が様々な形式で含まれるテキスト値をクラスタリングまたは比較する場合に非常に役立ちます。たとえば、会社名を照合する場合、「LIMITED」、「LTD」、「GRP」、「GROUP」、「PLC」などの接尾辞を削除すると、識別子値の意味のある部分を照合できます。

オプション

オプション

タイプ

目的

デフォルト値

Reference data

参照データ

属性値から削除する単語のリスト。

なし

 

Delimiter Reference Data

参照データ

データを分割するためのデリミタ文字または文字列の標準的で再使用可能なセットを指定でき、制御文字をデリミタとして使用できます。

*Delimiters

Delimiter characters

自由形式テキスト

スペースやカンマなどの単純なデリミタの場合は、参照データを作成せずに、使用するデリミタを指定できます。

参照リストに加えてこれらを使用すると、両方のオプションで指定されたすべてのデリミタを使用してデータが分割されることに注意してください。

スペース

Ignore case?

Yes/No

マップの参照列と照合するときに、大/小文字を無視するかどうかを決定します。

Yes

この例では、会社名識別子の比較で「Strip Words」変換を使用します。

構成例

使用する参照データの左端の列には、次の単語が含まれています。

CORP、CORPORATION、LIMITED、LTD、PLC、GROUP、GRP

Delimiter Reference Data: *Delimiters

Delimiter characters: なし

Ignore case?: Yes

変換例

次の表に、「Strip Words」変換の前述の構成を使用した変換の例を示します。

変換された値

ORACLE CORP

ORACLE

ORACLE CORPORATION

ORACLE

INTERCHANGE GROUP LIMITED

INTERCHANGE

INTERCHANGE GROUP

INTERCHANGE

INTERCHANGE GRP LTD

INTERCHANGE

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.