Strip Words

「Strip Words」変換プロセッサでは、参照データ・リストとマッチする単語を属性値から削除します。

注意: EDQの初期のバージョンで使用される、このプロセッサの非推奨バージョンを使用できます。詳細は、「Strip Words(非推奨)」を参照してください。

用途

「Strip Words」は、多くの場合、照合する値を作成する目的で、無関係な単語を属性から削除するために使用します。たとえば、「Company Name」フィールドを使用して会社を照合するときは、様々な形式で発生したり、値に付く場合と付かない場合がある、重要性がそれほど高くない単語(「LTD」、「LIMITED」、「UK」、「PLC」など)を削除すると便利な場合があります。

注意: プロセッサのこのバージョンでは、デリミタ(プロセッサのオプションの一部として指定)が出力にも保持されます。当初のデリミタを正規化された空白文字で置換する場合は、「Strip Words」(非推奨)プロセッサを使用してください。

構成

入力

単語を削除する文字列または文字列配列型の属性。数値属性および日付属性は有効な入力ではありません。

配列属性を入力すると、変換はすべての配列要素に適用され、単一の配列属性が出力されます。

オプション

オプション

タイプ

目的

デフォルト値

Reference data

参照データ

属性値から削除する単語のリスト。

なし

Delimiters

参照データ

値を単語に分割するためのデリミタ文字の標準的で再使用可能なセットを指定でき、制御文字をデリミタとして使用できます。

デリミタとして使用できるのは単一の文字(文字列でなはく)のみです。複数文字のデリミタは無視されます。

*Delimiters

Delimiters list

自由形式テキスト入力

スペースやカンマなどの単純なデリミタの場合は、参照データを作成せずに、使用するデリミタを指定できます。

参照リストに加えてこれらを使用すると、両方のオプションで指定されたすべてのデリミタを使用してデータが分割されることに注意してください。

スペース

Ignore case?

Yes/No

削除する単語のリストを照合するときに、大/小文字を無視するかどうかを決定します。

Yes

出力

データ属性

データ属性

タイプ

目的

[Attribute Name].StrippedWords

導出

マッチする単語が削除された新しい属性。

元の属性に対して、参照リストとマッチした単語が削除された値。入力値に使用された当初のデリミタは保持されます。

フラグ

なし

実行

実行モード

サポート

バッチ

Yes

リアルタイム・モニタリング

Yes

リアルタイム応答

Yes

結果ブラウザの表示

「Strip Words」トランスフォーマでは、処理に関するサマリー統計は表示されません。

データ・ビューには、各入力属性とともに、右側に新しく導出された、単語を削除した属性が表示されます。

出力フィルタ

なし

この例では、「Strip Words」を使用して、会社名が含まれるフィールドから、「Limited」、「Ltd.」、「Services」、「Associates」などの比較的重要性の低い単語を削除します。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.