変換プロセッサについて

 

変換プロセッサは、1つ以上の入力属性を取得して変換し、変換した値を新しい属性に出力します。

EDQのトランスフォーマでは入力データが直接変更されない事実を理解することが重要です。ユーザーは、EDQを使用して、変換されたデータの使用方法を決定する前に、適用する変換の効果を確認できます。たとえば、データ・クレンジング・プロセスからデータを書き出す前に、変換されたデータを元のデータより優先して使用することを選択できます。

変換プロセッサの最も一般的な用途は、データを新システムに移行する前や、詳細なデータ品質分析を実施するために(たとえば、データを監査または照合する前に)、データを変換することです。結果的に、変換プロセスはプロセス・フローのどの時点でも使用できます。たとえば、大/小文字の違いを常に意識しなくてすむように、分析を実行する前にすべてのテキスト・データを大文字または小文字に変換することを決定できます。

多くの場合、プロファイリングおよび監査では、データに適用する必要がある変換が検出されます。そのため、EDQではユーザーがデータ自体から変換ルールを直接作成できます。たとえば、属性に対して値が無効な一連のレコードが検出されたとします。その場合は、不適切な値を修正済バージョンで置換するために、データから参照データ・マップを直接作成できます。次に、新しい参照データ・マップを使用するように「Replace」プロセッサを構成し、不適切な値が置換された新しい属性を作成できます。

変換プロセッサによって作成される属性は、プロセッサに応じて導出または追加となります。これはデータ・フローが機能する方法に影響するため、この違いを理解することが重要です。

導出属性

導出属性は、各入力属性を個別に処理して、各入力属性に対して新しい変換済バージョンを生成する変換によって作成されます。新規の導出属性には、入力属性のデータの変換済バージョンが格納されます。導出属性には、常にデフォルト・フォーマット[Input Attribute Name].Transformation(たとえば、Forename.Upper)で名称が指定されます。導出属性を追加するプロセッサの例を次に示します。

プロセッサ

デフォルト名での導出属性の作成

Upper Case

[Attribute Name].Upper

Trim Whitespace

[Attribute Name].Trimmed

Denoise

[Attribute Name].Denoise

Trim Characters

[Attribute Name].Substring

Replace

[Attribute Name].Replaced

Proper Case

[Attribute Name].Proper

導出属性を追加するプロセッサによって属性が変換される場合、出力属性には変換を反映する名称が指定されます。

デフォルトでは、後続のプロセッサはその入力属性に最新の属性値を使用します。たとえば、リーダーと「Upper Case」プロセッサの間に「Denoise」プロセッサを挿入すると、「Upper Case」プロセッサの入力として使用される「NAME」属性は、元の「NAME」属性ではなく、属性の「NAME.Denoise」バージョンになります。

青色の矢印アイコンは、属性が受けたすべての変換を含めた、属性の最新バージョンが使用されることを示します。

これは、初回に処理の正しい順序を確保しなくてもかまわないことを意味します。別の変換の前に中間の変換を挿入しても、多くの場合、他のプロセッサに影響せずに実行できます。

導出属性は、導出属性の名称をそのデフォルトの名称形式から名称変更(たとえば、「NAME.Upper」が「New_name」に名称変更)した場合も、結果ブラウザでは導出元の属性の横に表示されます。

定義済の属性は、緑色に塗りつぶされた円で示されます。これらは、属性の最新バージョンではなく、属性の特定のバージョン(「NAME.Denoise」など)を示します。

注意: 後続プロセッサへの入力には、最新バージョンではなく、定義済の属性を選択できます。青色の矢印アイコンの下のプロセッサ構成で、各属性を展開して使用可能な定義済の属性を表示できます。前述の例では、「NAME」(元のソース属性)と「NAME.Denoise」を使用できます。リストに表示されている属性はすべて、プロセッサの入力として選択できます。

追加属性

追加属性は、新しい属性が単一の入力属性に直接関連しない変換によって作成されるか、データ型の変更がある場合に作成されます。次の場合に追加属性が作成されます。

追加属性には、変換操作に応じてデフォルト名が割り当てられます。たとえば、連結には「Concat」が使用されます。追加属性を追加するプロセッサの例を次に示します。

プロセッサ

デフォルト名での追加属性の作成

Concatenate

Concat

Make Array from Inputs

Array

Multiply

MultipliedValue

Add

AddedValue

Make Array from String

ArrayFromString

出力属性名

導出または追加のいずれかの属性を追加するプロセッサを構成する(つまり、[Input Attribute].[Output]という形式で名称が指定される)場合、入力属性を変更すると、プロセッサによって作成される出力属性の名称も変わります。これは、導出属性を追加するすべてのプロセッサと、追加属性を追加する一部のプロセッサ(出力が入力属性に関連していても導出属性を追加しない理由があるプロセッサ)にも該当します。通常、これはデータ型が変更されたことが理由で、導出属性ではなく追加属性を作成する必要があることを意味し、そうしないと後続のプロセッサへの入力が無効になるためです。

これは、次のプロセッサに適用されます。

プロセッサ

デフォルト名での追加属性の作成

Convert Number to String

[Input Attribute].NumberToString

Convert Date to String

[Input Attribute].DateToString

Convert String to Date

[Input Attribute].StringToDate

Convert String to Number

[Input Attribute].StringToNumber

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.