プロセッサの作成

プロセッサ・ライブラリで使用可能な一連のデータ品質プロセッサに加え、EDQでは、特定のデータ品質機能について独自のプロセッサを作成して共有できます。

プロセッサを作成するには2つの方法があります。

一連の構成済プロセッサからのプロセッサの作成

EDQでは、順に使用される複数のベース(またはメンバー)プロセッサの組合せを使用して、単一の機能に対して単一のプロセッサを作成できます。

次のプロセッサは、新規に作成されるプロセッサには含まれないことに注意してください。

ただし、構成を再使用するために、前述のプロセッサの構成された単一のプロセッサ・インスタンスが引き続き公開されます。

プロセッサの作成例

簡単な例を示すために、敬称および名の属性に基づいて個人の性別の値を導出する、再使用可能な「Add Gender」プロセッサを構築します。これを実行するには、複数のメンバー・プロセッサを使用する必要があります。ただし、他のユーザーがプロセッサを使用する場合は、そのユーザーが単一のプロセッサを構成し、「Title」および「Forename」属性を入力(ただし、名称はデータ・セットで指定)して、参照データの2つのセット(1つは敬称の値を性別の値にマップし、もう1つは名の値を性別の値にマップする)を選択するのみの操作にします。最終的に、プロセッサからの3つの出力属性(TitleGender、NameGenderおよびBestGender)が必要です。

そのためには、最初に必要なメンバー・プロセッサを構成する必要があります(プロセッサを作成する基になる既存のプロセスが存在する場合もあります)。たとえば、次のスクリーンショットでは、「Gender」属性を追加するために、次の手順で5個のプロセッサを使用しています。

1. Derive Gender from Title(Enhance from Map)

2. Split Forename(Make Array from String)

3. Get first Forename(Select Array Element)

4. Derive Gender from Forename(Enhance from Map)

5. Merge to create best Gender(Merge Attributes)

これらを単一のプロセッサにするには、キャンバスですべてを選択して右クリックし、「Make Processor」を選択します。

キャンバスに単一のプロセッサが即時に作成され、単一のプロセッサの動作を設定できるプロセッサ設計ビューが表示されます。

プロセッサ設計ビューから、プロセッサの次の側面を設定できます(多くの場合、デフォルト設定のまま使用できます)。

入力の設定

プロセッサに必要な入力は、ベース・プロセッサの構成から自動的に計算されます。多くのベース・プロセッサが同様に構成された(複数の)入力属性を使用する場合も、新規プロセッサに対して1つの入力属性のみが作成されることに注意してください。

ただし、必要に応じて、プロセッサに必要な入力をプロセッサ設計ビューで変更または名称変更したり、入力をオプションにできます。これを実行するには、キャンバスの上部にある「Processor Setup」アイコンをクリックし、「Inputs」タブを選択します。

前述の場合、「Title」と「Forenames」はベース・プロセッサの構成で使用される異なる属性の名称であるため、この「Title」と「Forenames」の2つの入力属性が作成されます。

ユーザーは、ラベルの汎用性が高まるようにこれらの属性の一方の「External Label」を「Forenames」から「Forename」に変更し、「Forename」の入力をオプションにすることを選択します。

入力属性がオプションで、プロセッサのユーザーが属性をその入力属性にマップしないと、プロセッサの論理では属性値はNullとみなされます。

注意: この画面の各入力属性の「Name」も変更可能で、これは(現在使用しているソース・データ・セットの実際の入力属性が異なる場合は、プロセッサを中断せずに)プロセッサの設計内でのみ名称が変更されることを意味します。この変更を使用してメンバー・プロセッサの構成が新規プロセッサの構成と調和するようにできますが、すでに作成されたプロセッサの動作には関係しません。

設定オプション

プロセッサ設計ページを使用して、作成しているプロセッサに対して表示(または公開)する必要がある各メンバー・プロセッサのオプションを選択できます。前述の例では、「Title」および「Forename」の値を「Gender」の値にマップするために、ユーザーが参照データに独自のセットを選択できるようにする必要があります(たとえば、プロセッサが新しい国のデータに使用される可能性があり、この場合は用意されている「Forename」から「Gender」へのマップが適切でなくなります)。

オプションを公開するには、プロセッサ設計ページでメンバー・プロセッサを開き、「Options」タブを選択し、ウィンドウの下部にある「Show publishing options」ボックスを選択します。

その後、公開するオプションを選択できます。オプションを公開しないと、オプションは構成済の値に設定され、新規プロセッサのユーザーはオプションを変更できません(プロセッサ定義を編集する権限がユーザーにない場合)。

オプションを公開するには2つの方法があります。

注意: 参照データを使用するオプションを公開しないと、参照データは新規プロセッサの構成の一部として内部的にパッケージ化されます。これは、プロセッサのエンド・ユーザーによって参照データ・セットが変更されないようにする場合に便利です。

この例では、最初のメンバー・プロセッサ(Derive Gender from Title)を開き、「Title」値から「Gender」値へのマッピングに使用される参照データ・セットを指定するオプションを(新規として)公開することを選択します。

前述の例で、「Match Options」が表示オプションとして公開されていないことに注意してください(これは、プロセッサのユーザーがこれらを変更できないことを意味します)。

次に、同様のプロセスに従って4番目のプロセッサ(Derive Gender from Forename)で、「Forename」値から「Gender」値へのマッピングに使用される参照データ・セットを指定するオプションを公開します。

公開するオプションを選択した後は、新規プロセッサでのラベルの指定方法を選択できます。

これを実行するには、キャンバスの上部にある「Processor Setup」ボタンをクリックし、オプションの名称を変更します。たとえば、前述の公開した2つのオプションに「Title Gender Map」および「Forename Gender Map」のラベルを指定できます。

出力属性の設定

新規プロセッサの出力属性は、メンバー・プロセッサのいずれか1つ(のみ)の出力属性に設定されます。

デフォルトでは、作成されるプロセッサの出力属性には、一連の中で最後のメンバー・プロセッサの出力属性が使用されます。出力属性に別のメンバー・プロセッサを使用するには、そのプロセッサをクリックして、ツールバーの「Outputs」アイコンを選択します。

「Outputs」に使用されたメンバー・プロセッサは、出力側が緑色の陰影付きで表示されます。

注意: 結果ビューに表示される属性は、常に新規プロセッサの出力属性として表示されます。メンバー・プロセッサをプロファイルに追加するか、新規プロセッサに必要な出力属性のみ(さらに、変換プロセッサに対する入力属性でない属性など)が表示されるように、表示する出力属性を選択して、そのメンバー・プロセッサを結果プロセッサ(後述の説明を参照)として設定する必要があります。あるいは、結果ビューが必要でない場合は、設定を解除することで、表示される出力属性が常に出力プロセッサの属性のみになります。

結果ビューの設定

新規プロセッサの結果ビューは、メンバー・プロセッサのいずれか1つ(のみ)の結果ビューに設定されます。

デフォルトでは、作成されるプロセッサの結果には、一連の中で最後のメンバー・プロセッサの結果ビューが使用されます。結果ビューに別のメンバー・プロセッサを使用するには、そのプロセッサをクリックして、ツールバーの「Results」アイコンを選択します。

「Results」に使用されたメンバー・プロセッサには、「Results」アイコンが重なって表示されるようになります。

場合によっては、結果ビューを提供する目的でメンバー・プロセッサを特別に追加する必要があります。この例では、新規プロセッサのユーザーが「Add Gender」プロセッサの実行内容の明細を確認できるように、3つの出力属性(TitleGender、ForenameGenderおよびBestGender)の「Frequency Profiler」を追加する必要があります。これを実行するには、「Frequency Profiler」をプロセッサ設計ビューに追加し、3つの属性を入力として選択し、このプロファイラを結果プロセッサとして選択して実行します。

プロセッサ・デザイナ・ビューを終了すると、「Frequency Profiler」の結果が新規プロセッサの結果として使用され、表示されます。

出力フィルタの設定

新規プロセッサの出力フィルタは、メンバー・プロセッサのいずれか1つ(のみ)の出力フィルタに設定されます。

デフォルトでは、作成されるプロセッサの出力フィルタには、一連の中で最後のメンバー・プロセッサの出力フィルタが使用されます。別のメンバー・プロセッサを使用するには、そのプロセッサをクリックして、ツールバーの「Filter」アイコンを選択します。

選択した出力フィルタは、新規プロセッサに表示されることを意味する緑色でプロセッサ設計ビューに表示されます。

ダッシュボード公開オプションの設定

新規プロセッサのダッシュボード公開オプションは、メンバー・プロセッサのいずれか1つ(のみ)の公開オプションに設定されます。

新規プロセッサからの結果をダッシュボードに公開する必要がある場合は、監査プロセッサをメンバー・プロセッサの1つとして確保する必要があります。

メンバー・プロセッサをダッシュボード・プロセッサとして選択するには、そのプロセッサをクリックして、ツールバーの「Dashboard」アイコンを選択します。

そのプロセッサには、ダッシュボード・プロセッサであることを示す信号機アイコンが表示されます。

注意: ほとんどの場合、新規プロセッサを使用するときは、結果の一貫性が保持されるように、結果ビュー、出力フィルタおよびダッシュボード公開オプションに同じメンバー・プロセッサを使用することをお薦めします。特に、データをチェックする設計のプロセッサを作成する場合は、このようにしてください。

カスタム・アイコンの設定

新規プロセッサには、他のユーザーが使用できるように、新規プロセッサを公開する前にカスタム・アイコンを追加できます。プロセッサにアイコンを追加するには、単に(プロセッサ設計ビューの外部にある)プロセッサをダブルクリックして「Icon & Group」タブを選択します。

詳細は、「プロセッサ・アイコンのカスタマイズ」トピックを参照してください。

新規プロセッサの設計とテストを完了した後、次のステップは他のユーザーが使用できるようにそのプロセッサを公開することです。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.