参照データ

参照データは、作業データのチェックおよび改良時に様々なプロセッサによって参照で使用されます。参照データの例は次のとおりです。

参照データの各セットの作成、編集および管理はEDQ自体で行うことも、外部ソースから行うこともできます。たとえば、インターネット上で保存および更新されているファイルをダウンロードしてスナップショットを作成し、参照データとして使用することも、独自の参照データ・データベースを保守し、このデータベースに対して参照を実行することもできます。

EDQで管理される参照データも、ステージング・データと同じ方法でプロセスで使用できます。プロファイリング、チェック、変換、照合などを実行できます。

参照データ定義には2つの側面があります。

参照データ・セットを作成する際は、「New Reference Data」オプションによって、データ・セット(EDQで管理される)と、そのデータに対するデフォルトの参照定義が作成されます。「New Lookup」オプションでは、次の3つのソースのいずれかである既存のデータ・セットへの参照が作成されます。

プロセッサ・オプションで「参照データ」を使用する場合、「参照」と「参照データ」の違いはありません。

EDQで管理される参照データ

値およびパターンの検証に使用されるデータのリストやマップを使用するとき、一般的にそのデータのリストやマップがメモリーにロードできる程度に小さく(後述の説明を参照)、結果を使用して作成または更新する必要がある場合は、それらのデータ・セットをEDQで管理することをお薦めします。

注意: ガイドとして、50,000行未満の参照データ・セットは、最小推奨RAMが1GBのEDQサーバー上のメモリーにロード可能であるため、プロセッサで使用するために参照データを選択する際は、これがロード可能の目安となります。このサイズを超える参照データ・セットはデフォルトではメモリーにロードできませんが、使用可能な追加メモリーがあることがわかっている場合、管理者はサーバーに対する50,000行の制限を変更できます。

たとえば、次のタイプの参照データは通常EDQで管理されます。

参照データのスタータ・パックがEDQに付属していますが、新しい参照データは、結果ブラウザを使用して、独自のデータから迅速かつ簡単に作成および変更できます。

参照データのカテゴリ

EDQで管理される参照データ・セットを作成する際は、必要に応じてカテゴリを割り当てることができます。

カテゴリは、プロセッサから参照データを選択する際、そのプロセッサ・オプションに特定タイプの参照データ(文字、パターンまたは正規表現のリストなど)が必要なときに、参照データ・セットの簡潔なリストを提供するために使用します。

次のカテゴリはすべてプロセッサ・ライブラリのプロセッサで使用されているため、参照データ・セットの作成時に選択可能です。新しいプロセッサが作成され、プロセッサ・ライブラリに追加された場合は(詳細は「EDQの拡張」を参照)、これらのプロセッサによってカテゴリがさらに追加され、リストにも表示される場合があります。

カテゴリ

用途

Date Formatting

日付の認識が必要なプロセッサで使用する日付書式のリスト。

次のプロセッサで使用されます。

Data Types Profiler

Data Type Check

Convert String to Date

No Data Handling

非データを構成する文字(空白文字など)のリスト。非データ文字は、データ分析を促進するためにNULL値に正規化できます。

次のプロセッサで使用されます。

Reader

Normalize No Data

このカテゴリの参照データは、データのスナップショットを作成する際にも使用可能です。

Number Formatting

数値の認識が必要なプロセッサで使用する数値書式のリスト。

「Convert String to Number」プロセッサで使用されます。

Number Bands

様々な範囲にわたる数値をプロファイリングするための数値バンドのリスト。

「Number Profiler」プロセッサで使用されます。

Parse Base Token Patterns

ベース・トークン・パターンのリスト。

ベース・トークン・チェックを使用してデータを分類する際に、「Parse」プロセッサで使用されます。

Parse Pattern Frequency

参照データでの発生頻度を使用してパターンを選択する際に、「Parse」プロセッサで生成されて使用される参照データ。

Parse Tokenization

文字からパターン文字、グループ・タグおよび文字タイプへのマップ。

データをトークン化する際に、「Parse」プロセッサで使用されます。

Pattern Generation

データからパターンを生成する際に使用する文字からパターン文字へのマップ。

次のプロセッサで使用されます。

Patterns Profiler

Pattern Check(および「Parse」プロセッサの「Pattern Check」分類子)

Pattern Transform

Patterns

データ書式の検証または変換に使用する文字パターンのリストまたはマップ。

次のプロセッサで使用されます。

Pattern Check(および「Parse」プロセッサの「Pattern Check」分類子)

Pattern Transform

Regular Expressions

正規表現のリスト。

次のプロセッサで使用されます。

RegEx Patterns Profiler

RegEx Check

Email Check

GBR Postcode Format Check

 

ステージング・データ参照

ステージング・データ参照は、リポジトリ内の既存のステージング・データ・セット(スナップショット、または別のプロセスから書き込まれたデータのいずれか)への参照です。

ステージング・データ参照を設定する際は、参照でどの列を使用してどの列を返すかを選択する必要があります。

異なる参照列と戻り列を使用して、同じデータに対する複数の異なる参照を構成できます。

ステージング・データ参照は、プロジェクト・ブラウザの「Reference Data」ノードの下に表示されますが、ステージング・データ・アイコンによって、この参照は編集可能な参照データや外部データではなくステージング・データへの参照であることが示されます。

外部データ参照

外部データ参照は、ステージングされていないデータ(たとえば、EDQの外部に存在し、頻繁に更新される可能性がある大規模なデータ・セットなど、ステージングを望まないデータ)への参照です。

外部データ参照は、ステージング・データ参照と同じ方法で構成され、参照で使用する列と返す列が選択されます。ただし、外部データ・セットはEDQリポジトリにステージングされません。

異なる参照列と戻り列を使用して、同じデータに対する複数の異なる参照を構成できます。

外部データ参照は、プロジェクト・ブラウザの「Reference Data」ノードの下に表示されますが、データ・ストア・アイコンによって、この参照は編集可能な参照データやステージング・データではなく外部データへの参照であることが示されます。

参照データのレベル

参照データは、2つの異なるレベルで存在する場合があります。システム・レベルの参照データは、サーバー上でグローバルに共有され、多数のプロジェクトで使用できます。プロジェクト・レベルの参照データは、そのデータが保存されているプロジェクトでのみ使用できます。

システム・レベルの参照データ

システム・レベルの参照データ・セットは、プロジェクト・ブラウザのEDQサーバーの下にリストされます。

EDQの初期インストールでは、システム・レベルの参照データのスタータ・パックを一般的な用途に使用できます。たとえば、非データ値をNULL値に正規化するために「No Data Handling」マップが提供され、EDQでデータのパターンを生成して評価する方法を決定するために「Character Pattern Map」が提供されています。この種類の参照データは通常、すべてのプロジェクトにわたって標準的な方法で使用されます。

参照データがまれにしか変更されず、様々なプロジェクトで使用されることがわかっている場合は、プロジェクト・レベルの参照データをシステム・レベルのライブラリにコピーすることも可能です。それ以外の場合は、プロジェクト・ベースでの参照データの管理が適切です。

参照データは、右クリック・メニューを使用してコピーおよび貼付けすることで別の領域(つまり、特定のプロジェクトやシステム・レベル)にコピーできます。

 

システム・レベルの参照データは慎重に取り扱い、EDQインスタンス全体でグローバル変更を適用して、その参照データを使用するすべてのプロセスで変更を即時に有効にする場合にのみ変更してください。システム・レベルの参照データを変更すると、多数のプロジェクトの多数のプロセスに影響を与える可能性があります。

新しいシステム・レベルの参照データのリストやマップを追加するには、別の名称を使用し、以前のリストやマップの拡張バージョンとして、プロジェクトからシステム・レベルにデータをコピーします。これにより、前のバージョンを使用している個々のユーザーは、拡張バージョンを使用するかどうかを意識的に判断できます。

EDQに付属しているシステム・レベルの参照データのリストおよびマップの詳細は、「参照データ・ライブラリ」を参照してください。

プロジェクト・レベルの参照データ

プロジェクト・レベルの参照データ・セットは、プロジェクト・ブラウザのプロジェクトの下にリストされます。

プロジェクト・レベルの参照データは、特定のプロジェクトで使用するビジネス・ルールを定義する際に使用します。プロジェクト・レベルの参照データは、データの分析に従って参照データを繰り返して変更し、他のプロジェクトのプロセスに影響を与えないようにする場合、およびその参照データが他のプロジェクトには有効でない場合(一般的には発生しないデータ属性固有のルールなど)に使用してください。

右クリック・メニューから、参照データをプロジェクト間でコピーしたり、プロジェクト・レベルの参照データをシステム・レベルにコピーすることができます。

注意: 独自の参照データを作成するときに、データ型DATEのデータが必要な場合は、参照データにISO形式(YYYY-MM-DD HH:mm:ss)で表示される必要があります。これは、チェックに使用するデータがISO形式ではない場合でも同じです。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.