参照データ

参照データは、作業データのチェックおよび改良時に様々なプロセッサによって参照で使用されるデータです。参照データの例は次のとおりです。

  • 有効または無効な値、文字、パターンのリスト

  • 単語の標準化、文字の置換またはパターンの生成に使用するマップ

参照データの各セットの作成、編集および管理は、EDQ自体で行うことも、外部ソースから行うこともできます。たとえば、インターネット上で保存および更新されているファイルをダウンロードしてスナップショットを作成し、参照データとして使用することも、独自の参照データ・データベースを保守し、このデータベースに対して参照を実行することもできます。

EDQで管理される参照データも、ステージング済データと同じ方法でプロセスで使用できます。プロファイリング、チェック、変換、照合などを実行できます。

参照データ定義には2つの側面があります。

  • データ自体

  • 参照の定義、そのデータへの参照を実行する方法の定義(つまり、参照でどの列を使用してどの列(ある場合)を返すか)

参照データ・セットを作成する際は、「新規参照データ」オプションによって、データ・セット(EDQで管理される)と、そのデータに対するデフォルトの参照定義が作成されます。新規参照オプションでは、次の3つのソースのいずれかである既存のデータ・セットへの参照が作成されます。

  • 既存の参照データ・セット(デフォルトには異なる参照定義を使用する場合)

  • ステージング済データ(スナップショット、またはプロセスから書き込まれたステージング済データ・セットのいずれか)

  • 外部データ(構成済のサーバー側データ・ストア接続の1つを使用)

プロセッサ・オプションで参照データを使用する場合、参照と参照データに違いはありません。

EDQで管理される参照データ

値およびパターンの検証に使用されるデータのリストやマップを使用するとき、一般的にそのデータのリストやマップがメモリーにロードできる程度に小さく(後述の説明を参照)、結果を使用して作成または更新する必要がある場合は、それらのデータ・セットをEDQで管理することをお薦めします。

注意:

ガイドとして、50,000行未満の参照データ・セットは、最小推奨RAMが1GBのEDQサーバー上のメモリーにロード可能であるため、プロセッサで使用するために参照データを選択する際は、これがロード可能としてマークされます。これより大きい参照データ・セットはデフォルトではメモリーにロードできませんが、使用可能な追加メモリーがあることがわかっている場合、管理者はサーバーに対する50,000行の制限を変更できます。

たとえば、次のタイプの参照データは通常EDQで管理されます。

  • データのチェックに使用する有効および無効な値、パターンおよび正規表現の参照リスト

  • データの変換に使用する標準化マップ

  • パターンの生成に使用する文字マップ

  • 日付と数値を認識して変換するために使用する日付と数値の書式リスト

参照データのスタータ・パックがEDQに付属していますが、新しい参照データは、結果ブラウザを使用して、独自のデータから迅速かつ簡単に作成および変更できます。

参照データのカテゴリ

EDQで管理される参照データ・セットを作成する際は、必要に応じてカテゴリを割り当てることができます。

カテゴリは、プロセッサから参照データを選択する際、そのプロセッサ・オプションに特定タイプの参照データ(文字、パターンまたは正規表現のリストなど)が必要なときに、参照データ・セットの簡潔なリストを提供するために使用します。

次のカテゴリはすべてプロセッサ・ライブラリのプロセッサで使用されているため、参照データ・セットの作成時に選択可能です。新しいプロセッサが作成され、プロセッサ・ライブラリに追加された場合は、これらによってカテゴリがさらに追加され、リストにも表示される場合があります。

ステージング済データ参照

ステージング済データ参照は、リポジトリ内の既存のステージング済データ・セット(スナップショット、または別のプロセスから書き込まれたデータのいずれか)への参照です。

ステージング済データ参照を設定する際は、参照でどの列を使用してどの列を返すかを選択する必要があります。

異なる参照列と戻り列を使用して、同じデータに対する複数の異なる参照を構成できます。

ステージング済データ参照は、プロジェクト・ブラウザの「参照データ」ノードの下に表示されますが、ステージング済データ・アイコンによって、この参照は編集可能な参照データや外部データではなくステージング済データへの参照であることが示されます。

外部データ参照

外部データ参照は、ステージングされていないデータ(たとえば、EDQの外部に存在し、頻繁に更新される可能性がある大規模なデータ・セットなど、ステージングを望まないデータ)への参照です。

外部データ参照は、ステージング済データ参照と同じ方法で構成され、参照で使用する列と返す列が選択されます。ただし、外部データ・セットはEDQリポジトリにステージングされません。

異なる参照列と戻り列を使用して、同じデータに対する複数の異なる参照を構成できます。

外部データ参照は、プロジェクト・ブラウザの「参照データ」ノードの下に表示されますが、データ・ストア・アイコンによって、この参照は編集可能な参照データやステージング済データではなく外部データへの参照であることが示されます。

参照データのレベル

参照データは、2つの異なるレベルで存在する場合があります。システム・レベルの参照データは、サーバー上でグローバルに共有され、多数のプロジェクトで使用できます。プロジェクト・レベルの参照データは、そのデータが保存されているプロジェクトでのみ使用できます。