Quickstats Profiler

「Quickstats Profiler」により、複数のレコードまたはトランザクションについて、次の点に関する基本的な品質メトリックが提供されます。

各入力属性は、個別にプロファイリングされます。

用途

「Quickstats」は、データとその品質の基本的な全体像を把握するのに役立ちます。  

ドキュメントやメタデータでは、情報が欠落したり、不完全な情報、古い情報または信頼できない情報が含まれることが多くあります。データ自体を分析してデータの明確な全体像を把握することが重要です。これにより、誤った前提に基づいて誤った判断をすることを防ぎます。

構成

入力

クイック・プロファイリング統計を取得する属性。

オプション

なし

出力

データ属性

なし

フラグ

フラグ属性

目的

可能性のある値

[Attribute name].Populated

レコードが移入済かどうかを示します。

Y/N

実行

実行モード

サポート

バッチ

Yes

リアルタイム・モニタリング

Yes

リアルタイム応答

No

「Quickstats Profiler」では、統計を作成するためにレコードのバッチが必要です(たとえば、分析対象の属性ごとに重複値の数を調べる場合)。したがって、結果を使用するには完了まで実行される必要があり、リアルタイム応答が必要なプロセスには適していません。

リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、「Reader」プロセッサで構成されたコミット・ポイント(トランザクションまたは時間制限)に到達すると処理が終了します。

結果ブラウザの表示

「Quickstats Profiler」では、結果のサマリー・ビューが作成され、属性ごとに次の統計が表示されます。

統計

意味

With data

その属性にデータを含むレコードの数。

Without data

その属性にデータを含まないレコードの数。これには、NULL値を含むレコード、およびその他のタイプの非データ(スペースのみ、または印刷不可能な文字など)を含むレコードも含まれます。数値をドリルダウンすると、検出された非データのタイプの明細が表示されます。

Singletons

その属性で1回のみ検出された値を含むレコードの数。

Duplicates

その属性で複数回検出された値を含むレコードの数。

Distinct

属性で検出された異なる値の数。数値をドリルダウンすると、これらの値の明細が出現頻度別に表示されます。

Comments

「Quickstats profiler」の結果に基づいた自動コメント。後述の説明を参照してください。

追加情報

「Additional Information」ボタンをクリックすると、前述の統計が、分析対象レコードの合計数に対するパーセントとして表示されます。

自動コメント

自動コメントは、データ内で関心を集める可能性がある分野を強調するために生成されます。次に例を示します。

前述のコメントが複数適用されると、それらのコメントは連結されます(後述の例を参照)。

この例では、「Quickstats Profiler」を使用して、最初に顧客レコード表の概要を把握します。

サマリー・ビュー

ほとんどの場合、サマリー・ビューの数値をドリルダウンすると、レコードが直接表示されます。ただし、数値から中間ビューが表示される場合もあります。次に例を示します。

「Duplications」のドリルダウン

サマリー・ビューで「BUSINESS」の重複値「41」をドリルダウンすると、EDQでは各重複値の頻度が表示されます。

「Distinct Values」のドリルダウン

サマリー・ビューで「TITLE」の個別値「8」をドリルダウンすると、EDQでは各個別値の頻度が表示されます。

非データ値のドリルダウン

サマリー・ビューで「POSTCODE」の非データ値「239」をドリルダウンすると、EDQでは検出された各種の非データのサマリー・ビューが表示されます(リーダーまたはスナップショットでデフォルトの「No Data Handling」参照データ・マップが使用される場合、すべての非データ値はNull値になることに注意してください)。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.