クイック統計プロファイラ
クイック統計プロファイルは、複数のレコードまたはトランザクションについて、次の点に関する基本的な品質メトリックを提供します。
-
候補キー列
-
完全性データと欠落データ
-
重複
-
値の一意性と多様性
各入力属性は個別にプロファイリングされます。
クイック統計は、データとその品質の基本的な全体像を把握するのに役立ちます。
ドキュメントやメタデータでは、情報が欠落したり、不完全な情報、古い情報または信頼できない情報が含まれていることがよくあります。データ自体を分析してデータの明確な全体像を把握することが重要です。これにより、誤った前提に基づいて誤った判断をすることを防ぎます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
クイック・プロファイリング統計の取得の対象にする属性を指定します。 |
オプション |
なし。 |
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
次のフラグが出力されます。
|
クイック統計プロファイラでは、統計を生成するためにレコードのバッチが必要です(たとえば、分析対象の属性ごとに重複値の数を調べるために)。したがって、処理が完了するまで結果が生成されないため、これはリアルタイム・レスポンスが必要なプロセスには適していません。
リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、リーダー・プロセッサで構成されたコミット・ポイント(トランザクションまたは制限時間)に到達すると処理が終了します。
次の表に、このプロファイラによって各属性ごとに生成される統計を示します。
統計 | 説明 |
---|---|
データあり |
その属性にデータを含むレコードの数。 |
データなし |
その属性にデータを含まないレコードの数。これには、NULL値を含むレコードや、その他のタイプの非データ(スペースのみ、印刷不可能な文字など)を含むレコードも含まれます。数値をドリルダウンすると、検出された非データのタイプの明細が表示されます。 |
シングルトン |
その属性で1回のみ検出された値を含むレコードの数。 |
重複 |
その属性で複数回検出された値を含むレコードの数。 |
個別 |
その属性で検出された異なる値の数。数値をドリルダウンすると、これらの値の明細が出現頻度別に表示されます。 |
コメント |
クイック統計プロファイラの結果に基づいた自動コメント。後述の説明を参照してください。 |
「追加情報」ボタンをクリックすると、前述の統計が、分析対象レコードの総数に対するパーセンテージとして表示されます。
自動コメント
自動コメントは、データ内で関心を集める可能性がある部分を強調するために生成されます。次に例を示します。
-
属性が100%完全で一意の場合は、候補キーとして識別されます
-
属性が100%完全に近く一意の場合は、破損した可能性があるキーとして強調表示されます
-
属性が100%完全に近い(空白を含むことはできない)場合は、ユーザーにnullの調査を要求するコメントが表示されます
-
属性が100%一意に近い(重複が許容されない)場合は、ユーザーに重複の調査を要求するコメントが表示されます
-
属性に重複しない値が1つのみ含まれている場合は、その属性が冗長である可能性があることを示すコメントが表示されます
これらのコメントが複数適用されると、各コメントが連結されます。
例
この例では、クイック統計プロファイラを使用して、最初に顧客レコード表の概要を把握します。
表1-123 クイック統計プロファイラの例
入力フィールド | レコード合計 | データあり | データなし | シングルトン | 重複 | 固有の値 |
---|---|---|---|---|---|---|
CU_NO |
2001 |
2000 |
1 |
1997 |
3 |
1998 |
CU_ACCOUNT |
2001 |
2000 |
1 |
2000 |
0 |
2000 |
TITLE |
2001 |
1862 |
139 |
3 |
1859 |
8 |
NAME |
2001 |
2000 |
1 |
1980 |
20 |
1990 |
GENDER |
2001 |
1853 |
148 |
0 |
1853 |
2 |
BUSINESS |
2001 |
1670 |
331 |
1629 |
41 |
1649 |
ADDRESS1 |
2001 |
1999 |
2 |
1926 |
73 |
1954 |
ADDRESS2 |
2001 |
1921 |
80 |
554 |
1367 |
839 |
ADDRESS3 |
2001 |
1032 |
969 |
278 |
754 |
379 |
POSTCODE |
2001 |
1762 |
239 |
1604 |
158 |
1672 |
AREA_CODE |
2001 |
1884 |
117 |
64 |
1820 |
270 |
TEL_NO |
2001 |
1994 |
7 |
1875 |
119 |
1934 |
電子メール |
2001 |
1936 |
65 |
1904 |
32 |
1920 |
ACC_MGR |
2001 |
1996 |
5 |
0 |
1996 |
30 |
DT_PURCHASED |
2001 |
1998 |
3 |
1090 |
908 |
1499 |
DT_ACC_OPEN |
2001 |
1998 |
3 |
1093 |
905 |
1500 |
DT_LAST_PAYMENT |
2001 |
1997 |
4 |
1026 |
971 |
1425 |
DT_LAST_PO_RAISED |
2001 |
1998 |
3 |
1003 |
995 |
1433 |
BALANCE |
2001 |
1999 |
2 |
7 |
1992 |
10 |
ほとんどの場合、サマリー・ビューの数値をドリルダウンすると、レコードが直接表示されます。ただし、数値から中間ビューが表示される場合もあります。
-
サマリー・ビューで「BUSINESS」の重複数の値である41をドリルダウンすると、各重複値の頻度が表示されます。
-
サマリー・ビューで「TITLE」の固有の値の数である8をドリルダウンすると、各固有値の頻度が表示されます。
-
サマリー・ビューで「POSTCODE」のデータなしの数239をドリルダウンすると、検出された様々なデータなしのケースについてサマリー・ビューが表示されます(スナップショットでデフォルトの「データ処理なし」参照データ・マップが使用された場合は、これらすべてがNull値になることに注意してください)。