クイック統計プロファイラ

クイック統計プロファイルは、複数のレコードまたはトランザクションについて、次の点に関する基本的な品質メトリックを提供します。

  • 候補キー列

  • 完全性データと欠落データ

  • 重複

  • 値の一意性と多様性

各入力属性は個別にプロファイリングされます。

クイック統計は、データとその品質の基本的な全体像を把握するのに役立ちます。

ドキュメントやメタデータでは、情報が欠落したり、不完全な情報、古い情報または信頼できない情報が含まれていることがよくあります。データ自体を分析してデータの明確な全体像を把握することが重要です。これにより、誤った前提に基づいて誤った判断をすることを防ぎます。

次の表に、構成オプションを示します。

構成 説明

入力

クイック・プロファイリング統計の取得の対象にする属性を指定します。

オプション

なし。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

なし。

フラグ

次のフラグが出力されます。

  • [Attribute name].Populated: どのレポートが移入済かを示します。使用可能な値はYまたはNです。

クイック統計プロファイラでは、統計を生成するためにレコードのバッチが必要です(たとえば、分析対象の属性ごとに重複値の数を調べるために)。したがって、処理が完了するまで結果が生成されないため、これはリアルタイム・レスポンスが必要なプロセスには適していません。

リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、リーダー・プロセッサで構成されたコミット・ポイント(トランザクションまたは制限時間)に到達すると処理が終了します。

次の表に、このプロファイラによって各属性ごとに生成される統計を示します。

統計 説明

データあり

その属性にデータを含むレコードの数。

データなし

その属性にデータを含まないレコードの数。これには、NULL値を含むレコードや、その他のタイプの非データ(スペースのみ、印刷不可能な文字など)を含むレコードも含まれます。数値をドリルダウンすると、検出された非データのタイプの明細が表示されます。

シングルトン

その属性で1回のみ検出された値を含むレコードの数。

重複

その属性で複数回検出された値を含むレコードの数。

個別

その属性で検出された異なる値の数。数値をドリルダウンすると、これらの値の明細が出現頻度別に表示されます。

コメント

クイック統計プロファイラの結果に基づいた自動コメント。後述の説明を参照してください。

「追加情報」ボタンをクリックすると、前述の統計が、分析対象レコードの総数に対するパーセンテージとして表示されます。

自動コメント

自動コメントは、データ内で関心を集める可能性がある部分を強調するために生成されます。次に例を示します。

  • 属性が100%完全で一意の場合は、候補キーとして識別されます

  • 属性が100%完全に近く一意の場合は、破損した可能性があるキーとして強調表示されます

  • 属性が100%完全に近い(空白を含むことはできない)場合は、ユーザーにnullの調査を要求するコメントが表示されます

  • 属性が100%一意に近い(重複が許容されない)場合は、ユーザーに重複の調査を要求するコメントが表示されます

  • 属性に重複しない値が1つのみ含まれている場合は、その属性が冗長である可能性があることを示すコメントが表示されます

これらのコメントが複数適用されると、各コメントが連結されます。

この例では、クイック統計プロファイラを使用して、最初に顧客レコード表の概要を把握します。

表1-123 クイック統計プロファイラの例

入力フィールド レコード合計 データあり データなし シングルトン 重複 固有の値

CU_NO

2001

2000

1

1997

3

1998

CU_ACCOUNT

2001

2000

1

2000

0

2000

TITLE

2001

1862

139

3

1859

8

NAME

2001

2000

1

1980

20

1990

GENDER

2001

1853

148

0

1853

2

BUSINESS

2001

1670

331

1629

41

1649

ADDRESS1

2001

1999

2

1926

73

1954

ADDRESS2

2001

1921

80

554

1367

839

ADDRESS3

2001

1032

969

278

754

379

POSTCODE

2001

1762

239

1604

158

1672

AREA_CODE

2001

1884

117

64

1820

270

TEL_NO

2001

1994

7

1875

119

1934

電子メール

2001

1936

65

1904

32

1920

ACC_MGR

2001

1996

5

0

1996

30

DT_PURCHASED

2001

1998

3

1090

908

1499

DT_ACC_OPEN

2001

1998

3

1093

905

1500

DT_LAST_PAYMENT

2001

1997

4

1026

971

1425

DT_LAST_PO_RAISED

2001

1998

3

1003

995

1433

BALANCE

2001

1999

2

7

1992

10

ほとんどの場合、サマリー・ビューの数値をドリルダウンすると、レコードが直接表示されます。ただし、数値から中間ビューが表示される場合もあります。

  • サマリー・ビューで「BUSINESS」の重複数の値である41をドリルダウンすると、各重複値の頻度が表示されます。

  • サマリー・ビューで「TITLE」の固有の値の数である8をドリルダウンすると、各固有値の頻度が表示されます。

  • サマリー・ビューで「POSTCODE」のデータなしの数239をドリルダウンすると、検出された様々なデータなしのケースについてサマリー・ビューが表示されます(スナップショットでデフォルトの「データ処理なし」参照データ・マップが使用された場合は、これらすべてがNull値になることに注意してください)。