1.3.6.3 データ型プロファイラ

データ型プロファイラは、属性値が一貫したデータ型(テキスト、数値または日付)に準拠しているかどうかを評価するために、複数の属性の内容を分析します。

データ型プロファイラは、データ内の各属性で検出されたデータ型を把握し、データ型が一貫しているかどうかを評価するために使用します。これにより、たとえばデータが誤ったフィールドに入力されたり、データ型制約と異なるデータ型で入力された場合のように、データ型が正しくない値を検出します。

データ型プロファイラは、次の3つの基本データ型を探します。

  • 日付: 構成可能な日付書式のリストと一致する値全体

  • 数値: 完全な数値(12、56.2、-0.087など)

  • テキスト: その他の値(テキスト文字列、テキストと数値が混合した値など)。

Null値は、前述のデータ型とは別にカウントされます。

次の表に、構成オプションを示します。

構成 説明

入力

データ型の一貫性の分析対象にする属性を指定します。

オプション

指定できるオプションを記述します。

認識される日付書式のリスト

様々な書式の日付を認識します。参照データ(日付書式カテゴリ)として指定します。デフォルト値は*「日付書式」です(ノートを参照)。

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

なし。

フラグ

なし。

データ型チェックで使用する日付書式参照データは、標準のJava 1.6.0以降のSimpleDateFormat APIに準拠している必要があります。

日付が正しく認識されるように参照データ・エントリを追加する方法の詳細は、Javaのオンライン・ドキュメントを参照してください(http://java.sun.com/j2se/1.5.0/docs/api/java/text/SimpleDateFormat.html)。

ノート:

日付書式参照データに含まれる有効な日付書式yyyyMMddは、このプロセッサでは認識されません。これは、この書式に英字やセパレータが含まれていないため、8桁の数値と区別できないためです。

ノート:

データ型プロファイラでは、プロセッサに入力されたレコードのセットについて計算された一貫性のパーセンテージの統計が生成されます。リアルタイム・モニタリング・プロセスでは、このセットはリーダーの構成可能なコミット・ポイント(複数のトランザクション、または制限時間として定義される)によって制限されます。データ型プロファイラを使用するプロセスがリアルタイム・レスポンス・プロセスとして実行されると、レコードは1つずつ処理されるため、この一貫性の測定は常に100%になります。

次の表に、このプロファイラによって生成される統計情報を示します。分析されたレコードの数に加えて、属性ごとに次の統計が結果ブラウザに表示されます。

統計 説明

テキスト

テキスト書式として認識された値の数。

日付

日付書式として認識された値の数。

数値

数値書式として認識された値の数。

%整合性

各属性のデータ型の一貫性の計算値。つまり、最も多いデータ型と一致したと認識された値のパーセンテージです。

この例では、顧客レコード表のすべての属性に対してデータ型プロファイラを実行します。

表1-121 データ型プロファイラの例

入力フィールド 合計数 テキスト書式 数値書式 日付/時刻書式 Null値 整合性%

CU_ACCOUNT

2001

2000

0

0

1

>99.9

TITLE

2001

1862

0

0

139

93.1

NAME

2001

2000

0

0

1

>99.9

GENDER

2001

1853

0

0

148

92.6

BUSINESS

2001

1670

0

0

331

83.5

ADDRESS1

2001

1999

0

0

2

>99.9

ADDRESS2

2001

1922

0

0

79

96.1

ADDRESS3

2001

1032

0

0

969

51.6

POSTCODE

2001

1765

0

0

236

88.2

電子メール

2001

1936

0

0

65

96.8

ACC_MGR

2001

1996

0

0

5

99.8

DT_PURCHASED

2001

0

0

1998

3

99.9

DT_ACC_OPEN

2001

0

0

1998

3

99.9