1.3.6.3 データ型プロファイラ
データ型プロファイラは、属性値が一貫したデータ型(テキスト、数値または日付)に準拠しているかどうかを評価するために、複数の属性の内容を分析します。
データ型プロファイラは、データ内の各属性で検出されたデータ型を把握し、データ型が一貫しているかどうかを評価するために使用します。これにより、たとえばデータが誤ったフィールドに入力されたり、データ型制約と異なるデータ型で入力された場合のように、データ型が正しくない値を検出します。
データ型プロファイラは、次の3つの基本データ型を探します。
-
日付: 構成可能な日付書式のリストと一致する値全体
-
数値: 完全な数値(12、56.2、-0.087など)
-
テキスト: その他の値(テキスト文字列、テキストと数値が混合した値など)。
Null値は、前述のデータ型とは別にカウントされます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
データ型の一貫性の分析対象にする属性を指定します。 |
オプション |
指定できるオプションを記述します。 |
認識される日付書式のリスト |
様々な書式の日付を認識します。参照データ(日付書式カテゴリ)として指定します。デフォルト値は*「日付書式」です(ノートを参照)。 |
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
なし。 |
データ型チェックで使用する日付書式参照データは、標準のJava 1.6.0以降のSimpleDateFormat APIに準拠している必要があります。
日付が正しく認識されるように参照データ・エントリを追加する方法の詳細は、Javaのオンライン・ドキュメントを参照してください(http://java.sun.com/j2se/1.5.0/docs/api/java/text/SimpleDateFormat.html
)。
ノート:
日付書式参照データに含まれる有効な日付書式yyyyMMdd
は、このプロセッサでは認識されません。これは、この書式に英字やセパレータが含まれていないため、8桁の数値と区別できないためです。
ノート:
データ型プロファイラでは、プロセッサに入力されたレコードのセットについて計算された一貫性のパーセンテージの統計が生成されます。リアルタイム・モニタリング・プロセスでは、このセットはリーダーの構成可能なコミット・ポイント(複数のトランザクション、または制限時間として定義される)によって制限されます。データ型プロファイラを使用するプロセスがリアルタイム・レスポンス・プロセスとして実行されると、レコードは1つずつ処理されるため、この一貫性の測定は常に100%になります。
次の表に、このプロファイラによって生成される統計情報を示します。分析されたレコードの数に加えて、属性ごとに次の統計が結果ブラウザに表示されます。
統計 | 説明 |
---|---|
テキスト |
テキスト書式として認識された値の数。 |
日付 |
日付書式として認識された値の数。 |
数値 |
数値書式として認識された値の数。 |
%整合性 |
各属性のデータ型の一貫性の計算値。つまり、最も多いデータ型と一致したと認識された値のパーセンテージです。 |
例
この例では、顧客レコード表のすべての属性に対してデータ型プロファイラを実行します。
表1-121 データ型プロファイラの例
入力フィールド | 合計数 | テキスト書式 | 数値書式 | 日付/時刻書式 | Null値 | 整合性% |
---|---|---|---|---|---|---|
CU_ACCOUNT |
2001 |
2000 |
0 |
0 |
1 |
>99.9 |
TITLE |
2001 |
1862 |
0 |
0 |
139 |
93.1 |
NAME |
2001 |
2000 |
0 |
0 |
1 |
>99.9 |
GENDER |
2001 |
1853 |
0 |
0 |
148 |
92.6 |
BUSINESS |
2001 |
1670 |
0 |
0 |
331 |
83.5 |
ADDRESS1 |
2001 |
1999 |
0 |
0 |
2 |
>99.9 |
ADDRESS2 |
2001 |
1922 |
0 |
0 |
79 |
96.1 |
ADDRESS3 |
2001 |
1032 |
0 |
0 |
969 |
51.6 |
POSTCODE |
2001 |
1765 |
0 |
0 |
236 |
88.2 |
電子メール |
2001 |
1936 |
0 |
0 |
65 |
96.8 |
ACC_MGR |
2001 |
1996 |
0 |
0 |
5 |
99.8 |
DT_PURCHASED |
2001 |
0 |
0 |
1998 |
3 |
99.9 |
DT_ACC_OPEN |
2001 |
0 |
0 |
1998 |
3 |
99.9 |