1.3.6.6 頻度プロファイラ
頻度プロファイラは、各属性を調べて、各属性に含まれる値を出現頻度に基づいて集計して返します。
頻度プロファイラは、データ内で出現頻度の高い値と低い値を検出するのに使用する、重要なプロファイリング・ツールの1つです。頻度プロファイリングの結果を使用して各データ属性の有効値と無効値の参照リストを構築し、検証に利用できます。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
値の出現頻度の分析対象にする属性を指定します。 |
オプション |
なし。 |
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
なし。 |
頻度プロファイラでは、統計を生成するためにレコードのバッチが必要です(たとえば、分析対象の各属性で値が出現する頻度を調べるために)。したがって、処理が完了するまで結果が生成されないため、これはリアルタイム・レスポンスが必要なプロセスには適していません。
リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、リーダー・プロセッサで構成されたコミット・ポイント(トランザクションまたは制限時間)に到達すると処理が終了します。
次の表に、頻度プロファイラの分析対象の各属性に関する統計を示します。結果ブラウザでは、各属性が個別のタブに表示されることに注意してください。
統計 | 説明 |
---|---|
値 |
検出された値。 |
カウント |
属性内でその値が出現する回数 |
% |
分析対象のレコードの中で、属性にその値を含むレコードのパーセンテージ。 |
例
この例では、顧客レコード表のTitle属性に対して頻度プロファイラを実行しています。次のサマリー・ビューが表示されます。
値 | カウント | % |
---|---|---|
Mr |
816 |
40.8 |
Ms |
468 |
23.4 |
Mrs |
309 |
15.4 |
Miss |
251 |
12.5 |
[Null] |
139 |
6.9 |
Dr |
15 |
0.7 |
Prof. |
1 |
<0.1 |
Col. |
1 |
<0.1 |
Rev |
1 |
<0.1 |
「カウント」列を基準にビューをソートすると、分析対象の各属性で出現頻度が最も高い値と最も低い値をすばやく把握でき、有効値と無効値の参照データ・リストを構築できます。