1.2.3.3 ダッシュボードの指数
指数ではルール結果が集計されますが、指数を階層的に集計して、複数の指数の指数を作成することもできます。たとえば、データ品質指数は、多数のソース・システム、または多数のデータ・タイプ(顧客、製品など)のそれぞれに対して作成できます。その後、これらの指数を集計して全体的なデータ品質指数を作成できます。
指数は常にダッシュボード管理で構成されます。
指数の計算
指数値は、単独ではほとんど意味がありません。ただし、スコアは1つまたは複数のプロセス(一定期間)の多数の実行の結果から計算されるため、ビジネス・ユーザーは傾向分析によって指数が上昇しているか下降しているかを監視できます。これは、FTSE100指数と類似しています。
より高い指数は、データ品質スコアが高いことを表します。デフォルトでは、最高DQ指数スコアは1000です。
ルール結果の指数
指数が多数のルール結果で構成される場合は、関連結果全体の加重平均として計算されます。
たとえば、顧客データDQ指数が次のルール結果および加重で構成されるとします。
表1-8 ルール結果および加重
関連ルール | 加重 |
---|---|
電子メール・アドレスの検証 |
12.5% |
住所の検証 |
25% |
敬称/性別の不一致 |
37.5% |
名前の検証 |
25% |
この構成では、住所の検証と名前の検証ルールは、デフォルト加重の25% (4つのルール全体の加重の1/4)ですが、管理者は、他のルールには異なる加重を指定しており、電子メール・アドレスの検証ルールは重要度が低いと解釈され、敬称/性別の不一致は重要度が高いと解釈されています。
このため、実際の指数スコアは、各関連ルールに対して内部的に計算される指数スコア全体の加重平均として計算されます。
ルールごとに、1000 (または構成された基準最高点)に対する指数スコアが次のように計算され、ここで、合格に対しては10点、警告に対しては5点が与えられ、アラートに対しては点数は与えられません。
(((# of passes * 10) + (# of warnings * 5)) / (# of checks *10)) * 1000
たとえば、関連ルールの結果が次のとおりであるとします。
表1-9 関連ルールの結果
ルール | チェック数 | 合格数 | 警告数 | アラート数 |
---|---|---|---|---|
電子メール・アドレスの検証 |
1000 |
800 (80%) |
100 (10.0%) |
100 (10.0%) |
住所の検証 |
1000 |
800 (80%) |
0 (0%) |
200 (20.0%) |
敬称/性別の不一致 |
1000 |
800 (80%) |
0 (0%) |
200 (20.0%) |
名前の検証 |
1000 |
800 (80%) |
0 (0%) |
200 (20.0%) |
各関連ルールの指数スコアは、次のようになります。
表1-10 指数スコア
ルール | 指数スコアの計算 | 指数スコア |
---|---|---|
電子メール・アドレスの検証 |
800合格* 10点= 8000 + 100警告* 5点= 500 合計 = 8500 1000チェック* 10 = 10000 8500/10000 = 0.85 * 1000 = 850 |
850 |
住所の検証 |
800合格* 10点= 8000+ 0警告* 5点= 0 合計 = 8000 1000チェック* 10 = 10000 8000/10000 = 0.8 * 1000 = 800 |
800 |
敬称/性別の不一致 |
800合格* 10点= 8000+ 0警告* 5点= 0 合計 = 8000 1000チェック* 10 = 10000 8000/10000 = 0.8 * 1000 = 800 |
800 |
名前の検証 |
800合格* 10点= 8000+ 0警告* 5点= 0 合計 = 8000 1000チェック* 10 = 10000 8000/10000 = 0.8 * 1000 = 800 |
800 |
次に、全体指数スコアが、加重を使用して次のように計算されます。
Validate email address score (850) * Validate email address weight (0.125) = 106.25 + Validate address score (800) * Validate address weight (0.25) = 200 + Title/gender mismatch score (800) * Title/gender mismatch weight (0.375) = 300 + Validate name score (800) * Validate name weight (0.25) = 200
顧客データDQ指数スコアの合計は806.25で、表示目的で806.3に切り上げられます。
複数の指数の指数
他の複数の指数を集計するために1つの指数が作成される場合、その指数は、単に関連指数の加重平均として計算されます。たとえば、ユーザーが他の多数の指数全体の指数を次のように設定するとします。
表1-11 関連指数
関連指数 | 加重 |
---|---|
顧客データ指数 |
50% |
担当者データ指数 |
25% |
受注データ指数 |
25% |
各指数の指数値が次のとおりであるとします。
表1-12 関連指数の加重平均
関連指数 | 指数スコア |
---|---|
顧客データ指数 |
825.0 |
担当者データ指数 |
756.8 |
受注データ指数 |
928.2 |
指数は次のように計算されます。
Customer data index (825) * Customer data index weight (0.50) = 412.5 + Contact data index (756.8) * Contact data index weight (0.25) = 189.2 + Order data index (928.2) * Order data index weight (0.25) = 232.5
全体のデータ品質指数の値は834.2です。
時間差のある監査結果の指数
指数では、多数のプロセスの結果が集計されることがあります。通常、この集計フォームは、プロセスが同じ間隔で実行される場合に使用されると想定しています。しかし、これは保証できません。指数に関連するプロセスが同期しない場合があります。たとえば、2つのデータ品質監査プロセスが実行されるとします。指数は両方のプロセスのルール結果を集計するように構成されており、指数履歴の結果が次のように公開されます。
表1-13 指数履歴の結果
日付 | 次の顧客監査プロセスの実行結果 | 次の担当者監査プロセスの実行結果 |
---|---|---|
12/06/05 |
12/06/05 |
12/06/05 |
13/06/05 |
13/06/05 |
12/06/05 |
14/06/05 |
13/06/05 |
14/06/05 |
15/06/05 |
15/06/05 |
14/06/05 |
16/06/05 |
16/06/05 |
16/06/05 |
これは、指数に対する結果を、その関連プロセスの1つが実行されるたびに再計算することによって機能します。各プロセスの最終実行の結果が使用され、以前に計算された別の日付(日)に対する指数の結果が上書きされます。