例: 高頻度項目セットからのルールの計算
高頻度項目セットからのルールを計算する例。
次の表に、「相関」で計算した項目セットおよび高頻度項目セットを示します。高頻度項目セットは、67%の最小支持度で発生する項目セットであり、3つのトランザクションのうち少なくとも2つにこの項目セットが含まれている必要があります。
表7-9 項目セット
トランザクション | 項目セット |
---|---|
11 |
(B,D) (B,E) (D,E) (B,D,E) |
12 |
(A,B) (A,C) (A,E) (B,C) (B,E) (C,E) (A,B,C) (A,B,E) (A,C,E) (B,C,E) |
13 |
(B,C) (B,D) (B,E) (C,D) (C,E) (D,E) (B,C,D) (B,C,E) (B,D,E) (C,D,E) |
表7-10 最小支持度67%の高頻度項目セット
項目セット | トランザクション | 支持度 |
---|---|---|
(B,C) |
12および13 |
67% |
(B,D) |
11および13 |
67% |
(B,E) |
11、12および13 |
100% |
(C,E) |
12および13 |
67% |
(D,E) |
11および13 |
67% |
(B,C,E) |
12および13 |
67% |
(B,D,E) |
11および13 |
67% |
ルールは条件付き確率を表しています。ルールの信頼度は、項目が同時に発生する確率を前件の発生確率で除算して計算されます。
たとえば、B (前件)が存在する場合、C (後件)も存在する可能性はどのくらいでしょうか。「Bの場合、C」というルールの信頼度はどのくらいでしょうか。
表7-9から、次のことがわかります:
-
3つのトランザクションにはすべてBが含まれている(3/3または100%)。
-
2つのトランザクションのみにBとCの両方が含まれている(2/3または67%)。
-
したがって、ルール「Bの場合、C」の信頼度は、67/100または67%である。
次の表に、表7-10の高頻度項目セットから導出できるルールを示します。
表7-11 高頻度項目セットとルール
高頻度項目セット | ルール | 確率(前件と後件) /確率(前件) | 信頼度 |
---|---|---|---|
(B,C) |
|
|
|
(B,D) |
|
|
|
(B,E) |
|
|
|
(C,E) |
|
|
|
(D,E) |
|
|
|
(B,C,E) |
|
|
|
(B,D,E) |
|
|
|
最小信頼度が70%の場合、これらの高頻度項目セットについて10のルールが生成されます。最小信頼度が60%の場合、16のルールが生成されます。
ヒント:
モデルの作成時間を短縮し、生成されるルールの数を減らすには、最小信頼度の値を大きくします。
関連トピック