Aprioriについて

Aprioriを使用して、多数の項目に含まれる頻度の低いイベントにかかわる相関を見つける方法を学習します。

相関の機械学習の問題は、次の下位問題に分解できます。

  • 指定した最小頻度で発生する一連のトランザクションですべての項目の組合せを見つける。これらの組合せは高頻度項目セットと呼ばれます。

  • 高頻度項目セット内で見込まれる項目の同時発生性を表すルールを計算する。

Aprioriは、高頻度項目セット内で別の項目が存在する場合に、ある項目が存在する確率を計算します。

項目数が多い問題領域で頻度の低いイベントがかかわる相関を見つける場合は、相関ルールの機械学習はお薦めできません。Aprioriでは、頻度が最小支持度のしきい値を超えるパターンを発見します。したがって、頻度の低いイベントを含む相関を見つけるためには、最小支持度をかなり低くしてアルゴリズムを実行する必要があります。しかし、このようにすると、特に項目数が多いときに、列挙される項目セットの数が極端に多くなります。このような場合、実行時間が著しく長くなります。データに多くの属性が含まれるときに頻度の低いイベントを見つけるには、分類異常検出の方が最適な方法です。

Aprioriの作成プロセスはパラレル実行をサポートします。