監視なしマイニング機能であるクラスタリングを通じてデータの自然なグループを検出する方法を学習します。
関連項目:
監視なしデータ・マイニングの概要は、「Oracle Data Miningの基礎」を参照してください
クラスタリング分析では、相互に類似性を持つデータ・オブジェクトの集まり(クラスタ)を見つけます。つまり、あるクラスタのメンバーは、別のクラスタのメンバーよりも同じクラスタのメンバーに類似していることになります。異なるクラスタには、共通のメンバーを含めることができます。クラスタリング分析の目的は、クラスタ間の類似度が低くなり、クラスタ内の類似度が高くなるような、質の高いクラスタを見つけることです。
クラスタリングは、分類と同じくデータを分割するために使用します。クラスタリング・モデルが分類と異なるのは、事前に定義されていないグループにデータを分割する点です。分類モデルの場合は、あらかじめ定義済のクラスをターゲットとして指定し、それらのクラスに割り当てることによってデータを分割します。クラスタリング・モデルではターゲットを使用しません。
クラスタリングはデータの調査に役立ちます。ケース数が多くグループが明らかでない場合、クラスタリング・アルゴリズムを使用すると、自然なグループを見つけることができます。
クラスタリングは、監視ありモデルを作成できる同種グループを識別するためのデータの前処理手段として有効です。
また、異常検出のためにクラスタリングを使用できます。データをいくつかのクラスタに分割した後に、どのクラスタにも適合しないケースがあることがわかります。これらのケースが異常値または外れ値です。
クラスタを計算する方法にはいくつかの種類があります。Oracle Data Miningでは、次の方法がサポートされます。
密度ベース: このタイプのクラスタリングでは、基礎となるデータ分布を検出し、データの高密度領域が分布のピークにどのように対応しているかを評価します。高密度領域は、クラスタとして解釈されます。密度ベースのクラスタ評価は、確率的です。
距離ベース: このタイプのクラスタリングでは、距離メトリックを使用してデータ・オブジェクト間の類似度を判別します。距離メトリックでは、クラスタの実際のケースとクラスタの典型的なケースとの間の距離を測定します。典型的なケースは、重心と呼ばれます。
グリッドベース: このタイプのクラスタリングでは、入力空間を超矩形セルに分割し、隣り合う高密度セルを識別してクラスタを形成します。
クラスタリングは監視なしマイニング機能ですが、Oracle Data Miningでは、クラスタリングのスコアリング操作がサポートされます。新しいデータは、確率的にスコアリングされます。
クラスタリングでは既知のクラスを使用しないため、クラスタの解釈が難しい場合があります。ビジネスの意思決定に使用するにあたってクラスタが信頼できるものかどうか、どのようにして判断すればよいのでしょうか。
Oracle Data Miningのクラスタリング・モデルでは、高度なモデルの透明性が確保されています。クラスタリング・アルゴリズムによって生成される情報を調べることでモデルを評価できます(距離ベースのクラスタの重心など)。さらに、クラスタリング・プロセスは階層的であるため、階層内での各クラスタの位置に関連するルールなどの情報を評価できます。
Oracle Data Miningでは、次のクラスタリング・アルゴリズムがサポートされます。
期待値最大化
期待値最大化は、確率的な密度推定クラスタリング・アルゴリズムです。
k-Means
k-Meansは、距離ベースのクラスタリング・アルゴリズムです。Oracle Data Miningでは、k-Meansの拡張バージョンがサポートされる。
直交パーティショニング・クラスタリング(O-Cluster)
O-Clusterは、独自のグリッドベースのクラスタリング・アルゴリズムです。
関連項目:
『O-Cluster: Scalable Clustering of Large High Dimensional Data Sets』(Campos, M.M.、Milenova, B.L共著、Oracle Data Mining Technologies, 10 Van De Graaff Drive, Burlington, MA 01803)
次の表に、2つのアルゴリズムの主な特徴の比較を示します。
表7-1 クラスタリング・アルゴリズムの比較
機能 | k-Means | O-Cluster | 期待値最大化 |
---|---|---|---|
クラスタリングの方法 |
距離ベース |
グリッドベース |
分布ベース |
ケース数 |
任意のサイズのデータセットを処理可能 |
ケース数が500を超えるデータセットにより適している。アクティブなサンプリングによって大きい表を処理する |
任意のサイズのデータセットを処理可能 |
属性数 |
属性数が少ないデータセットにより適している |
属性数が多いデータセットにより適している |
属性数が多いまたは少ないデータセットに適している |
クラスタ数 |
ユーザーが指定する |
自動的に決定される |
自動的に決定される |
階層クラスタリング |
はい |
はい |
はい |
確率的なクラスタの割当て |
はい |
はい |
はい |
注意:
Oracle Data Miningでは、デフォルトのクラスタリング・アルゴリズムとしてk-Meansを使用します。