7 クラスタリング

この章では、データ内の自然なグループを検出するための監視なしマイニング機能であるクラスタリングについて説明します。

クラスタリングとは

クラスタリング分析では、相互になんらかの類似性を持つデータ・オブジェクトの集まり(クラスタ)を見つけます。つまり、あるクラスタのメンバーは、別のクラスタのメンバーよりも同じクラスタのメンバーに類似していることになります。クラスタリング分析の目的は、クラスタ間の類似度が低くなり、クラスタ内の類似度が高くなるような、質の高いクラスタを見つけることです。

クラスタリングは、分類と同じくデータを分割するために使用します。クラスタリング・モデルが分類と異なるのは、事前に定義されていないグループにデータを分割する点です。分類モデルの場合は、あらかじめ定義済のクラスをターゲットとして指定し、それらのクラスに割り当てることによってデータを分割します。クラスタリング・モデルではターゲットを使用しません。

クラスタリングはデータの調査に役立ちます。ケース数が多くグループが明らかでない場合、クラスタリング・アルゴリズムを使用すると、自然なグループを見つけることができます。

クラスタリングは、監視ありモデルの作成対象となる同種グループを識別するためのデータの前処理手段として有効です。

クラスタリングは、異常検出にも使用できます。データがいくつかのクラスタに分割された後に、どのクラスタにも適合しないケースを検出することが可能です。これらのケースが異常値または外れ値です。

クラスタの計算方法

クラスタを計算する方法にはいくつかの種類があります。Oracle Data Miningでは、距離ベースおよびグリッド・ベースのクラスタリングがサポートされています。

距離ベース - このタイプのクラスタリングでは、距離メトリックを使用してデータ・オブジェクト間の類似度を判別します。距離メトリックでは、クラスタの実際のケースとクラスタの典型的なケースとの間の距離を測定します。典型的なケースは、重心と呼ばれます。

Oracle Data Miningでは、距離ベースのクラスタリング・アルゴリズムであるk-Meansの拡張バージョンがサポートされています。
グリッドベース - このタイプのクラスタリングでは、入力空間を超矩形セルに分割し、低密度のセルを破棄してから、隣り合う高密度のセルを結合してクラスタを形成します。

Oracle Data Miningでは、固有のグリッド・ベースのクラスタリング・アルゴリズムである直交パーティショニング・クラスタリング(O-Cluster)がサポートされています。

参考:

『O-Cluster: Scalable Clustering of Large High Dimensional Data Sets』(Campos, M.M.、Milenova, B.L共著、Oracle Data Mining Technologies, 10 Van De Graaff Drive, Burlington, MA 01803)

http://www.oracle.com/technology/products/bi/odm/

新しいデータのスコアリング

Oracle Data Miningでは、クラスタリングのスコアリング操作をサポートしています。アルゴリズムによって検出されたクラスタは、新しいデータのスコアリングに使用できるベイズ確率モデルの生成に使用されます。

階層クラスタリング

Oracle Data Miningがサポートするクラスタリング・アルゴリズムは、階層クラスタリングを実行します。リーフ・クラスタは、アルゴリズムによって生成される最終クラスタです。階層内で上位にあるクラスタは中間クラスタです。

ルール

各クラスタ内のデータはルールによって説明されます。ルールとは、親クラスタを複数の子クラスタに分岐させるためのロジックを表した条件文です。ルールは、ある確率で特定のクラスタに割り当てられるケースについての条件を記述します。

支持度と信頼度

支持度および信頼度は、クラスタリング・ルールとケースとの関係を説明するメトリックです。支持度は、ルールに該当するケースの割合です。信頼度は、ルールによって説明されるケースが実際にクラスタに割り当てられる確率です。

クラスタリング・モデルの評価

クラスタリングでは既知のクラスを使用しないため、クラスタの解釈が難しい場合があります。ビジネスの意思決定に使用するにあたってクラスタが信頼できるものかどうか、どのようにして判断すればよいのでしょうか。

Oracle Data Miningのクラスタリング・モデルでは、高度なモデルの透明性が確保されています。クラスタリング・アルゴリズムによって生成される情報を調べることでモデルを評価できます(距離ベースのクラスタの重心など)。さらに、クラスタリング・プロセスは階層的であるため、階層内での各クラスタの位置に関連するルールなどの情報を評価できます。

クラスタリングのアルゴリズム

Oracle Data Miningは、k-MeansとO-Clusterという2つのクラスタリング・アルゴリズムをサポートしています。表7-1に、2つのアルゴリズムの主な特徴の比較を示します。

表7-1 クラスタリング・アルゴリズムの比較

特徴	k-Means	O-Cluster
クラスタリングの方法	距離ベース	グリッドベース
ケース数	任意のサイズのデータセットを処理可能	ケース数が500を超えるデータセットにより適している。アクティブなサンプリングによって大きな表を処理する。
属性数	属性数が少ないデータセットにより適している	属性数が多いデータセットにより適している
クラスタ数	ユーザーが指定する	自動的に決定される
階層クラスタリング	可	可
確率的なクラスタの割当て	可	可