17 O-Cluster

この章では、Oracle独自のクラスタリング・アルゴリズムである直行パーティショニング・クラスタリング（O-Cluster）について説明します。

O-Clusterとは

O-Clusterアルゴリズムは、グリッドベースの階層クラスタリング・モデルを作成します。つまり、軸並行な（直行の）パーティションを入力属性空間に作成します。このアルゴリズムは再帰的に作用します。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになります。生成されるクラスタは、属性空間内の密度の高い領域を定義します。

クラスタは、属性軸沿いの間隔と、対応する重心およびヒストグラムによって記述されます。sensitivityというパラメータで、基準となる密度レベルを定義します。最大密度がこの基準レベルを上回る領域のみを、クラスタとして認識できます。

k-meansアルゴリズムの場合、自然なクラスタが存在しない可能性があっても、空間を分割します。たとえば、密度が均一な領域がある場合、k-Meansは、その領域をn個のクラスタ（nはユーザー指定）に分割します。O-Clusterは、低密度の領域に切断面を配置して、高密度の領域を切り離します。O-Clusterでは、複数の最頻値を持つヒストグラム（ピークと谷）を必要とします。ある領域に、密度が均一または単調に変化している投影がある場合、O-Clusterはその領域をパーティション化しません。

O-Clusterによって発見されたクラスタを使用して、ベイズ確率モデルが生成されます。そして、このモデルがスコアリング（モデルの適用）の際に使用され、データ・ポイントをクラスタに割り当てます。生成される確率モデルは混合モデルで、混合要素は、量的属性の独立正規分布と質的属性の多項分布の積によって表されます。

O-Cluster用のデータ準備

O-Clusterに対する自動データ準備では、量的属性のビニングが実行されます。特殊な等幅ビニングを使用して、属性ごとのビンの数が自動的に計算されます。すべてNULLまたは単一の値を持つ数値列は除外されます。

O-Clusterでは、欠損値をそのまま（ランダムに欠損している値として）処理します。このアルゴリズムはネストした表をサポートしていません。したがって、スパース・データもサポートされません。

O-Cluster用のユーザー定義のデータ準備

O-Cluster用のデータをユーザー自身が準備する場合は、次の内容に留意してください。

O-Clusterでは、モデルを作成する際、必ずしもすべての入力データを使用するわけではありません。O-Clusterは、データをバッチで読み込みます（デフォルトのバッチ・サイズは50,000）。統計テストに基づいて、まだ見つかっていないクラスタが存在すると考えられる場合にのみ、別のバッチを読み込みます。

O-Clusterは、すべてのデータを読み込むことなくモデルの作成を停止する場合があるので、データをランダム化しておくことをお薦めします。
2項属性は、質的属性として宣言する必要があります。O-Clusterは、質的データを数値にマップします。
ビンの必要数の概算が自動化されたOracle Data Miningの等幅ビニング変換を使用することをお薦めします。
外れ値が存在すると、クラスタリング・アルゴリズムに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。等幅ビニングで外れ値が存在すると、O-Clusterでクラスタを検出できなくなる場合があります。その結果、母集団全体が1つのクラスタ内に含まれているように見えます。