成分からクラスタへ

期待値最大化により、モデル・コンポーネントが高レベルのクラスタへ割り当てられます。

期待値最大化(EM)モデルの成分は、通常、クラスタとして扱われます。ただし、このアプローチでは問題が発生する可能性があります。密集性の高いクラスタは、通常、複数の成分によってモデル化されます。EMで使用される確率密度関数の形状によって、識別されたクラスタの形状が効率的に前もって決定されます。たとえば、ガウス密度関数では、単一ピークの対称クラスタを識別できます。より複雑な形状のクラスタは、複数の成分によってモデル化される必要があります。

任意の形状の高密度領域は、単一クラスタとして解釈される必要があります。これを実現するため、Oracle Machine Learning for SQLによるEM実装では、個々の成分の分布の重複に基づいた成分階層を構築します。OML4SQLのEMでは、凝集型階層クラスタリングを使用します。成分分布の重複は、バタチャリア距離関数を使用して測定されます。階層内の適切なカットオフ・レベルを選択すると、高レベル・クラスタの数が自動的に決定されます。

OML4SQLによるEM実装では、モデル成分の高レベル・クラスタへの割当てが生成されます。平均、分散、最頻値、ヒストグラムおよびルールなどの統計では、追加で高レベル・クラスタを説明します。アルゴリズムは、クラスタリング割当てを成分レベルで生成するか、クラスタ・レベルで生成するように構成できます。