アルゴリズムの拡張

標準形式のいくつかの課題を解決するために、期待値の最大化(EM)が拡張されています。

EMは分布ベースのアルゴリズムとして確立されていますが、その標準形式では多少扱いづらいところがあります。Oracle Machine Learning for SQLの実装には、大容量データのスケーラブルな処理や自動パラメータ初期化などの重要な拡張が含まれています。EMクラスタリングおよびEM異常の固有の制限事項に対処するために、OML4SQLで使用される方針についてさらに説明します。

ノート:

EMの略称は、ここでは、EMクラスタリングとEM異常の両方に共通する確率密度推定の一般的なEM手法を指すために使用します。

標準の期待値最大化の制限事項:

  • スケーラビリティ: EMには、レコードと属性の数に応じた線形のスケーラビリティがあります。収束に至るまでの反復回数は、増大するデータ・サイズ(行と列の両方)に伴って増加する傾向があります。EMの収束は、複雑な問題に対応する場合は速度が低下し、計算リソースに相当な負荷をかける可能性があります。

  • 高いディメンション性: EMにおける高次元(ワイド)データのモデリング用の容量には制限があります。多くの属性の存在がモデルの収束速度を低下させ、アルゴリズムが意味のある属性とノイズを区別する能力も低下します。そのため、アルゴリズムによる相関検出能力は弱まります。

  • 成分数: EMでは、通常、ユーザーが成分数を指定する必要があります。ほとんどの場合、これは、ユーザーが前もって知ることができる情報ではありません。

  • パラメータ初期化: 適切な初期パラメータ値の選択が、モデルの品質に重大な影響を与えることがあります。EMに使用されている初期化の方針は、一般的に、計算上高い負荷を伴います。

  • 成分からクラスタへ: EMクラスタリング・モデルでは、通常、成分はクラスタとして扱われます。密集性の高いクラスタは、通常、複数の成分によってモデル化されるため、このアプローチには問題があります。複雑な形状を持つクラスタは、複数の成分によってモデル化される必要があります。これを実現するため、Oracle Machine Learning for SQLによるEMクラスタリング実装では、個々の成分の分布の重複に基づいて成分階層が作成されます。OML4SQL EMクラスタリング・アルゴリズムでは、凝集型階層クラスタリングを採用しています。OML4SQLによるEMクラスタリング実装では、高レベル・クラスタへのモデルの成分の割当てが生成されます。

  • 異常検出: EM異常検出では、オブジェクトが正常か異常かを分類するために異常確率が使用されます。EMアルゴリズムは、異常の確率にマップされるデータ・レコードの確率密度を推定します。