高いディメンション性

期待値最大化により高次元データを処理します。

期待値最大化(EM)のOracle Machine Learning for SQLによる実装では、数千の属性を持つ高次元データを効率的に処理できます。これは、次の2段階のプロセスを通じて実行されます。

  • 単一列(ネストなし)属性のデータ空間が、ペアワイズ相関用に分析されます。他の属性と重大な相関性のある属性のみが、EM混合モデルに含まれます。アルゴリズムは、M個の最も相関性のある属性にディメンション性を制限するように構成することも可能です。

  • 同様のタイプのイベントを測定する高次元の(ネストした)量的データは、EMによってモデル化された低次元の特徴セットに投影されます。高次元の量的データの例として、テキスト、推奨事項、遺伝子発現、マーケット・バスケット・データなどがあります。