確率密度推定

確率密度を使用して信頼性の高いクラスタ割当てを計算できます。

密度推定の目的は、所与の母集団がどのように分布しているかを取得する密度関数を構成することです。確率密度推定において、密度推定値は、母集団のサンプルを表現する観測済データに基づきます。モデル内の高データ密度の領域は、基礎となる分布のピークに対応します。

密度ベースのクラスタリングは、強調がクラスタ内の最小の距離および最大の距離に配置される距離ベースのクラスタリング(k-Meansなど)とは概念的に異なります。密度ベースのクラスタリングは、確率的な性質を持つため、クラスタ割当てで信頼性の高い確率を計算できます。欠損値を自動的に処理することもできます。

分布ベースの異常検出アルゴリズムは、オブジェクトの確率密度がデータ・セット内の他のデータ・レコードの密度より低い場合に、そのオブジェクトを外れ値として識別します。EM異常アルゴリズムは、基礎となるデータ分布を取得できるため、学習したデータ分布に適合しないレコードにフラグを設定できます。