アルゴリズムの構成

期待値最大化(EM)を構成します。

Oracle Machine Learning for SQLでは、EMによって、ユーザーが初期化パラメータを指定したり、モデルの成分数を指定することなく、非常に大規模なデータセット(行と列の両方)を効果的にモデル化できます。アルゴリズムによって合理的なデフォルトが提供されますが、同時に柔軟性も得ることができます。

次のリストで、EMの構成可能ないくつかの要素について説明します。

  • ネストしていない列の独立属性をモデルに含めるかどうか。EMクラスタリングのデフォルトでは、システムで決定されます。EM異常の場合、各列の属性の極値は、属性自体の他の列への依存性が低い場合でも、潜在的な外れ値を示す可能性があります。したがって、デフォルトでは、アルゴリズムによってEM異常での属性の削除が無効化されます。

  • 量的属性にベルヌーイ分布またはガウス分布のどちらを使用するか。デフォルトでは、アルゴリズムによって最も適切な分布が選択されますが、個々の属性では異なる分布を使用できます。分布は、ユーザーによって指定されると、すべての量的属性に使用されます。

  • 収束基準を保持データセットまたはベイズ情報量規準(BIC)のどちらに基づかせるか。収束基準は、デフォルトでシステムによって決定されます。

  • 新しい成分をモデルに追加するために必要な対数尤度関数の値における割合の改善。デフォルトの割合は0.001です。

  • EMクラスタリングの場合、クラスタを個別の成分として定義するか、成分のグループとして定義するか。クラスタは、デフォルトで成分のグループに関連付けられます。

  • モデルの成分の最大数。モデル検索が有効である場合、アルゴリズムによって、尤度関数の改良または正則化(BIC)に基づいて成分の数が(指定した最大値を限度に)決定されます。

  • EMクラスタリングの場合、凝集型クラスタリング・ステップ用の結合関数で、枝内の最近隣距離(単一結合)、枝内の平均距離(平均結合)、または枝内の最大距離(完全結合)のどれを使用するか。デフォルトでは、アルゴリズムによって単一結合が使用されます。

  • EM異常の場合、異常とみなすデータの割合を指定するかどうか。「疑わしい」ケースの数がデータの一定の割合であることが事前にわかっている場合は、外れ値の率をその割合に設定できます。アルゴリズムのデフォルト値は0.05です。

参照:

使用可能なモデル設定のリストおよび説明は、DBMS_DATA_MINING - アルゴリズムの設定: 期待値の最大化を参照してください。

ノート:

モデル設定と同じ意味でハイパーパラメータという用語も使用されます。