oraclesai.clustering.KMeansClustering

class KMeansClustering(n_clusters=None, init='k-means++', n_init=10, max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd', init_method='elbow', n_jobs=None)

K-Meansクラスタリング・アルゴリズム。 重心に基づいて、各観察は最も近い重心に関連付けられています。 新しい重心は、それに関連するすべての観察の平均です。 アルゴリズムは、一定の数の反復に達するまで、または重心の場所が前の反復から変わらないまで停止します。 クラスタ数が指定されていない場合、アルゴリズムはパラメータinit_methodのメソッドを使用してそれを推定します。 リージョン化はサポートされていないため、同じクラスタの要素を地理的に切断できます。

パラメータ:
  • n_clusters - int, default=None。 形成するクラスタの数と生成する重心の数

  • init - {“k-means++”, “random”}, default=”k-means++”. クラスタ初期化の方法。 配列が渡された場合、その配列はシェイプ(n_clusters、n_features)であり、初期センターを提供します。 コール可能関数が渡された場合、引数Xn_clustersおよびrandom stateをとり、初期化を返す必要があります。

  • n_init - int、default=10。 k-meansが異なる重心種で走る回数。 最終結果は、慣性に関してn_init連続実行の最適な出力になります

  • max_iter - int、default=300。 1回の実行に対するk-meansアルゴリズムの最大反復数。

  • tol - float、default=1e-4。 収束を宣言するために、2つの連続する反復のクラスタ・センターにおける差のFrobeniusノルムに基づく相対許容範囲。

  • verbose - int、default=0。 冗長性モード。

  • random_state - int、RandomStateインスタンスまたはNone、default=None。 重心初期化の乱数生成を決定します。 intを使用してランダム性を決定します。

  • copy_x - bool, default=True。 Trueの場合、元のデータは変更されません。 Falseの場合、元のデータは変更され、ファンクションが戻される前に戻されます。ただし、小さい数値の差異は、減算してからデータ平均を加算することで導入できます。 元のデータがCに連続していない場合、copy_x=Falseの場合でもコピーが作成されます。 元のデータが疎で、CSR形式ではない場合、copy_x=Falseの場合でもコピーが作成されます。

  • algorithm - {“lloyd”, “elkan”}, default=”lloyd”. 使用するK-meansアルゴリズム。 古典的なEMスタイルは「ロイド」です。 「エルカン」のバリエーションは、三角形の不等式を使用して、明確に定義されたクラスタを持つデータに対してより効率的です。 ただし、追加のシェイプ配列(n_samples、n_clusters)が割り当てられるため、メモリーが集中します。

  • init_method - {“elbow”, “silhouette”}, default=”elbow”. クラスタ数の見積りに使用されるメソッド。n_clustersが定義されていない場合にのみ使用されます。

  • n_jobs - int, default=None。 同時に実行されているジョブの最大数。 Noneは、n_jobs=1と解釈される'unset'のマーカーです。

メソッド

__init__([n_clusters, init, n_init, ...])

fit(X[, y, geometries, spatial_weights, crs])

クラスタの数が指定されていない場合は、パラメータinit_methodを使用して見積もられます。

fit_predict(X[, y, geometries, ...])

クラスタリング・モデルをトレーニングし、各観測に割り当てられたラベルを返します。

get_params([deep])

このエスティメータのパラメータを取得します。

set_params(**params)

このエスティメータのパラメータを設定します。

属性

DEFAULT_RANGE

DEFAULT_RANGE_2

INIT_TYPE_ELBOW

INIT_TYPE_SILHOUETTE

cluster_centers_

クラスタ・センターの座標。

inertia_

最も近い中心へのサンプルの平方距離の合計。

labels_

各サンプルに最も近い重心を示す配列。