oraclesai.clustering.KMeansClustering
- class KMeansClustering(n_clusters=None, init='k-means++', n_init=10, max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd', init_method='elbow', n_jobs=None)
K-Meansクラスタリング・アルゴリズム。 重心に基づいて、各観察は最も近い重心に関連付けられています。 新しい重心は、それに関連するすべての観察の平均です。 アルゴリズムは、一定の数の反復に達するまで、または重心の場所が前の反復から変わらないまで停止します。 クラスタ数が指定されていない場合、アルゴリズムはパラメータ
init_method
のメソッドを使用してそれを推定します。 リージョン化はサポートされていないため、同じクラスタの要素を地理的に切断できます。- パラメータ:
n_clusters - int, default=None。 形成するクラスタの数と生成する重心の数
init - {“k-means++”, “random”}, default=”k-means++”. クラスタ初期化の方法。 配列が渡された場合、その配列はシェイプ(n_clusters、n_features)であり、初期センターを提供します。 コール可能関数が渡された場合、引数
X
、n_clusters
およびrandom state
をとり、初期化を返す必要があります。n_init - int、default=10。 k-meansが異なる重心種で走る回数。 最終結果は、慣性に関してn_init連続実行の最適な出力になります
max_iter - int、default=300。 1回の実行に対するk-meansアルゴリズムの最大反復数。
tol - float、default=1e-4。 収束を宣言するために、2つの連続する反復のクラスタ・センターにおける差のFrobeniusノルムに基づく相対許容範囲。
verbose - int、default=0。 冗長性モード。
random_state - int、RandomStateインスタンスまたはNone、default=None。 重心初期化の乱数生成を決定します。 intを使用してランダム性を決定します。
copy_x - bool, default=True。 Trueの場合、元のデータは変更されません。 Falseの場合、元のデータは変更され、ファンクションが戻される前に戻されます。ただし、小さい数値の差異は、減算してからデータ平均を加算することで導入できます。 元のデータがCに連続していない場合、
copy_x=False
の場合でもコピーが作成されます。 元のデータが疎で、CSR形式ではない場合、copy_x=False
の場合でもコピーが作成されます。algorithm - {“lloyd”, “elkan”}, default=”lloyd”. 使用するK-meansアルゴリズム。 古典的なEMスタイルは「ロイド」です。 「エルカン」のバリエーションは、三角形の不等式を使用して、明確に定義されたクラスタを持つデータに対してより効率的です。 ただし、追加のシェイプ配列(n_samples、n_clusters)が割り当てられるため、メモリーが集中します。
init_method - {“elbow”, “silhouette”}, default=”elbow”. クラスタ数の見積りに使用されるメソッド。
n_clusters
が定義されていない場合にのみ使用されます。n_jobs - int, default=None。 同時に実行されているジョブの最大数。 Noneは、
n_jobs=1
と解釈される'unset'のマーカーです。
メソッド
__init__
([n_clusters, init, n_init, ...])fit
(X[, y, geometries, spatial_weights, crs])クラスタの数が指定されていない場合は、パラメータ
init_method
を使用して見積もられます。fit_predict
(X[, y, geometries, ...])クラスタリング・モデルをトレーニングし、各観測に割り当てられたラベルを返します。
get_params
([deep])このエスティメータのパラメータを取得します。
set_params
(**params)このエスティメータのパラメータを設定します。
属性
DEFAULT_RANGE
DEFAULT_RANGE_2
INIT_TYPE_ELBOW
INIT_TYPE_SILHOUETTE
クラスタ・センターの座標。
最も近い中心へのサンプルの平方距離の合計。
各サンプルに最も近い重心を示す配列。