Oracle Machine Learning for SQLの拡張k-Means

Oracle Machine Learningでは、効率的な初期化、スケーラブル・パラレル・モデル作成および詳細なクラスタ・プロパティを備えた拡張k-Meansアルゴリズムが提供されます。

Oracle Machine Learning for SQLに実装されている拡張バージョンのk-Meansアルゴリズムには、次の特徴があります。

距離関数: アルゴリズムでは、ユークリッドおよびコサインの各距離関数がサポートされます。デフォルトはユークリッドです。
スケーラブル・パラレル・モデルの作成: アルゴリズムは、次のドキュメントに基づく非常に効率的な初期化方法を使用します。Bahmani、Bahman等"Scalable k-means++."VLDB寄付の手続き5.7 (2012): 622-633。
クラスタ・プロパティ: クラスタごとに、アルゴリズムによって、重心、各属性のヒストグラム、およびクラスタに割り当てられるデータの大部分を囲むハイパーボックスを記述するルールが戻されます。重心は、質的属性については最頻値を、量的属性については平均および分散を示します。

k-Meansをこのように処理することによって、複数のk-Meansモデルを作成する必要がなくなります。また、常に従来のk-Meansよりも優れたクラスタリング結果が得られます。