CUR行列分解

14.1 CUR行列分解について

CUR行列分解は、データ行列に含まれる少数の実際の列または実際の行(あるいはその両方)で明示的に表現される低ランクの行列分解アルゴリズムです。

CUR行列分解は、特異値分解(SVD)および主成分分析(PCA)の代替方法として開発されました。CUR行列分解では、データ行列から高い統計的レバレッジまたは大きな影響を示す列と行を選択します。CUR行列分解アルゴリズムを実装することで、元のデータ行列から少数の最も重要な属性や列を特定できます。そのため、CUR行列分解は探索的データ分析の重要なツールになります。CUR行列分解は様々な領域に適用でき、回帰、分類およびクラスタリングを容易にします。

関連トピック

SVD用のデータ準備

14.2 特異ベクトル

特異値分解(SVD)は、CUR行列分解の最初のステップです。

SVDは、列と行のレバレッジ・スコアを計算するために左右の特異ベクターを返します。次に示す行列に対してSVDを実行します。

A ε R^mxn

この行列は、次のように因数分解されます。

A=UΣV^T

U = [u¹ u²...u^m]およびV = [v¹ v²...vⁿ]は直交行列です。

Σは、対角上に負ではない実数σ1,...,σ_ρを含むm ×nの対角行列です。ρ = min {m,n}とσ_ξは、Aのξ^thの特異値です。

u^ξおよびv^ξがAのξ^thの右および左特異ベクターとすると、Aのj^thの列は、次に示すように、上位k個の特異ベクターおよび対応する単一値によって近似できます。

図singular_vectors.epsの説明

v^ξ_jは、ξ^thの右特異ベクターのj^thの座標です。

14.3 統計的レバレッジ・スコア

レバレッジ・スコアは、マトリックスのランク・サブスペースに関して最も代表的な列(または行)を決定する統計です。統計的レバレッジ・スコアは、列(または属性)と行の重要度を表します。

すべての列の正規化された統計的レバレッジ・スコアは、次に示すように、上位k個の右特異ベクターから計算されます。

図statistical_leverage_score.epsの説明

kはランク・パラメータと呼ばれるものです。jは、1,...,nです。π_j>=0と仮定すると、

図statistical_leverage_score_1.epsの説明

これらのスコアにより、n列にわたる確率分布が形成されます。

同様に、すべての行の正規化された統計的レバレッジ・スコアは、次に示すように、上位k個の左特異ベクターから計算されます。

statistical_leverage_score_2.epsの説明が続きます

図statistical_leverage_score_2.epsの説明

iは、1,...,mです。

14.4 列(属性)選択と行選択

OML4SQLのCURマトリックス分解は、属性や行の重要度向けに設計されています。これは、レバレッジ(重要度)のスコアでランク付けされた、重要度の高い属性と行を返します。列(属性)選択と行選択は、CUR行列分解の最終段階です。

属性選択: レバレッジ・スコアが高い属性を選択して、その属性の名前、スコア(重要度として)およびランク(重要度による)を報告します。

行選択: レバレッジ・スコアが高い行を選択して、その列の名前、スコア(重要度として)およびランク(重要度による)を報告します。

CUR行列分解では、まず、すべてのj ε {1,...,n}に対してp_j= min {1,cπ_j}の確率でAのj^thの列(または属性)が選択されます。
ユーザーが行選択を有効にしていると、すべてのi ε {1,...,m}に対してpˊ_i = min {1,rπˊ_i}の確率でAのi^thの行が選択されます。
選択したすべての属性(行の重要度が無効化されている場合)または選択したすべての属性と行(行の重要度が有効化されている場合)の名前(またはID)とレバレッジ・スコア(重要度として)が報告されます。

cはユーザーが選択する列の概算(見込)数です。また、rはユーザーが選択する行の概算(見込)数です。

列選択および行選択を実現するには、それぞれの列と行を選択する確率を計算する必要があります。

列ごとの確率は、次のように計算します。

p_j = min {1,cπ_j}

行ごとの確率は、次のように計算します。

pˊ_i = min{1, cπˊ_i}

あるしきい値よりも確率が高い場合に、列または行が選択されます。

14.5 CUR行列分解アルゴリズムの構成

モデルを構築するようにCUR行列分解アルゴリズム設定を構成します。

アルゴリズム固有の設定でモデルを作成します。アルゴリズム名をALGO_CUR_DECOMPOSITIONとして定義し、マイニング機能をATTRIBUTE_IMPORTANCEとして定義します。

参照:

使用可能なモデル設定のリストと説明は、DBMS_DATA_MINING -アルゴリズムの設定: CUR行列分解を参照してください。

ノート:

hyperparameterという用語は、モデル設定でも同じ意味で使用されます。

行選択

この機能を使用するには、行重要度設定CURS_ROW_IMPORTANCEをCURS_ROW_IMP_ENABLEに指定します。

ノート:

行選択は、行の重要度が有効であることをユーザーが指定していて、CASE_ID列が存在する場合にのみ実行されます。