14 CURマトリックス分解
属性重要度にCUR分解ベースのアルゴリズムを使用する方法を学習します。
14.1 CUR行列分解について
CUR行列分解は、データ行列に含まれる少数の実際の列または実際の行(あるいはその両方)で明示的に表現される低ランクの行列分解アルゴリズムです。
CUR行列分解は、特異値分解(SVD)および主成分分析(PCA)の代替方法として開発されました。CUR行列分解では、データ行列から高い統計的レバレッジまたは大きな影響を示す列と行を選択します。CUR行列分解アルゴリズムを実装することで、元のデータ行列から少数の最も重要な属性や列を特定できます。そのため、CUR行列分解は探索的データ分析の重要なツールになります。CUR行列分解は様々な領域に適用でき、回帰、分類およびクラスタリングを容易にします。
関連トピック
14.2 特異ベクトル
特異値分解(SVD)は、CUR行列分解の最初のステップです。
SVDは、列と行のレバレッジ・スコアを計算するために左右の特異ベクターを返します。次に示す行列に対してSVDを実行します。
A ε Rmxnこの行列は、次のように因数分解されます。
A=UΣVTU = [u1 u2...um]およびV = [v1 v2...vn]は直交行列です。
                  
Σは、対角上に負ではない実数σ1,...,σρを含むm ×nの対角行列です。ρ = min {m,n}とσξは、Aのξthの特異値です。
                  
uξおよびvξがAのξthの右および左特異ベクターとすると、Aのjthの列は、次に示すように、上位k個の特異ベクターおよび対応する単一値によって近似できます。
vξjは、ξthの右特異ベクターのjthの座標です。
14.3 統計的レバレッジ・スコア
レバレッジ・スコアは、マトリックスのランク・サブスペースに関して最も代表的な列(または行)を決定する統計です。統計的レバレッジ・スコアは、列(または属性)と行の重要度を表します。
すべての列の正規化された統計的レバレッジ・スコアは、次に示すように、上位k個の右特異ベクターから計算されます。
jは、1,...,nです。πj>=0と仮定すると、 
                     
                     これらのスコアにより、n列にわたる確率分布が形成されます。 
                  同様に、すべての行の正規化された統計的レバレッジ・スコアは、次に示すように、上位k個の左特異ベクターから計算されます。
iは、1,...,mです。
                  
14.4 列(属性)選択と行選択
OML4SQLのCURマトリックス分解は、属性や行の重要度向けに設計されています。これは、レバレッジ(重要度)のスコアでランク付けされた、重要度の高い属性と行を返します。列(属性)選択と行選択は、CUR行列分解の最終段階です。
属性選択: レバレッジ・スコアが高い属性を選択して、その属性の名前、スコア(重要度として)およびランク(重要度による)を報告します。
行選択: レバレッジ・スコアが高い行を選択して、その列の名前、スコア(重要度として)およびランク(重要度による)を報告します。
- 
                           CUR行列分解では、まず、すべての j ε {1,...,n}に対してpj= min {1,cπj}の確率でAのjthの列(または属性)が選択されます。
- 
                           ユーザーが行選択を有効にしていると、すべての i ε {1,...,m}に対してpˊi = min {1,rπˊi}の確率でAのithの行が選択されます。
- 
                           選択したすべての属性(行の重要度が無効化されている場合)または選択したすべての属性と行(行の重要度が有効化されている場合)の名前(またはID)とレバレッジ・スコア(重要度として)が報告されます。 
cはユーザーが選択する列の概算(見込)数です。また、rはユーザーが選択する行の概算(見込)数です。
列選択および行選択を実現するには、それぞれの列と行を選択する確率を計算する必要があります。
列ごとの確率は、次のように計算します。
pj = min {1,cπj}
行ごとの確率は、次のように計算します。
pˊi = min{1, cπˊi} 
                  
あるしきい値よりも確率が高い場合に、列または行が選択されます。
14.5 CUR行列分解アルゴリズムの構成
モデルを構築するようにCUR行列分解アルゴリズム設定を構成します。
アルゴリズム固有の設定でモデルを作成します。アルゴリズム名をALGO_CUR_DECOMPOSITIONとして定義し、マイニング機能をATTRIBUTE_IMPORTANCEとして定義します。
                     
参照:
使用可能なモデル設定のリストと説明は、DBMS_DATA_MINING -アルゴリズムの設定: CUR行列分解を参照してください。ノート:
hyperparameterという用語は、モデル設定でも同じ意味で使用されます。行選択
CURS_ROW_IMPORTANCEをCURS_ROW_IMP_ENABLEに指定します。 
                        ノート:
行選択は、行の重要度が有効であることをユーザーが指定していて、CASE_ID列が存在する場合にのみ実行されます。
                           



