列(属性)選択と行選択

CUR行列分解では、属性と行がそれらのレバレッジ・スコアによって識別されランク付けされます。それにより、分析における重要度が高いことが確かになります。

Oracle Machine LearningでのCUR行列分解は、属性評価や行重要度に向けて設計されています。これは、レバレッジ(重要度)のスコアでランク付けされた、重要度の高い属性と行を返します。列(属性)選択と行選択は、CURの最終ステージです。属性選択: レバレッジ・スコアの高い属性を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。

行選択: レバレッジ・スコアの高い行を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。

  1. CURは、まず、すべてのj ε {1,...,n}に対してpj= min {1,j}の確率でAj番目の列(または属性)を選択します。

  2. ユーザーが行選択を有効にした場合は、すべてのi ε {1,...,m}に対してi = min {1,rπˊi}の確率でAi番目の行を選択します。

  3. 選択したすべての属性(行評価が無効の場合)、または選択したすべての属性と行(行評価が有効の場合)の名前(またはID)とレバレッジ・スコア(評価)をレポートします。

cは近似(予測)列数、rは近似(予測)行数であり、どちらもユーザーが選択できます。

列選択と行選択を実行するには、個々の列および行を選択する確率を計算する必要があります。

次に示すように、各列の確率を計算します。

pj = min {1,cπj}

次のように、各行の確率を計算します。

i = min{1, cπˊi}

確率がしきい値よりも大きい場合は、列または行が1つ選択されます。