列(属性)選択と行選択
CUR行列分解では、属性と行がそれらのレバレッジ・スコアによって識別されランク付けされます。それにより、分析における重要度が高いことが確かになります。
Oracle Machine LearningでのCUR行列分解は、属性評価や行重要度に向けて設計されています。これは、レバレッジ(重要度)のスコアでランク付けされた、重要度の高い属性と行を返します。列(属性)選択と行選択は、CURの最終ステージです。属性選択: レバレッジ・スコアの高い属性を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。
行選択: レバレッジ・スコアの高い行を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。
-
CURは、まず、すべての
j ε {1,...,n}
に対してpj= min {1,cπj}
の確率でAのj番目の列(または属性)を選択します。 -
ユーザーが行選択を有効にした場合は、すべての
i ε {1,...,m}
に対してpˊi = min {1,rπˊi}
の確率でAのi番目の行を選択します。 -
選択したすべての属性(行評価が無効の場合)、または選択したすべての属性と行(行評価が有効の場合)の名前(またはID)とレバレッジ・スコア(評価)をレポートします。
cは近似(予測)列数、rは近似(予測)行数であり、どちらもユーザーが選択できます。
列選択と行選択を実行するには、個々の列および行を選択する確率を計算する必要があります。
次に示すように、各列の確率を計算します。
pj = min {1,cπj}
次のように、各行の確率を計算します。
pˊi = min{1, cπˊi}
確率がしきい値よりも大きい場合は、列または行が1つ選択されます。