列(属性)選択と行選択

OML4SQLのCURマトリックス分解は、属性や行の重要度向けに設計されています。これは、レバレッジ(重要度)のスコアでランク付けされた、重要度の高い属性と行を返します。列(属性)選択と行選択は、CUR行列分解の最終段階です。

属性選択: レバレッジ・スコアの高い属性を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。

行選択: レバレッジ・スコアの高い行を選択し、それらの名前、スコア(評価)、ランク(評価順)をレポートします。

  1. CUR行列分解では、まず、すべてのj ε {1,...,n}に対してpj= min {1,j}の確率でAjthの列(または属性)が選択されます。

  2. ユーザーが行選択を有効にした場合は、すべてのi ε {1,...,m}に対してi = min {1,rπˊi}の確率でAi番目の行を選択します。

  3. 選択したすべての属性(行評価が無効の場合)、または選択したすべての属性と行(行評価が有効の場合)の名前(またはID)とレバレッジ・スコア(評価)をレポートします。

cは近似(予測)列数、rは近似(予測)行数であり、どちらもユーザーが選択できます。

列選択と行選択を実行するには、個々の列および行を選択する確率を計算する必要があります。

次に示すように、各列の確率を計算します。

pj = min {1,cπj}

次のように、各行の確率を計算します。

i = min{1, cπˊi}

確率がしきい値よりも大きい場合は、列または行が1つ選択されます。