22 Non-Negative Matrix Factorization

特徴抽出用にOracle Data Mining for SQLで使用される教師なしアルゴリズムであるNon-Negative Matrix Factorization (NMF)の使用方法を学習します。

関連項目:

「Learning the Parts of Objects by Non-Negative Matrix Factorization」という論文(D. D. Lee、H. S. Seung共著、『Nature』誌第401号P.788-791、1999年)に記述されています。

22.1 NMFとは

Non-Negative Matrix Factorizationは、属性の数が多く、それらの属性があいまいであるか、予測可能性が低い場合に役立ちます。属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。NMFは、特徴抽出アルゴリズムです。

NMFによって作成される各特徴は、元の属性セットの一次結合です。各特徴には、特徴の各属性の重みの測度である係数のセットがあります。量的属性ごと、および各質的属性の個別値ごとに別個の係数があります。係数は、すべて非負数です。

22.1.1 行列因数分解

Non-Negative Matrix Factorizationでは、多変量分析および線形代数の手法が使用されます。それは、行列Mとしてのデータを2つの下位ランク行列WおよびHの積に分解します。サブ行列WにはNMF基底が、サブ行列Hには関連する係数(重み)が含まれます。

アルゴリズムによって、WHの値は、その積がMに近づくように繰り返し変更されます。この技術によって、元のデータ構造の大部分が維持され、基底と重みの両方が非負数であることが保証されます。アルゴリズムは、近似誤差が収束するか、反復が指定数に到達すると終了します。

NMFアルゴリズムは、反復の開始点を示すシードで初期化される必要があります。処理空間の高いディメンション性と、大域的最小アルゴリズムが存在しないという事実から、意味のある結果を取得するには適切な初期化が非常に重要になります。Oracle Data Mining for SQLでは、一様分布に基づいてWとHの値を初期化するランダム・シードが使用されます。このアプローチは、ほとんどのケースで有効です。

22.1.2 NMFでのスコアリング

Non-Negative Matrix Factorization(NMF)のスコアリングについて学習します。

NMFは、分類、回帰、クラスタリングなどのマイニング・タスクでディメンション性を低減するための前処理ステップとして使用できます。NMFモデルのスコアリングによって、新しい特徴空間にデータ投影が生成されます。投影の規模は、レコードが特徴にマップされる強度を示します。

特徴抽出のSQLスコアリング関数では、NMFモデルがサポートされます。関数が分析構文で呼び出されると、その関数によって一時的NMFモデルが構築および適用されます。特徴抽出関数は、FEATURE_DETAILSFEATURE_IDFEATURE_SETおよびFEATURE_VALUEです。

22.1.3 NMFでのテキスト分析

Non-Negative Matrix Factorization (NMF)でのテキスト分析について学習します。

NMFは、特にテキストの分析に適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、「hike」という単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、説明能力にとって必須であるコンテキストを取り入れます。

  • "hike" + "mountain" -> "outdoor sports"

  • "hike" + "interest" -> "interest rates"

22.2 NMFアルゴリズムのチューニング

Non-Negative Matrix Factorization(NMF)の構成パラメータについて学習します。

Oracle Data Mining for SQLは、NMFの5つの構成可能なパラメータをサポートしています。それらすべてに、アルゴリズムのほとんどの適用にとって適切なデフォルト値があります。NMFの設定は次のとおりです。

  • 特徴数。デフォルトでは、特徴数はアルゴリズムによって決定されます。

  • 収束許容値。デフォルトは、0.05です。

  • 反復数。デフォルトは、50です。

  • ランダム・シード。デフォルトは-1です。

  • 非負スコアリング。スコアリング結果に負数を許可するかどうかを指定できます。デフォルトでは、許可されます。

関連項目:

使用可能なモデル設定のリストおよび説明は、DBMS_DATA_MINING - アルゴリズムの設定: Non-Negative Matrix Factorizationを参照してください。

ノート:

モデル設定と同じ意味でハイパーパラメータという用語も使用されます。

22.3 NMF用のデータ準備

Non-Negative Matrix Factorization (NMF)用にデータを準備するには、自動データ準備(ADP)を使用するか、ビニングや正規化などの変換を指定します。

ADPでは、NMF用に量的属性が正規化されます。

単純な(ネストしていない)データ型の列に欠損値がある場合、NMFではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に置換され、量的データの欠損値は平均値に置換されます。

ネストした列に欠損値がある場合、NMFではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。

独自のデータ準備を行う場合、外れ値が存在するとNMFに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。NMFでは通常、正規化を行うことによってメリットが得られます。ただし、min-max正規化で外れ値が存在すると、行列因数分解のパフォーマンスが低下します。行列因数分解のパフォーマンスを向上するには、許容誤差を減らす必要があります。しかし、許容誤差を減らすと作成時間が長くなります。

関連項目