21 Non-Negative Matrix Factorization

特徴抽出用にOracle Data Miningで使用される教師なしアルゴリズムであるNon-Negative Matrix Factorization (NMF)の使用方法を学習します。

関連項目:

「Learning the Parts of Objects by Non-Negative Matrix Factorization」という論文(D. D. Lee、H. S. Seung共著、『Nature』誌第401号P.788-791、1999年)に記述されています。

21.1 NMFについて

Non-Negative Matrix Factorizationは、最新の抽出アルゴリズムです。NMFは、多数の属性があるときに、これらの属性があいまいな場合や予測可能性が低い場合に有効です。属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。

NMFによって作成される各特徴は、元の属性セットの一次結合です。各特徴には、特徴の各属性の重みの測度である係数のセットがあります。量的属性ごと、および各質的属性の個別値ごとに別個の係数があります。係数は、すべて非負数です。

21.1.1 行列因数分解

Non-Negative Matrix Factorizationでは、多変量分析および線形代数の手法が使用されます。それは、行列Mとしてのデータを2つの下位ランク行列WおよびHの積に分解します。サブ行列WにはNMF基底が、サブ行列Hには関連する係数(重み)が含まれます。

アルゴリズムによって、WHの値は、その積がMに近づくように繰り返し変更されます。この技術によって、元のデータ構造の大部分が維持され、基底と重みの両方が非負数であることが保証されます。アルゴリズムは、近似誤差が収束するか、反復が指定数に到達すると終了します。

NMFアルゴリズムは、反復の開始点を示すシードで初期化される必要があります。処理空間の高いディメンション性と、大域的最小アルゴリズムが存在しないという事実から、意味のある結果を取得するには適切な初期化が非常に重要になります。Oracle Data Miningでは、一様分布に基づいてWとHの値を初期化するランダム・シードを使用します。このアプローチは、ほとんどのケースで有効です。

21.1.2 NMFでのスコアリング

Non-Negative Matrix Factorization(NMF)のスコアリングについて学習します。

NMFは、分類、回帰、クラスタリングなどのマイニング・タスクでディメンション性を低減するための前処理ステップとして使用できます。NMFモデルのスコアリングによって、新しい特徴空間にデータ投影が生成されます。投影の規模は、レコードが特徴にマップされる強度を示します。

特徴抽出のSQLスコアリング関数では、NMFモデルがサポートされます。関数が分析構文で起動されると、その関数によって一時的NMFモデルが作成および適用されます。特徴抽出関数は、FEATURE_DETAILSFEATURE_IDFEATURE_SETおよびFEATURE_VALUEです。

21.1.3 NMFでのテキスト・マイニング

Non-Negative Matrix Factorization(NMF)でのテキストのマイニングについて学習します。

NMFは、特にテキスト・マイニングに適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、「hike」という単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、説明能力にとって必須であるコンテキストを取り入れます。

  • "hike" + "mountain" -> "outdoor sports"

  • "hike" + "interest" -> "interest rates"

21.2 NMFアルゴリズムのチューニング

Non-Negative Matrix Factorization(NMF)の構成パラメータについて学習します。

Oracle Data Miningでは、NMFの5つの構成可能なパラメータがサポートされます。それらすべてに、アルゴリズムのほとんどの適用にとって適切なデフォルト値があります。NMFの設定は次のとおりです。

  • 特徴数。デフォルトでは、特徴数はアルゴリズムによって決定されます。

  • 収束許容値。デフォルトは、0.05です。

  • 反復数。デフォルトは、50です。

  • ランダム・シード。デフォルトは-1です。

  • 非負スコアリング。スコアリング結果に負数を許可するかどうかを指定できます。デフォルトでは、許可されます。

21.3 NMF用のデータ準備

Non-Negative Matrix Factorization(NMF)の日付の準備について学習します。

NMFに対する自動データ準備では、量的属性が正規化されます。

単純な(ネストしていない)データ型の列に欠損値がある場合、NMFではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に置換され、量的データの欠損値は平均値に置換されます。

ネストした列に欠損値がある場合、NMFではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。

独自のデータ準備を行う場合、外れ値が存在するとNMFに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。NMFでは通常、正規化を行うことによってメリットが得られます。ただし、min-max正規化で外れ値が存在すると、行列因数分解のパフォーマンスが低下します。行列因数分解のパフォーマンスを向上するには、許容誤差を減らす必要があります。しかし、許容誤差を減らすと作成時間が長くなります。