26 Non-Negative Matrix Factorization

教師なしアルゴリズムのNon-Negative Matrix Factorization (NMF)の使用方法を学習します。Oracle Machine Learning for SQLでは、このアルゴリズムを特徴抽出のために使用します。

関連項目:

「Learning the Parts of Objects by Non-Negative Matrix Factorization」という論文(D. D. Lee、H. S. Seung共著、『Nature』誌第401号P.788-791、1999年)に記述されています。

26.1 NMFとは

Non-Negative Matrix Factorizationは、属性の数が多く、それらの属性があいまいであるか、予測可能性が低い場合に役立ちます。属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。NMFは、特徴抽出アルゴリズムです。

NMFによって作成される各特徴は、元の属性セットの一次結合です。各特徴には、特徴の各属性の重みの測度である係数のセットがあります。量的属性ごと、および各質的属性の個別値ごとに別個の係数があります。係数は、すべて非負数です。

26.1.1 行列因数分解

Non-Negative Matrix Factorizationでは、多変量分析および線形代数の手法が使用されます。それは、行列Mとしてのデータを2つの下位ランク行列WおよびHの積に分解します。サブ行列WにはNMF基底が、サブ行列Hには関連する係数(重み)が含まれます。

アルゴリズムによって、WHの値は、その積がMに近づくように繰り返し変更されます。この技術によって、元のデータ構造の大部分が維持され、基底と重みの両方が非負数であることが保証されます。アルゴリズムは、近似誤差が収束するか、反復が指定数に到達すると終了します。

NMFアルゴリズムは、反復の開始点を示すシードで初期化される必要があります。処理空間の高いディメンション性と、大域的最小アルゴリズムが存在しないという事実から、意味のある結果を取得するには適切な初期化が非常に重要になります。Oracle Machine Learning for SQLでは、一様分布に基づいてWとHの値を初期化するランダム・シードを使用します。このアプローチは、ほとんどのケースで有効です。

26.1.2 NMFによるスコアリング

Non-Negative Matrix Factorization(NMF)は、分類、回帰、クラスタリングなどの機械学習タスクで次元数を減らすための前処理ステップとして使用できます。NMFモデルのスコアリングによって、新しい特徴空間にデータ投影が生成されます。投影の規模は、レコードが特徴にマップされる強度を示します。

特徴抽出のSQLスコアリング関数では、NMFモデルがサポートされます。関数が分析構文で起動されると、その関数によって一時的NMFモデルが作成および適用されます。特徴抽出ファンクションは、FEATURE_DETAILSFEATURE_IDFEATURE_SETおよびFEATURE_VALUEです。

26.1.3 NMFでのテキスト分析

Non-Negative Matrix Factorization(NMF)でのテキスト分析について学習します。

NMFは、特にテキスト分析に適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、「hike」という単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、説明能力にとって必須であるコンテキストを取り入れます。

  • "hike" + "mountain" -> "outdoor sports"

  • "hike" + "interest" -> "interest rates"

26.2 NMFアルゴリズムのチューニング

Non-Negative Matrix Factorization(NMF)の構成パラメータについて学習します。

Oracle Machine Learning for SQLは、NMFの構成可能なパラメータを5つサポートしています。それらすべてに、アルゴリズムのほとんどの適用にとって適切なデフォルト値があります。NMFの設定は次のとおりです。

  • 特徴数。デフォルトでは、特徴数はアルゴリズムによって決定されます。

  • 収束許容値。デフォルトは、0.05です。

  • 反復数。デフォルトは、50です。

  • ランダム・シード。デフォルトは-1です。

  • 非負スコアリング。スコアリング結果に負数を許可するかどうかを指定できます。デフォルトでは、許可されます。

関連項目:

使用可能なモデル設定のリストと説明は、DBMS_DATA_MINING -アルゴリズムの設定: Non-Negative Matrix Factorizationを参照してください。

ノート:

hyperparameterという用語は、モデル設定でも同じ意味で使用されます。

26.3 NMF用のデータ準備

自動データ準備(ADP)を使用するか、ビニングや正規化などの変換を指定して、Non-Negative Matrix Factorization (NMF)用のデータを準備できます。

ADPはNMFの量的属性を正規化します。

単純な(ネストしていない)データ型の列に欠損値がある場合、NMFではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に置換され、量的データの欠損値は平均値に置換されます。

ネストした列に欠損値がある場合、NMFではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。

独自のデータ準備を行う場合、外れ値が存在するとNMFに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。NMFでは通常、正規化を行うことによってメリットが得られます。ただし、min-max正規化で外れ値が存在すると、行列因数分解のパフォーマンスが低下します。行列因数分解のパフォーマンスを向上するには、許容誤差を減らす必要があります。しかし、許容誤差を減らすと作成時間が長くなります。

関連項目