16 Non-Negative Matrix Factorization

この章では、特徴抽出用にOracle Data Miningで使用される監視なしアルゴリズムであるNon-Negative Matrix Factorization (NMF)について説明します。

関連項目:

注意:

Non-Negative Matrix Factorization (NMF)は、「Learning the Parts of Objects by Non-Negative Matrix Factorization」という論文(D. D. Lee、H. S. Seung共著、『Nature』誌第401号P.788-791、1999年)に記述されています。

この章には、次の項が含まれます。

NMFとは
NMFアルゴリズムのチューニング
NMF用のデータ準備

NMFとは

Non-Negative Matrix Factorizationは、最新の抽出アルゴリズムです。NMFは、多数の属性があるときに、これらの属性があいまいな場合や予測可能性が低い場合に有効です。属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。

NMFによって作成される各特徴は、元の属性セットの一次結合です。各特徴には、特徴の各属性の重みの測度である係数のセットがあります。量的属性ごと、および各質的属性の個別値ごとに別個の係数があります。係数は、すべて非負数です。

行列因数分解

Non-Negative Matrix Factorizationでは、多変数および線形代数の技術を使用します。データは、マトリックスMとして、2つ下位のランクのマトリックスの生成物(WとH)に分解されます。サブメトリックWにはNMF基準が含まれており、サブメトリックHには関連付けられた係数(重み)が含まれています。

アルゴリズムによって、WとHの値は、その積がMに近づくように繰り返し変更されます。この技術によって、元のデータ構造の大部分が維持され、基底と重みの両方が非負数であることが保証されます。アルゴリズムは、近似誤差が収束するか、反復が指定数に到達すると終了します。

NMFアルゴリズムは、反復の開始点を示すシードで初期化される必要があります。処理空間の高いディメンション性と、大域的最小アルゴリズムが存在しないという事実から、意味のある結果を取得するには適切な初期化が非常に重要になります。Oracle Data Miningでは、一様分布に基づいてWとHの値を初期化するランダム・シードを使用します。このアプローチは、ほとんどのケースで有効です。

NMFでのスコアリング

NMFは、分類、回帰、クラスタリングなどのマイニング・タスクでディメンション性を低減するための前処理ステップとして使用できます。NMFモデルのスコアリングによって、新しい特徴空間にデータ投影が生成されます。投影の規模は、レコードが特徴にマップされる強度を示します。

NMFでのテキスト・マイニング

NMFは、特にテキスト・マイニングに適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、「hike」という単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、説明能力にとって必須であるコンテキストを取り入れます。

"hike" + "mountain" -> "outdoor sports"
"hike" + "interest" -> "interest rates"

関連項目:

「テキストの特徴抽出」

NMFアルゴリズムのチューニング

Oracle Data Miningでは、NMFの5つの構成可能なパラメータがサポートされます。それらすべてに、アルゴリズムのほとんどの適用にとって適切なデフォルト値があります。NMFの設定は次のとおりです。

特徴数。デフォルトでは、特徴数はアルゴリズムによって決定されます。
収束許容値。デフォルトは.05です。
反復数。デフォルトは50です。
ランダム・シード。デフォルトは-1です。
非負スコアリング。スコアリング結果に負数を許可するかどうかを指定できます。デフォルトでは、許可されます。

関連項目:

モデル設定の詳細は、『Oracle Database PL/SQLパッケージおよびタイプ・リファレンス』を参照してください。

NMF用のデータ準備

NMFに対する自動データ準備では、量的属性が正規化されます。

単純な(ネストしていない)データ型の列に欠損値がある場合、NMFではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に置換され、量的データの欠損値は平均値に置換されます。

ネストした列に欠損値がある場合、NMFではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。

独自のデータ準備を行う場合、外れ値が存在するとNMFに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。NMFでは通常、正規化を行うことによってメリットが得られます。ただし、min-max正規化で外れ値が存在すると、行列因数分解のパフォーマンスが低下します。行列因数分解のパフォーマンスを向上するには、許容誤差を減らす必要があります。しかし、許容誤差を減らすと作成時間が長くなります。

関連項目:

第19章「自動データ準備と組込みのデータ準備」

ネストした列および欠損データについては、『Oracle Data Miningアプリケーション開発者ガイド』を参照してください。