行列因数分解

Non-Negative Matrix Factorizationでは、多変量分析および線形代数の手法が使用されます。それは、行列Mとしてのデータを2つの下位ランク行列WおよびHの積に分解します。サブ行列WにはNMF基底が、サブ行列Hには関連する係数(重み)が含まれます。

アルゴリズムによって、WHの値は、その積がMに近づくように繰り返し変更されます。この技術によって、元のデータ構造の大部分が維持され、基底と重みの両方が非負数であることが保証されます。アルゴリズムは、近似誤差が収束するか、反復が指定数に到達すると終了します。

NMFアルゴリズムは、反復の開始点を示すシードで初期化される必要があります。処理空間の高いディメンション性と、大域的最小アルゴリズムが存在しないという事実から、意味のある結果を取得するには適切な初期化が非常に重要になります。Oracle Machine Learning for SQLでは、一様分布に基づいてWとHの値を初期化するランダム・シードを使用します。このアプローチは、ほとんどのケースで有効です。