30.5 逆変換の理解

逆変換が必要な理由を理解します。

逆変換では、モデルによって戻される情報は、モデルのトレーニングに使用されたデータの形式に似た形式または同じ形式で表されます。内部変換は、モデルの詳細およびスコアリング結果で元に戻されます。

モデルで使用される属性の一部は、作成データ内の列に対応します。ただし、アルゴリズム、ネストしたデータおよび変換に固有のロジックがあるため、一部の属性は列に対応しません。

たとえば、モデルでは、トレーニング・データ内のネストした列は属性として解釈されません。Oracle Data Miningではモデルの作成時に、ネストした列が展開され、各行(属性の名前と値のペア)が1つの属性となります。

サポート・ベクター・マシン(SVM)および一般化線形モデル(GLM)などの一部のアルゴリズムは、量的属性でのみ動作します。SVMの場合、作成データ内の非数値列は2項属性に展開されます(列内の各個別値に対して1つ)。GLMでは、元の列内の最頻値に対して新しい属性は生成されません。これらの2項属性は、ケースの列値がその2項属性に関連付けられた値と等しい場合にのみ、1に設定されます。

係数を生成するアルゴリズムは、結果の解釈性に関する課題を示しています。例として、SVMおよびNon-Negative Matrix Factorization (NMF)があります。これらのアルゴリズムは、変換された属性と組み合せて使用される係数を生成します。これらの係数は、元のデータのスケールではなく、変換されたスケール上のデータに関連があります。

こうしたすべての理由から、モデルの詳細にリストされる属性は、モデルのトレーニングに使用されるデータの列とは似ていません。ただし、自動データ準備(ADP)で実行される、またはユーザーが指定した変換リストによるかにかかわらず、組込みの変換が行われる属性は、元の列値とできるだけ近い変換前の状態でモデルの詳細に表示されます。属性は、モデルによって使用される際に変換されますが、モデルの詳細ではユーザーが解釈できる形式で表示されます。