トレーニング・モデルの検査
トレーニング・モデルを作成してデータ・フローを実行したら、そのモデルに関する情報を確認して、精度を判断できます。この情報を使用してモデルの設定を繰り返し調整すると、精度が向上し、より望ましい結果を予測できます。
関連データ・セットとは
データ・フローを実行してトレーニング・モデルを作成すると、Oracle Analyticsにより、一連の関連データ・セットが作成されます。これらのデータ・セットに関するプロジェクトを開いたり作成することによって、モデルの精度を把握できます。
モデルに選択するアルゴリズムに応じて、関連データ・セットには、予測ルールや精度メトリック、混同行列、予測のキー・ドライバなど、モデルの詳細が含まれます。この情報を基にモデルを細かく調整して結果を向上させたり、関連データ・セットを使用してモデルを比較し、より正確なモデルはどちらかを判断することが可能です。
たとえば、ドライバ・データ・セットを開いて、モデルに強いプラスまたはマイナスの影響がある列を明らかにできます。それらの列を調べると、現実的な入力内容ではない、または予測用にしては詳細すぎるという理由で、モデル変数として扱われていない列があることがわかります。データ・フロー・エディタを使用してモデルを開き、明らかになった情報を基づいて関係のない列や詳細すぎる列を削除し、モデルを再生成します。「品質」タブと「結果」タブをチェックし、モデルの精度が向上しているかどうかを確認します。モデルの精度に問題がなくなり、新しいデータ・セットをスコアリングする準備が整うまでこのプロセスを続けます。
モデルを見つけて開くには、トレーニング・モデルの検査を参照してください。
アルゴリズムが異なっても、類似した関連データ・セットが生成されます。データ・セットの個々のパラメータおよび列名はアルゴリズムのタイプによって変わることがありますが、データ・セットの機能は変わりません。たとえば、統計データ・セットの列名が線形回帰からロジスティック回帰に変わることがあっても、統計データ・セットにはモデルの精度メトリックが含まれます。
関連データ・セットを次に示します。
CARTree
このデータ・セットは、表形式のCART (ディシジョン・ツリー)で、ターゲット列の値を予測するよう計算されます。ディシジョン・ツリーの条件と条件の基準、各グループの予測、予測の信頼度を表す列が含まれます。組込みのツリー・ダイアグラム・ビジュアライゼーションを使用すると、このディシジョン・ツリーをビジュアル化できます。
CARTreeデータ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
二項分類 | CART (ディシジョン・ツリー) |
多項分類 | CART (ディシジョン・ツリー) |
分類レポート
このデータ・セットは、ターゲット列の個別値ごとの精度メトリックを表形式にしたものです。たとえば、ターゲット列にYesとNoという異なる2つの値を入力できる場合、このデータ・セットでは、F1、適合率、再現率、サポート(この値を含むトレーニング・データ・セットの行数)などの精度メトリックがターゲット列の個別値ごとに表示されます。
分類データ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
混同行列
このデータ・セットは誤差行列とも呼ばれ、ピボット表レイアウトです。各行は予測クラスのインスタンスを表し、各列は実際のクラスのインスタンスを表します。この表は、偽陽性、偽陰性、真陽性、真陰性の数をレポートし、それらを使用して適合率、再現率およびF1の精度メトリックが計算されます。
混同行列データ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
多項分類 |
CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
ドライバ
このデータ・セットは、ターゲット列の値を決定する列についての情報を提供します。これらの列の特定には、線形回帰が使用されます。各列には、係数値と相関値が割り当てられています。係数値は、ターゲット列の値の決定に使用される列の加重期間を表します。相関値は、ターゲット列と依存列間の関係の方向を示します。たとえば、依存列に基づいて、ターゲット列の値が増えるか減るかということです。
ドライバ・データ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 エラスティック・ネット線形回帰 |
二項分類 |
ロジスティック回帰 サポート・ベクター・マシン |
多項分類 | サポート・ベクター・マシン |
Hitmap
このデータ・セットには、ディシジョン・ツリーのリーフ・ノードに関する情報が含まれています。表の各行はリーフ・ノードを表しており、そのリーフ・ノードが表しているものを説明する情報(セグメント・サイズや信頼度、予想される行数など)が格納されています。たとえば、予想される正しい予測の数 = セグメント・サイズ * 信頼度です。
Hitmapデータ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
残差
このデータ・セットは、残差予測の品質に関する情報を提供します。残差とは、回帰モデルの測定値と予測値の差異です。このデータ・セットには、データ・セットの列すべての実際値と予測値の絶対差を集計した合計値が含まれています。
残差データ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 エラスティック・ネット線形回帰 数値予測のCART |
二項分類 | CART (ディシジョン・ツリー) |
多項分類 | CART (ディシジョン・ツリー) |
統計
このデータ・セットのメトリックは、生成に使用されたアルゴリズムによって異なります。このメトリックのリストは、次のアルゴリズムに基づいています。
- 線形回帰、数値予測のCART、エラスティック・ネット線形回帰 - これらのアルゴリズムには、R2乗、調整済R2乗、平均絶対誤差(MAE)、平均平方根誤差(MSE)、相対絶対誤差(RAE)、相対平方根誤差(RSE)、2乗平均平方根誤差(RMSE)が含まれます。
- CART (分類および回帰ツリー)、Naive Bayes分類、ニューラル・ネットワーク、サポート・ベクター・マシン(SVM)、ランダム・フォレスト、ロジスティックス回帰 - これらのアルゴリズムには、精度、合計F1が含まれます。
このデータ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 エラスティック・ネット線形回帰 数値予測のCART |
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
サマリー
このデータ・セットには、ターゲット名やモデル名などの情報が含まれています。
サマリー・データ・セットは、次に示すモデルとアルゴリズムの組合せを選択した場合に出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |