トレーニング・モデルの検査
トレーニング・モデルを作成してデータ・フローを実行した後、モデルに関する情報を確認して、その正確性を確認できます。この情報を使用してモデル設定を繰り返し調整することにより、精度を向上させ、より適切な結果を予測できます。
関連データ・セットとは
データ・フローを実行してトレーニング・モデルを作成すると、Oracle Analyticsによって、関連する一連のデータ・セットが作成されます。これらのデータ・セットについてプロジェクトをオープンおよび作成して、モデルの正確性を把握できます。
モデルに対して選択したアルゴリズムに応じて、関連データ・セットには、予測ルール、精度メトリック、混同マトリックス、予測のキー・ドライバなど、モデルに関する詳細が含まれます。この情報を使用して、モデルを微調整して結果を改善したり、関連データ・セットを使用してモデルを比較し、より正確なモデルを判断できます。
たとえば、ドライバ・データ・セットを開いて、モデルに対して強い正または負の影響がある列を確認できます。これらの列を調べることで、一部の列が現実的な入力ではない、または予測に対しては細かすぎるため、モデル変数として扱われないことがわかります。データ・フロー・エディタを使用してモデルを開き、検出した情報に基づいて、無関係な列や細かすぎる列を削除してモデルを再生成します。「品質」および「結果」タブをチェックし、モデルの精度が向上しているかどうかを確認します。モデルの精度が十分になり、新しいデータ・セットをスコアリングする準備が整うまでこのプロセスを続行します。
モデルを検索して開くには、「トレーニング・モデルの検査」を参照してください。
異なるアルゴリズムによって、同様の関連データ・セットが生成されます。アルゴリズムのタイプに応じてデータ・セット内の個々のパラメータおよび列名が変更される場合がありますが、データ・セットの機能は同じままです。たとえば、統計データ・セットの列名が線形回帰からロジスティック回帰に変更される場合がありますが、統計データ・セットにはモデルの精度メトリックが含まれます。
関連データ・セットは次のとおりです。
CARTree
このデータ・セットはCART (ディシジョン・ツリー)を表形式で表したもので、ターゲット列値を予測するために計算されます。これには、ディシジョン・ツリーの条件と条件の基準、各グループの予測、および予測信頼度を表す列が含まれています。組込みツリー図ビジュアライゼーションは、このディシジョン・ツリーをビジュアル化するために使用できます。
これらのモデルとアルゴリズムの組合せを選択すると、CARTreeデータ・セットが出力されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
二項分類 | CART (ディシジョン・ツリー) |
複数分類 | CART (ディシジョン・ツリー) |
分類レポート
このデータ・セットは、ターゲット列の個別値ごとの精度メトリックを表形式で示したものです。たとえば、ターゲット列にYesとNoという異なる2つの値を入力できる場合、このデータ・セットは、F1、精度、リコール、サポート(この値を含むトレーニング・データ・セットの行数)など、ターゲット列の異なる個々の値に関する精度メトリックを示します。
これらのモデルとアルゴリズムの組合せを選択すると、分類データ・セットが出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
複数分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
混同マトリックス
エラー・マトリックスとも呼ばれるこのデータ・セットは、ピボット表レイアウトです。各行は予測クラスのインスタンスを表し、各列は実際のクラスのインスタンスを表します。この表は、精度、リコールおよびF1の精度メトリックの計算に使用される偽陽性、偽陰性、真陽性および真陰性の数をレポートします。
これらのモデルとアルゴリズムの組合せを選択すると、混同マトリックス・データ・セットが出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
複数分類 |
CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
ドライバ
このデータ・セットは、ターゲット列値を決定する列に関する情報を提供します。線形回帰を使用して、これらの列を識別します。各列には係数値と相関値が割り当てられます。係数値は、ターゲット列の値の決定に使用される列の加重期間を説明します。相関値は、ターゲット列と依存列の関係の方向を示します。たとえば、依存列に基づいて、ターゲット列の値が増えるか減るかということです。
これらのモデルとアルゴリズムの組合せを選択すると、ドライバ・データ・セットが出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 |
二項分類 |
ロジスティック回帰 サポート・ベクター・マシン |
複数分類 | サポート・ベクター・マシン |
Hitmap
このデータ・セットには、ディシジョン・ツリーのリーフ・ノードに関する情報が含まれています。表の各行はリーフ・ノードを表しており、セグメント・サイズや信頼度、予想される行数など、そのリーフ・ノードが表している内容を説明する情報が格納されています。たとえば、予想される正確な予測の数 = セグメント・サイズ * 信頼度です。
これらのモデルとアルゴリズムの組合せを選択すると、Hitmapデータ・セットが出力されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
残差
このデータ・セットは、残差予測の品質に関する情報を提供します。残差とは、回帰モデルの測定値と予測値の差異です。このデータ・セットには、データ・セットの列すべての実際の値と予測された値の絶対差を集計した合計値が含まれています。
これらのモデルとアルゴリズムの組合せを選択すると、残差データ・セットが出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 数値予測のCART |
二項分類 | CART (ディシジョン・ツリー) |
多項分類 | CART (ディシジョン・ツリー) |
統計
このデータ・セットのメトリックは、生成に使用されたアルゴリズムによって異なります。このメトリックのリストは、次のアルゴリズムに基づいていることに注意してください。
- 線形回帰、数値予測のCART、エラスティック・ネット線形回帰 - これらのアルゴリズムには、R2乗、調整済R2乗、平均絶対誤差(MAE)、平均平方根誤差(MSE)、相対絶対誤差(RAE)、関連平方根誤差(RSE)、2乗平均平方根誤差(RMSE)が含まれます。
- CART (分類および回帰ツリー)、Naive Bayes分類、ニューラル・ネットワーク、Support Vector Machine (SVM)、ランダム・フォレスト、ロジスティックス回帰 - これらのアルゴリズムには、精度、合計F1が含まれます。
これらのモデルとアルゴリズムの組合せを選択すると、このデータ・セットが出力されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 数値予測のCART |
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
複数分類 |
Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
サマリー
このデータ・セットには、ターゲット名やモデル名などの情報が含まれます。
これらのモデルとアルゴリズムの組合せを選択すると、サマリー・データ・セットが出力されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
複数分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |