予測モデルの関連データセットとは
データ・フローを実行してOracle Analytics予測モデルのトレーニング・モデルを作成すると、Oracle Analyticsによって一連の関連データセットが作成されます。これらのデータセットに関するワークブックを開いたり作成することによって、モデルの精度について学習できます。
モデルに選択するアルゴリズムに応じて、関連データセットには、予測ルールや精度メトリック、混同行列、予測のキー・ドライバなど、モデルの詳細が含まれます。この情報を基にモデルを細かく調整して結果を向上させたり、関連データセットを使用してモデルを比較し、より正確なモデルはどちらかを判断することが可能です。
たとえば、ドライバ・データセットを開いて、モデルに強いプラスまたはマイナスの影響がある列を明らかにできます。それらの列を調べると、現実的な入力内容ではない、または予測用にしては詳細すぎるという理由で、モデル変数として扱われていない列があることがわかります。データ・フロー・エディタを使用してモデルを開き、明らかになった情報を基づいて関係のない列や詳細すぎる列を削除し、モデルを再生成します。「品質」タブと「結果」タブをチェックし、モデルの精度が向上しているかどうかを確認します。モデルの精度に問題がなくなり、新しいデータセットをスコアリングする準備が整うまでこのプロセスを続けます。
アルゴリズムが異なっても、類似した関連データセットが生成されます。データセットの個々のパラメータおよび列名はアルゴリズムのタイプによって変わることがありますが、データセットの機能は変わりません。たとえば、統計データセットの列名が線形回帰からロジスティック回帰に変わることがあっても、統計データセットにはモデルの精度メトリックが含まれます。
AutoMLモデルの関連データセット
AutoMLを使用して予測モデルをトレーニングすると、Oracle Analyticsによって、モデルに関する有益な情報を含む追加のデータセットが作成されます。作成されるデータセット数はモデル・アルゴリズムによって異なります。たとえば、Naive Bayesモデルの場合、Oracle Analyticsによって条件付き確率に関する情報を提供するデータセットが作成されます。ディシジョン・ツリー・モデルの場合、データセットは、ディシジョン・ツリー統計に関する情報を提供します。一般化線形モデル(GLM)アルゴリズムを使用して、AutoMLによって生成されたモデルを検査する際、モデルに関するメタデータ情報を含むモデル固有のデータセットの接頭辞GLM*が付いたエントリが表示されます。
図automl-related-datasets.pngの説明
関連データセット
ノート:
Oracle Analyticsは、関連データセット・タイプにデータフローの出力名を付加します。たとえば、CARTモデルでは、データ・フローの出力の名前がcart_model2の場合、データセットの名前はcart_model2_CARTです。CART
Oracle Analyticsは、CART (分類および回帰ツリー)関連データセットの表を作成します。これには、ディシジョン・ツリーの条件および条件の基準、各グループの予測、および予測の信頼度を表す列が含まれます。ツリー・ダイアグラム・ビジュアライゼーションを使用して、このディシジョン・ツリーをビジュアル化します。
CARTデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 数値 | 数値予測のCART |
| 二項分類 | CART |
| 多項分類 | CART |
分類レポート
Oracle Analyticsは、分類レポート関連データセットの表を作成します。たとえば、ターゲット列に2つの個別の値(「はい」または「いいえ」)を指定できる場合、このデータセットは、ターゲット列の各個別の値に対する、F1、適合率(Precision)、再現率(Recall)、サポート(この値を含むトレーニング・データセット内の行数)などの正確性メトリックを表示します。
分類データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
| 多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
混同マトリックス
Oracle Analyticsは、エラー・マトリックスとも呼ばれる混同マトリックス関連データセットのピボット表を作成します。各行は予測クラスのインスタンスを表し、各列は実際のクラスのインスタンスを表します。この表は、偽陽性、偽陰性、真陽性、真陰性の数をレポートし、それらを使用して適合率、再現率およびF1の精度メトリックが計算されます。
混同マトリックス・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 二項分類 |
ロジスティック回帰 CART (デシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
| 多項分類 |
CART (デシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
ドライバ
Oracle Analyticsは、ドライバ関連データセットの表を作成します。これには、ターゲット列の値を決定する列に関する情報が含まれています。これらの列の特定には、線形回帰が使用されます。各列には、係数値と相関値が割り当てられています。係数値は、ターゲット列の値の決定に使用される列の加重期間を表します。相関値は、ターゲット列と依存列間の関係の方向を示します。たとえば、依存列に基づいて、ターゲット列の値が増えるか減るかということです。
ドライバ・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 数値 |
線形回帰 エラスティック・ネット線形回帰 |
| 二項分類 |
ロジスティック回帰 サポート・ベクター・マシン |
| 多項分類 | サポート・ベクター・マシン |
Hitmap
Oracle Analyticsは、Hitmap関連データセットの表を作成します。これには、ディシジョン・ツリーのリーフ・ノードに関する情報が含まれています。表の各行はリーフ・ノードを表しており、そのリーフ・ノードが表しているものを説明する情報(セグメント・サイズや信頼度、予想される行数など)が格納されています。たとえば、予想される正しい予測の数 = セグメント・サイズ * 信頼度です。
Hitmapデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 数値 | 数値予測のCART |
残差
Oracle Analyticsは、残差関連データセットの表を作成します。これには、残差予測の品質に関する情報が含まれています。残差とは、回帰モデルの測定値と予測値の差異です。このデータセットには、データセットの列すべての実際値と予測値の絶対差を集計した合計値が含まれています。
残差データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 数値 |
線形回帰 エラスティック・ネット線形回帰 数値予測のCART |
| 二項分類 | CART (デシジョン・ツリー) |
| 多項分類 | CART (デシジョン・ツリー) |
統計
Oracle Analyticsは、統計関連データセットの表を作成します。このデータセットのメトリックは、生成に使用されたアルゴリズムによって異なります。このメトリックのリストは、次のアルゴリズムに基づいています。
- 線形回帰、数値予測のCART、エラスティック・ネット線形回帰 - これらのアルゴリズムには、R2乗、調整済R2乗、平均絶対誤差(MAE)、平均平方根誤差(MSE)、相対絶対誤差(RAE)、相対平方根誤差(RSE)、2乗平均平方根誤差(RMSE)が含まれます。
- CART (分類および回帰ツリー)、Naive Bayes分類、ニューラル・ネットワーク、サポート・ベクター・マシン(SVM)、ランダム・フォレスト、ロジスティックス回帰 - これらのアルゴリズムには、精度、合計F1が含まれます。
このデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 数値 |
線形回帰 エラスティック・ネット線形回帰 数値予測のCART |
| 二項分類 |
ロジスティック回帰 CART (デシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
| 多項分類 |
Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
サマリー
Oracle Analyticsは、サマリー関連データセットの表を作成します。これには、ターゲット名やモデル名などの情報が含まれています。
サマリー・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
| モデル | アルゴリズム |
|---|---|
| 二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
| 多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |