Oracle Analytics予測モデルは、いくつかの埋込みOracle Machine Learningアルゴリズムを使用して、データセットのマイニング、ターゲット値の予測、またはレコードのクラスの識別を行います。予測モデルの作成やトレーニング、データへの適用には、データ・フロー・エディタを使用します。
Oracle Analytics予測モデルは、特定のアルゴリズムをデータセットに適用して、値の予測、クラスの予測またはデータ内のグループの識別を行います。
Oracle機械学習モデルは、データの予測にも使用できます。
Oracle Analyticsには、様々な目的のための予測モデルのトレーニングに役立つアルゴリズムが含まれます。アルゴリズムの例として、分類、回帰ツリー(CART)、ロジスティック回帰およびK平均法があります。
まず、データ・フロー・エディタを使用して、トレーニング・データセットでモデルをトレーニングします。予測モデルをトレーニングしたら、予測するデータセットに適用します。
トレーニングされたモデルは、他のユーザーに対して使用可能にでき、そのユーザーはこれをデータに適用し値を予測できます。場合によっては、特定のユーザーがモデルをトレーニングし、他のユーザーがモデルを適用します。
注:
データ内で何を検索するか不明な場合、機械学習を使用してトレンドおよびパターンを特定するExplainを使用することで操作を開始できます。次に、データ・フロー・エディタを使用して、予測モデルを作成およびトレーニングし、Explainによって検出されたトレンドおよびパターンをドリルできます。終了したモデルを使用して、未知、つまりラベル付けされていないデータをスコアリングしてデータ・フロー内でデータセットを生成したり、予測ビジュアライゼーションをワークブックに追加したりできます。
例
多項分類モデルを作成しトレーニングして、どの患者に心臓病の発症リスクが高いかを予測すると仮定します。
Oracle Analyticsは、機械言語のあらゆるモデリング・ニーズに対するアルゴリズム(数値、予測、多項分類子、二項分類子、クラスタリング)を提供しています。
オラクルの機械言語は、データ内で何を探しているかについてのアイデアを持ち、予測分析の慣習に精通し、アルゴリズム間の相違を理解している上級データ・アナリストを対象にしています。
注:
Oracle Autonomous Data Warehouseをソースとするデータを使用している場合は、機械学習のスキルがなくても、AutoML機能を使用して、予測モデルを簡単にトレーニングできます。「Autonomous Data WarehouseのAutoMLを使用した予測モデルのトレーニング」を参照してください。通常、ユーザーは、複数の予測モデルを作成し、それらを比較して、基準および要件を満たす結果を出す可能性が最も高いモデルを選択します。この基準は様々です。たとえば、正確性が全体的に高いモデルを選択する、最低限タイプI (偽陽性)およびタイプII (偽陰性)エラーがあるモデルを選択する、または理想的ではないが結果が迅速に返され、その正確性が許容範囲であるモデルを選択する場合などがあります。
Oracle Analyticsには、予測または分類各種に対する複数の機械言語アルゴリズムがあります。これらのアルゴリズムを使用して、複数のモデルを作成する、微調整された様々なパラメータを使用する、または様々な入力トレーニング・データ・セットを使用するなどして、最適なモデルを選択します。ユーザーは、独自の基準に対してモデルを比較および検討し、最適なモデルを選択できます。ユーザーは、最適なモデルを選択するために、モデリングおよびビジュアル化の計算結果を適用して正確性を判断したり、Oracle Analyticsがモデルを使用して出力した関連データセットを開き探索したりできます。
この表を参照して、提供されているアルゴリズムについて学習します。
名前 | タイプ | カテゴリ | 関数 | 説明 |
---|---|---|---|---|
CART |
分類 回帰 |
二項分類子 多項分類子 数値型 |
- | ディシジョン・ツリーを使用して、個別の値と連続的な値の両方を予測します。
より大きいデータセットで使用します。 |
Elastic Net線形回帰 | 回帰 | 数値型 | ElasticNet | 詳細回帰モデル。追加情報(正則化)を提供し、変数選択を実行して、線形結合を実行します。Lasso回帰法およびリッジ回帰法のペナルティ。
共線性(複数の属性が完全に相関する)および過剰適合を回避するために多数の属性とともに使用します。 |
階層 | クラスタリング | クラスタリング | AgglomerativeClustering | ボトムアップ(各観測がそれ独自のクラスタであり、マージされます)またはトップ・ダウン(すべての観測が1つのクラスタとして開始されます)のいずれか、および距離メトリックを使用してクラスタリングの階層を構築します。
データセットが大きくなく、クラスタ数が事前にわからない場合に使用します。 |
K平均法 | クラスタリング | クラスタリング | k-means | 最も近い平均値のクラスタに各観察が属するように、レコードをKクラスタに繰り返しパーティション化します。
クラスタリング・メトリック列に対して、必要なクラスタ数の一連の期待値とともに使用します。大規模なデータセットで適切に機能します。結果は実行ごとに異なります。 |
線形回帰 | 回帰 | 数値型 | 最小二乗法
リッジ Lasso |
ターゲット変数およびデータセット内のその他の属性間のモデリング関係に対する線形アプローチ。
属性が完全に相関していない場合に数値の予測に使用します。 |
ロジスティック回帰 | 回帰 | 二項分類子 | LogisticRegressionCV | カテゴリ従属変数の値の予測に使用します。従属変数は、1または0にコーディングされるデータを含む二項変数です。 |
Naive Bayes | 分類 |
二項分類子 多項分類子 |
GaussianNB | 特徴間に従属がないと見なすBayesの定理に基づく確率的な分類。
入力ディメンションが多数ある場合に使用します。 |
ニューラル・ネットワーク | 分類 |
二項分類子 多項分類子 |
MLPClassifier | 分類結果を実際の値と比較して学習し、それをネットワークに返し、さらなる反復のためにアルゴリズムを変更する反復分類アルゴリズム。
テキスト分析に使用します。 |
ランダム・フォレスト | 分類 |
二項分類子 多項分類子 数値型 |
- | 複数のディシジョン・ツリーを構築し、すべてのディシジョン・ツリーを集合的に表す値を出力するアンサンブル学習法です。
数値およびカテゴリ変数の予測に使用します。 |
SVM | 分類 |
二項分類子 多項分類子 |
LinearSVC、SVC | レコードを空間にマッピングし、分類に使用できる超平面を構築することでレコードを分類します。新規レコード(スコアリング・データ)は空間にマップされ、それがあてはまる超平面の面に基づくカテゴリに属することが予測されます。 |
Oracle Autonomous Data Warehouseのデータを使用する場合、そのAutoML機能を使用して予測モデルの推奨およびトレーニングを行うことができます。AutoMLによってデータが分析され、使用する最善のアルゴリズムが計算され、データに関する予測を実行できるように予測モデルがOracle Analyticsに登録されます。
OML_Developer
ロールを持っていること、および'admin'スーパーユーザーではないことを確認してください。そうしない場合、データ・フローを保存または実行しようとすると失敗します。上級データ・アナリストは、予測モデルを作成およびトレーニングして、それらの使用によりOracle Machine Learningアルゴリズムをデプロイし、データセットのマイニング、ターゲット値の予測、またはレコードのクラスの識別を行うことができます。予測モデルの作成やトレーニング、データへの適用には、データ・フロー・エディタを使用します。
正確なモデルへの到達とは反復的なプロセスであり、上級データ・アナリストは、様々なモデルを試し、その結果を比較して、試行の繰返しに基づきパラメータを微調整します。データ・アナリストは、最終決定された正確な予測モデルを使用して、他のデータセット内のトレンドを予測したり、ワークブックにモデルを追加したりできます。
注:
Oracle Autonomous Data Warehouseがソースのデータを使用している場合は、AutoML機能を使用すると、機械学習のスキルがなくても予測モデルをすばやく簡単に自動でトレーニングできます。Autonomous Data WarehouseのAutoMLを使用した予測モデルのトレーニングに関する項を参照してください。Oracle Analyticsは、数値予測、多項分類、二項分類およびクラスタリングのためのアルゴリズムを提供しています。
Oracle Analyticsでは、データ・フローのステップを使用して、機械学習モデルをトレーニングできます。機械学習モデルのトレーニングを完了したら、「モデルの適用」ステップを使用して、データに適用します。
ステップ名 | 説明 |
---|---|
AutoML (Oracle Autonomous Data Warehouseが必要) | 予測モデルの推奨やトレーニングには、Oracle Autonomous Data WarehouseのAutoML機能を使用します。AutoMLステップによってデータが分析され、使用する最善のアルゴリズムが計算され、予測モデルがOracle Analyticsに登録されます。 |
二項分類子のトレーニング |
機械学習モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類します。 |
クラスタリングのトレーニング | 機械学習モデルをトレーニングして、似たような特質を持つグループを分離し、それらをクラスタに割り当てます。 |
多項分類子のトレーニング | 機械学習モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類します。 |
数値予測のトレーニング | 機械学習モデルをトレーニングして、既知のデータ値に基づいて数値を予測します。 |
予測モデルを作成し、データ・フローを実行すると、モデルに関する情報を確認して、その正確性を判断できます。この情報を使用して、モデルの設定を繰り返し調整することで、その正確性を向上させ、より質の高い結果を予測します。
予測モデルの詳細情報は、モデルの理解およびデータの予測に適しているかどうかの判断に役立ちます。モデルの詳細には、そのモデル・クラス、アルゴリズム、入力列および出力列が含まれます
予測モデルの質の理解に役立つ情報を表示します。たとえば、モデル精度、適合率、再現率、F1値、偽陽性比率などの正確性のメトリックを確認できます。
データ・フローを実行してOracle Analytics予測モデルのトレーニング・モデルを作成すると、Oracle Analyticsによって一連の関連データセットが作成されます。これらのデータセットについてワークブックを開き作成すると、モデルの正確性を確認できます。
関連データセットには、モデルに選択したアルゴリズムに応じて、予測ルール、正確性メトリック、混同マトリックス、予測のキー・ドライバなどのモデルに関する詳細が含まれます。この情報を使用して、より質の高い結果を得られるようにモデルを微調整したり、関連データセットを使用してモデルを比較し、どのモデルがより正確かを決定したりできます。
たとえば、ドライバ・データセットを開いて、どの列に、モデルに対するプラスまたはマイナスの強い影響があるかを検出できます。これらの列を確認することで、一部の列が、現実的な入力ではないためモデル変数として扱われないこと、またはそれらが予測に対して細分化されすぎていることがわかります。データ・フロー・エディタを使用してモデルを開き、検出した情報に基づいて、関係のない、または細分化されすぎている列を除去し、モデルを再生成します。「品質」および「結果」タブを確認して、モデルの正確性が向上しているかどうかを確認します。デルの正確性に満足し、新しいデータセットのスコアリングの準備が完了するまで、このプロセスを続行します。
様々なアルゴリズムにより、類似の関連データセットが生成されます。個々のパラメータおよび列名は、アルゴリズムのタイプに応じてデータセット内で変わる場合がありますが、データセットの機能は変わりません。たとえば、統計データセット内の列名は、線形回帰からロジスティック回帰に変更される場合がありますが、統計データセットには、モデルの正確性メトリックが含まれます。
AutoMLモデルの関連データセット
AutoMLを使用して予測モデルをトレーニングすると、Oracle Analyticsによって、モデルに関する有益な情報を含む追加のデータセットが作成されます。作成されるデータセット数はモデル・アルゴリズムによって異なります。たとえば、Naive Bayesモデルの場合、Oracle Analyticsによって条件付き確率に関する情報を提供するデータセットが作成されます。ディシジョン・ツリー・モデルの場合、データセットは、ディシジョン・ツリー統計に関する情報を提供します。一般化線形モデル(GLM)アルゴリズムを使用して、AutoMLによって生成されたモデルを検査する際、モデルに関するメタデータ情報を含むモデル固有のデータセットのGLM*という接頭辞付きのエントリが表示されます。
.pngの説明
関連データセット
注:
Oracle Analyticsは、関連データセット・タイプにデータフローの出力名を付加します。たとえば、CARTモデルでは、データ・フローの出力の名前がcart_model2の場合、データセットの名前はcart_model2_CARTです。CART
Oracle Analyticsは、CART (分類および回帰ツリー)関連データセットの表を作成します。これには、ディシジョン・ツリーの条件および条件の基準、各グループの予測、および予測の信頼度を表す列が含まれます。ツリー・ダイアグラム・ビジュアライゼーションを使用して、このディシジョン・ツリーをビジュアル化します。
CARTデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
二項分類 | CART |
多項分類 | CART |
分類レポート
Oracle Analyticsは、分類レポート関連データセットの表を作成します。たとえば、ターゲット列に2つの個別の値(「はい」または「いいえ」)を指定できる場合、このデータセットは、ターゲット列の各個別の値に対する、F1、適合率(Precision)、再現率(Recall)、サポート(この値を含むトレーニング・データセット内の行数)などの正確性メトリックを表示します。
分類データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
混同マトリックス
Oracle Analyticsは、エラー・マトリックスとも呼ばれる混同マトリックス関連データセットのピボット表を作成します。各行は予測されたクラスのインスタンスを表し、各列は実際のクラス内のインスタンスを表します。この表は、偽陽性、偽陰性、真陽性および真陰性の数を示しており、これらは適合率(precision)、再現率(recall)およびF1の正確性メトリックの算出に使用されます。
混同マトリックス・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
多項分類 |
CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
ドライバ
Oracle Analyticsは、ドライバ関連データセットの表を作成します。これには、ターゲット列の値を決定する列に関する情報が含まれています。これらの列の識別には、線形回帰が使用されます。各列には、係数および相関値が割り当てられます。係数値は、ターゲット列の値を決定するために使用される列の加重時間を表しています。相関値は、ターゲット列と依存列の間の関係の方向を示しています。たとえば、ターゲット列の値は、依存列に基づいて増加または減少する場合などがあります。
ドライバ・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 |
二項分類 |
ロジスティック回帰 サポート・ベクター・マシン |
多項分類 | サポート・ベクター・マシン |
Hitmap
Oracle Analyticsは、Hitmap関連データセットの表を作成します。これには、ディシジョン・ツリーのリーフ・ノードに関する情報が含まれています。表の各行はリーフ・ノードを表しており、セグメント・サイズ、信頼度および予測される行数など、リーフ・ノードが表す内容を説明する情報を含んでいます。たとえば、予期される正しい予測数 = セグメント・サイズ * 信頼度などがあります。
Hitmapデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
数値 | 数値予測のCART |
残差
Oracle Analyticsは、残差関連データセットの表を作成します。これには、残差予測の品質に関する情報が含まれています。残差とは、測定値と回帰モデルの予測値の差分です。このデータセットには、データセット内のすべての列に対する実際値と予測値の絶対差分の集計合計値が含まれます。
残差データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 数値予測のCART |
二項分類 | CART (ディシジョン・ツリー) |
多項分類 | CART (ディシジョン・ツリー) |
統計
Oracle Analyticsは、統計関連データセットの表を作成します。このデータセットのメトリックは、その生成に使用されたアルゴリズムによって異なります。アルゴリズムに基づくメトリックの次のリストを参照してください。
このデータセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
数値 |
線形回帰 Elastic Net線形回帰 数値予測のCART |
二項分類 |
ロジスティック回帰 CART (ディシジョン・ツリー) Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク ランダム・フォレスト サポート・ベクター・マシン |
サマリー
Oracle Analyticsは、サマリー関連データセットの表を作成します。これには、ターゲット名やモデル名などの情報が含まれています。
サマリー・データセットは、これらのモデルとアルゴリズムの組合せを選択したときに作成されます。
モデル | アルゴリズム |
---|---|
二項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
多項分類 |
Naive Bayes ニューラル・ネットワーク サポート・ベクター・マシン |
関連データセットは、予測モデルをトレーニングすると生成されます。