トレーニング・モデル・アルゴリズムを選択する方法
Oracle Analyticsには、機械学習のモデル化のニーズ(数値予測、複数分類子、バイナリ分類子、およびクラスタリング)用のアルゴリズムが用意されています。
Oracleの機械学習機能は、検索対象が何であるか、予測分析の実践方法の詳細、およびアルゴリズム間の相違点を理解している高度なデータ・アナリストを対象としています。
通常、ユーザーは、複数の予測モデルを作成して比較し、ユーザーの基準と要件を満たす結果をもらたす可能性が最も高いものを選択することを求めています。これらの基準は異なる場合があります。たとえば、ユーザーは、全体の精度がより高いモデルを選択したり、タイプI (偽陽性)とタイプII (偽陰性)のエラーが最も少ないモデルを選択したり、結果が最適ではないとしても、許容レベルの精度を持つ結果をより速く返すモデルを選択したりする場合があります。
Oracle Analyticsには、予測または分類の種類ごとに複数の機械学習アルゴリズムが含まれています。これらのアルゴリズムを使用すると、ユーザーは複数のモデルを作成することも、微調整されたパラメータを複数使用することも、複数の入力トレーニング・データセットを使用して最適なモデルを選択することもできます。ユーザーは、独自の基準に基づいてモデルを比較および重み付けすることにより、最適なモデルを選択できます。ユーザーは、最適なモデルを決定するために、モデルを適用して計算の結果を視覚化し、精度を決定したり、Oracle Analyticsで出力にモデルを使用した関連データ・セットを開いて探索できます。「関連データ・セットとは」を参照してください。
提供されているアルゴリズムの詳細は、次の表を参照してください。
名前 | タイプ | カテゴリ | 関数 | 説明 |
---|---|---|---|---|
CART |
分類 回帰 |
二項分類子 多項分類子 数値 |
- | ディシジョン・ツリーを使用して、離散値と連続値の両方を予測します。
大規模なデータ・セットで使用します。 |
Elastic Net線形回帰 | 回帰 | 数値 | ElasticNet | 高度な回帰モデル。追加情報(正則化)を提供し、変数選択を実行し、一次結合を実行します。LassoおよびRidge回帰法のペナルティ。
多数の属性とともに使用して、共線性(複数の属性が完全に相関関係にある状態)およびオーバーフィットを回避します。 |
階層 | クラスタリング | クラスタリング | AgglomerativeClustering | ボトムアップ(各観察はそれぞれ独自のクラスタであり、後でマージされます)またはトップダウン(すべての観察が1つのクラスタとして開始されます)および距離メトリックを使用して、クラスタリングの階層を構築します。
データ・セットが大きくなく、事前にクラスタ数がわからない場合に使用します。 |
K-Means | クラスタリング | クラスタリング | k-means | 反復的にレコードをkクラスタにパーティション化し、各観察が最も近い平均値を持つクラスタに属するようにします。
メトリック列をクラスタ化し、必要なクラスタの数が見込まれている場合に使用します。大きなデータセットの場合に有効に機能します。結果は実行ごとに異なります。 |
線形回帰 | 回帰 | 数値 | 単純最小自乗法
Ridge Lasso |
データ・セット内のターゲット変数とその他の属性間のモデル化関係に対する線形アプローチ。
属性が完全に相関していない場合に、数値を予測するために使用します。 |
ロジスティック回帰 | 回帰 | 二項分類子 | LogisticRegressionCV | カテゴリ依存変数の値を予測するために使用します。依存変数は、1または0にコーディングされたデータを含むバイナリ変数です。 |
Naive Bayes | 分類 |
二項分類子 多項分類子 |
GaussianNB | 機能間に依存性がないことを前提としたベイズの理論に基づく確率的な分類。
入力ディメンションが多数ある場合に使用します。 |
ニューラル・ネットワーク | 分類 |
二項分類子 多項分類子 |
MLPClassifier | 分類結果と実際の値を比較して学習し、その結果をネットワークに返してその後の反復のためにアルゴリズムを変更する反復分類アルゴリズム。
テキスト分析に使用します。 |
ランダム・フォレスト | 分類 |
二項分類子 多項分類子 数値 |
- | 複数のディシジョン・ツリーを構成し、すべてのディシジョン・ツリーをまとめて表す値を出力するアンサンブル学習法。
数値およびカテゴリ変数を予測するために使用します。 |
SVM | 分類 |
二項分類子 多項分類子 |
LinearSVC、SVC | レコードを空間内でマッピングし、分類に使用できる超平面を構築することで、レコードを分類します。新しいレコード(スコアリング・データ)は空間にマップされ、カテゴリに属すると予測されます。これは、レコードが属する超平面の側に基づきます。 |