予測モデル・アルゴリズムの選択方法
Oracle Analyticsには、機械学習のモデル化のニーズ(数値予測、複数分類子、バイナリ分類子、およびクラスタリング)用のアルゴリズムが用意されています。
Oracleの機械学習機能は、検索対象が何であるか、予測分析の実践方法の詳細、およびアルゴリズム間の相違点を理解している高度なデータ・アナリストを対象としています。
ノート:
Oracle Autonomous AI Lakehouseがソースのデータを使用している場合は、AutoML機能を使用すると、機械学習のスキルがなくても予測モデルをすばやく簡単にトレーニングできます。Autonomous Data WarehouseのAutoMLを使用した予測モデルのトレーニングに関する項を参照してください。通常、ユーザーは、複数の予測モデルを作成して比較し、ユーザーの基準と要件を満たす結果をもらたす可能性が最も高いものを選択することを求めています。これらの基準は異なる場合があります。たとえば、ユーザーは、全体の精度がより高いモデルを選択したり、タイプI (偽陽性)とタイプII (偽陰性)のエラーが最も少ないモデルを選択したり、結果が最適ではないとしても、許容レベルの精度を持つ結果をより速く返すモデルを選択したりする場合があります。
Oracle Analyticsには、各種の予測または分類向けに、複数の機械学習アルゴリズムがあります。ユーザーは、これらのアルゴリズムを使用して、複数のモデルを作成することも、細かく調整された各種パラメータを使用することも、様々な入力トレーニング・データセットを使用してから最適なモデルを選択することも可能です。最適なモデルは、ユーザー独自の基準に対してモデルを比較し、重み付けすることで選択できます。最適なモデルを判断するには、モデルを適用し、計算の結果をビジュアル化して精度を判断するか、Oracle Analyticsでモデルを使用して出力された関連データセットを開いて調査します。
提供されているアルゴリズムについて学習するには、次の表を参照してください。
| 名前 | タイプ | カテゴリ | 関数 | 説明 |
|---|---|---|---|---|
| CART |
分類 回帰 |
二項分類子 多項分類子 数値 |
- | デシジョン・ツリーを使用して、離散値と連続値の両方を予測します。
大規模データセットに使用します。 |
| Elastic Net線形回帰 | 回帰 | 数値 | ElasticNet | 高度な回帰モデル。追加情報(正則化)を提供し、変数選択を実行し、一次結合を実行します。LassoおよびRidge回帰法のペナルティ。
多数の属性とともに使用して、共線性(複数の属性が完全に相関関係にある状態)およびオーバーフィットを回避します。 |
| 階層 | クラスタリング | クラスタリング | AgglomerativeClustering | ボトムアップ(各観察はそれぞれ独自のクラスタであり、後でマージされます)またはトップダウン(すべての観察が1つのクラスタとして開始されます)および距離メトリックを使用して、クラスタリングの階層を構築します。
データセットが大規模ではなく、クラスタの数が事前にわからない場合に使用します。 |
| K-Means | クラスタリング | クラスタリング | k-means | 反復的にレコードをkクラスタにパーティション化し、各観察が最も近い平均値を持つクラスタに属するようにします。
メトリック列をクラスタ化し、必要なクラスタの数が見込まれている場合に使用します。大きなデータセットの場合に有効に機能します。結果は実行ごとに異なります。 |
| 線形回帰 | 回帰 | 数値 | 単純最小自乗法
Ridge Lasso |
データセット内のターゲット変数とその他の属性間のモデリング関係に対する線形アプローチ。
属性が完全に相関していない場合に、数値を予測するために使用します。 |
| ロジスティック回帰 | 回帰 | 二項分類子 | LogisticRegressionCV | カテゴリ依存変数の値を予測するために使用します。依存変数は、1または0にコーディングされたデータを含むバイナリ変数です。 |
| Naive Bayes | 分類 |
二項分類子 多項分類子 |
GaussianNB | 機能間に依存性がないことを前提としたベイズの理論に基づく確率的な分類。
入力ディメンションが多数ある場合に使用します。 |
| ニューラル・ネットワーク | 分類 |
二項分類子 多項分類子 |
MLPClassifier | 分類結果と実際の値を比較して学習し、その結果をネットワークに返してその後の反復のためにアルゴリズムを変更する反復分類アルゴリズム。
テキスト分析に使用します。 |
| ランダム・フォレスト | 分類 |
二項分類子 多項分類子 数値 |
- | 複数のデシジョン・ツリーを構成し、すべてのデシジョン・ツリーをまとめて表す値を出力するアンサンブル学習法。
数値およびカテゴリ変数を予測するために使用します。 |
| SVM | 分類 |
二項分類子 多項分類子 |
LinearSVC、SVC | レコードを空間内でマッピングし、分類に使用できる超平面を構築することで、レコードを分類します。新しいレコード(スコアリング・データ)は空間にマップされ、カテゴリに属すると予測されます。これは、レコードが属する超平面の側に基づきます。 |