トレーニング・モデル・アルゴリズムの選択方法

Oracle Analyticsには、数値予測、多項分類子、二項分類子、クラスタリングなど、機械学習モデリングに必要なアルゴリズムが用意されています。

オラクル社の機械学習機能は、データで探すものがわかっていて、予測分析の実行に詳しく、アルゴリズム間の相違点を理解している上級データ・アナリスト向けです。

通常は、複数の予測モデルを作成してそれらを比較し、基準や条件を満たす結果を得られる可能性が最も高いモデルを選択します。これらの基準は変わる場合もあります。たとえば、全体の精度がより高いモデルを選択する場合もあれば、最も低いタイプI (偽陽性)やタイプII (偽陰性)のエラーがあるモデルを選択する場合や、理想的な結果でなくても、許容できるレベルの精度で、より速く結果を返すモデルを選択する場合もあります。

Oracle Analyticsには、各種の予測または分類向けに、複数の機械学習アルゴリズムがあります。ユーザーは、これらのアルゴリズムを使用して、複数のモデルを作成することも、細かく調整された各種パラメータを使用することも、様々な入力トレーニング・データセットを使用してから最適なモデルを選択することも可能です。最適なモデルは、ユーザー独自の基準に対してモデルを比較し、重み付けすることで選択できます。最適なモデルを判断するには、モデルを適用し、計算の結果をビジュアル化して精度を判断するか、Oracle Analyticsでモデルを使用して出力された関連データ・セットを開いて調査します。関連データ・セットとはを参照してください。

次の表を参考にして、用意されているアルゴリズムを確認してください。

名前 タイプ カテゴリ 関数 説明
CART

分類

回帰

二項分類子

多項分類子

数値

- ディシジョン・ツリーを使用して、離散値と連続値の両方を予測します。

大規模データ・セットに使用します。

エラスティック・ネット線形回帰 回帰 数値 ElasticNet 拡張回帰モデル。追加の情報(正則化)を提供し、変数の選択およびと線形結合を実行します。LassoおよびRidge回帰法のペナルティ。

共線性(複数の属性が完全に相関している)やオーバーフィットを避けるため、多数の属性とともに使用します。

階層型 クラスタリング クラスタリング AgglomerativeClustering ボトムアップ(各観察はそれ自体のクラスタであり、順次マージされる)またはトップダウン(すべての観察が1つのクラスタとして開始される)と、距離メトリックを使用してクラスタの階層を作成します。

データ・セットが大規模ではなく、クラスタの数が事前にわからない場合に使用します。

K平均法 クラスタリング クラスタリング k-means 最も近い平均のクラスタに各観察が属するkクラスタに、レコードを繰り返しパーティション化します。

メトリック列のクラスタ化に使用したり、予想される必要なクラスタ数を設定して使用します。大規模データ・セットに使用すると効果的です。結果は実行ごとに異なります。

線形回帰 回帰 数値 最小2乗法

Ridge

Lasso

データ・セット内のターゲット変数とその他の属性間のモデリング関係に対する線形アプローチ。

属性が完全には相関していない場合に、数値の予測に使用します。

ロジスティック回帰 回帰 二項分類子 LogisticRegressionCV カテゴリ依存変数の値の予測に使用します。依存変数は、1または0にコード化されたデータを含むバイナリ変数です。
Naive Bayes 分類

二項分類子

多項分類子

GaussianNB 特徴の間に依存性がないことを前提としたBayesの定理に基づく確率的分類。

入力ディメンションが多数ある場合に使用します。

ニューラル・ネットワーク 分類

二項分類子

多項分類子

MLPClassifier 分類結果を実際の値と比較することで学習し、それをネットワークに返して今後の反復のためのアルゴリズムを変更する反復分類アルゴリズム。

テキスト分析に使用します。

ランダム・フォレスト 分類

二項分類子

多項分類子

数値

- 複数のディシジョン・ツリーを作成し、すべてのディシジョン・ツリーを一括して表す値を出力するアンサンブル学習手法。

数値変数やカテゴリ変数の予測に使用します。

SVM 分類

二項分類子

多項分類子

LinearSVC、SVC レコードを空間にマップし、分類に使用可能な超平面を作成することでレコードを分類します。新しいレコード(スコアリング・データ)は空間にマップされ、新しいレコードが属する超平面の側面に基づいて、あるカテゴリに属すると予測されます。