36.5 CREATE_MODELプロシージャ

DBMS_DATA_MININGパッケージのCREATE_MODELプロシージャでは、指定のデータを使用して機械学習のモデルを作成します(作成の際に、モデルの名前と機械学習ファンクションを指定します)。

モデルは、構成設定とユーザー指定の変換を使用して作成できます。

PROCEDURE CREATE_MODEL(
                  model_name            IN VARCHAR2,
                  mining_function       IN VARCHAR2,
                  data_table_name       IN VARCHAR2,
                  case_id_column_name   IN VARCHAR2,
                  target_column_name    IN VARCHAR2 DEFAULT NULL,
                  settings_table_name   IN VARCHAR2 DEFAULT NULL,
                  data_schema_name      IN VARCHAR2 DEFAULT NULL,
                  settings_schema_name  IN VARCHAR2 DEFAULT NULL,
                  xform_list            IN TRANSFORM_LIST DEFAULT NULL);

DBMS_DATA_MININGパッケージのRENAME_MODELプロシージャを使用して、モデルの名前を変更することもできます。このプロシージャは、MODEL_NAMEに指定された機械学習モデルの値を、指定された別の名前に変更します。

次の例では、サポート・ベクター・マシン・アルゴリズムを使用して分類モデルを作成します。

 Create the settings table 
CREATE TABLE svm_model_settings (
  setting_name  VARCHAR2(30),
  setting_value VARCHAR2(30));

-- Populate the settings table
-- Specify SVM. By default, Naive Bayes is used for classification.
-- Specify ADP. By default, ADP is not used.
BEGIN 
  INSERT INTO svm_model_settings (setting_name, setting_value) VALUES
     (dbms_data_mining.algo_name, dbms_data_mining.algo_support_vector_machines);
  INSERT INTO svm_model_settings (setting_name, setting_value) VALUES
     (dbms_data_mining.prep_auto,dbms_data_mining.prep_auto_on);
  COMMIT;
END;
/
-- Create the model using the specified settings 
BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'svm_model',
    mining_function     => dbms_data_mining.classification,
    data_table_name     => 'mining_data_build_v',
    case_id_column_name => 'cust_id',
    target_column_name  => 'affinity_card',
    settings_table_name => 'svm_model_settings');
END;
/

36.5.1 機械学習手法の選択

CREATE_MODELおよびCREATE_MODEL2 プロシージャに使用可能なOracle Machine Learning for SQL機械学習機能について説明します。

OML4SQL機械学習手法は、モデル化して解決できる問題の種類を指定します。機械学習の指定には、CREATE_MODELおよびCREATE_MODEL2プロシージャのmining_function引数を使用します。

OML4SQL機械学習ファンクションは、教師あり学習または教師なし学習のどちらかを実装しています。教師あり学習では、独立属性のセットを使用して従属属性の値またはターゲットを予測します。教師なし学習では従属属性と独立属性は区別されません。教師あり機能は予測的です。教師なし機能は記述的です。

ノート:

OML4SQLの用語では、機能(function)機械学習への特定のアプローチによって解決される一般的な問題の種類を表します。SQL言語の用語では、関数(function)は結果を戻す演算子を表します。

OML4SQLのドキュメントでは、ファンクションまたは機械学習ファンクションという用語は、OML4SQL機械学習のファンクションを表します。SQL関数またはSQL機械学習関数という用語は、スコアリング(機械学習のモデルを適用すること)に対応するSQL関数を表します。

CREATE_MODELおよびCREATE_MODEL2プロシージャのmining_functionパラメータには、次の表の任意の値を指定できます。

表36-7 Oracle Machine Learningのmining_function値

mining_functionの値 説明

ASSOCIATION

相関は、記述の機械学習ファンクションの一種です。相関モデルによって、データ・セット内に存在する関係とその発生確率(相関ルール)を特定します。

相関モデルではAprioriアルゴリズムが使用される。

ATTRIBUTE_IMPORTANCE

属性重要度は、予測の機械学習ファンクションの一種です。属性評価モデルは、特定の結果を予測する中で属性の相対的な重要度を識別する。

属性重要度のモデルでは、最小記述長アルゴリズムとCUR行列分解が使用されます。

CLASSIFICATION

分類は、予測の機械学習ファンクションの一種です。分類モデルは、履歴データを使用して質的ターゲットを予測する。

分類のモデルでは、Naive Bayes、ニューラル・ネットワーク、デシジョン・ツリー、ロジスティック回帰、ランダム・フォレスト、サポート・ベクター・マシン、明示的セマンティック分析またはXGBoostを使用できます。デフォルトはNaive Bayes。

分類の機械学習ファンクションは、1クラスSVMモデルおよび多変量状態推定法 - 逐次確率比検定モデルの異常検出に指定することもできます。

CLUSTERING

クラスタリングは、記述の機械学習ファンクションの一種です。クラスタリング・モデルは、データセットの中で自然なグループを識別する。

クラスタリング・モデルでは、k-Means、O-Clusterまたは期待値の最大化を使用できます。デフォルトはk-Means。

FEATURE_EXTRACTION

特徴抽出は、記述の機械学習ファンクションの一種です。特徴抽出モデルは、最適化された属性のセットを作成する。

特徴抽出モデルでは、Non-Negative Matrix Factorization、特異値分解(主成分分析にも使用可能)または明示的セマンティック分析が使用される。デフォルトはNon-Negative Matrix Factorization。

REGRESSION

回帰は、予測の機械学習ファンクションの一種です。回帰モデルは、履歴データを使用して量的ターゲットを予測する。

回帰のモデルでは、サポート・ベクター・マシン、GLM回帰またはXGBoostを使用できます。デフォルトはサポート・ベクター・マシン。

TIME_SERIES

時系列は、予測の機械学習ファンクションの一種です。時系列モデルは、ユーザー指定の時間ウィンドウに渡って時間順に並べられた過去の数値データに関する将来の値を予測します。時系列モデルでは、指数平滑法アルゴリズムが使用されます。デフォルトは指数平滑法です。

36.5.2 アルゴリズムの選択

モデルのアルゴリズム設定の指定について学習します。

ALGO_NAME設定では、モデルのアルゴリズムを指定できます。機械学習手法にデフォルトのアルゴリズムを使用する場合や、機械学習手法に使用可能なアルゴリズムが1つのみの場合は、ALGO_NAME設定を指定する必要はありません。

表36-8 Oracle Machine Learningのアルゴリズム

ALGO_NAMEの値 アルゴリズム デフォルトかどうか 機械学習モデルのファンクション

ALGO_AI_MDL

最小記述長

属性重要度

ALGO_APRIORI_ASSOCIATION_RULES

Apriori

相関

ALGO_CUR_DECOMPOSITION

CUR行列分解

属性重要度

ALGO_DECISION_TREE

デシジョン・ツリー

分類

ALGO_EXPECTATION_MAXIMIZATION

期待値最大化

クラスタリングおよび異常検出

ALGO_EXPLICIT_SEMANTIC_ANALYS

明示的セマンティック分析

特徴抽出および分類

ALGO_EXPONENTIAL_SMOOTHING

指数平滑法

時系列および時系列回帰

ALGO_EXTENSIBLE_LANG

拡張可能アルゴリズムで使用される言語

すべての機械学習ファンクションがサポートされます

ALGO_GENERALIZED_LINEAR_MODEL

一般化線形モデル

分類回帰

ALGO_KMEANS

k-Means

デフォルト

クラスタリング

ALGO_MSET_SPRT

多変量状態推定法 - 逐次確率比検定

異常検出(ターゲットのない分類)

ALGO_NAIVE_BAYES

Naive Bayes

デフォルト

分類

ALGO_NEURAL_NETWORK

ニューラル・ネットワーク

分類

ALGO_NONNEGATIVE_MATRIX_FACTOR

Non-Negative Matrix Factorization

デフォルト

特徴抽出

ALGO_O_CLUSTER

O-Cluster

クラスタリング

ALGO_RANDOM_FOREST

ランダム・フォレスト

分類

ALGO_SINGULAR_VALUE_DECOMP

特異値分解(主成分分析にも使用可能)

特徴抽出

ALGO_SUPPORT_VECTOR_MACHINES

サポート・ベクター・マシン

デフォルト

デフォルトの回帰アルゴリズム。回帰分類および異常検出(ターゲットのない分類)

ALGO_XGBOOST

XGBoost

分類回帰

36.5.3 変換の指定

xform_listを使用して、モデル作成プロシージャに変換を指定します。

必要に応じて、xform_listパラメータの作成データの変換を、CREATE_MODEL2およびCREATE_MODELプロシージャに指定できます。変換の指示がモデル内に組み込まれ、新しいデータへのモデルの適用時には常にその変換指示が再適用されます。

36.5.3.1 変換リストの作成

DBMS_DATA_MINING_TRANSFORMパッケージを使用して、変換リストを作成できます。

変換リストを作成する方法は次のとおりです。

  • DBMS_DATA_MINING_TRANSFORMSTACKインタフェース。

    STACKインタフェースは、属性または属性のグループに適用可能な事前定義された変換のセットを提供します。たとえば、すべての質的属性に対して教師ありビニングを指定することができます。

  • DBMS_DATA_MINING_TRANSFORMSET_TRANSFORMプロシージャ。

    SET_TRANSFORMプロシージャは、指定されたSQL式を指定された属性に適用します。たとえば、次の文では、country_idの変換指示を、my_xformsという変換リストに追加します。変換指示は、アルゴリズムの処理が開始される前にcountry_idを10で割ります。逆変換はcountry_idに10を掛けます。

      dbms_data_mining_transform.SET_TRANSFORM (my_xforms,
         'country_id', NULL, 'country_id/10', 'country_id*10');
    

    逆変換はモデルの詳細で適用されます。country_idが教師ありモデルのターゲットである場合、逆変換はスコアリングされるターゲットにも適用されます。

36.5.3.2 変換リストおよび自動データ準備

変換リストおよび自動データ準備(ADP)を指定して、データ変換をカスタマイズできます。

CREATE_MODEL2およびCREATE_MODELに対する変換リスト引数は、ADPを制御するPREP_AUTO設定と相互作用します

  • ADPが有効で、変換リストを指定した場合、ユーザー指定の変換は自動変換とともに適用されてモデルに組み込まれます。指定した変換は、自動変換の前に処理されます。

  • ADPが無効で、変換リストを指定した場合、ユーザー指定の変換が適用されてモデルに組み込まれますが、システム生成の変換は実行されません。

  • ADPが有効で、変換リストを指定しなかった場合、システム生成の変換が適用されてモデルに組み込まれます。

  • ADPが無効で、変換リストも指定しなかった場合、変換はモデルに組み込まれません。モデルの作成、テストおよびスコアリングに使用するデータセットは別個に準備する必要があります。