DBMS_DATA_MINING

42.1 DBMS_DATA_MINING

DBMS_DATA_MININGパッケージは、Oracle Machine Learning for SQLのモデルを作成、評価および問合せするためのアプリケーション・プログラミング・インタフェースです。

Oracle Databaseリリース21cでは、Oracle Data Miningという名称がOracle Machine Learning for SQL (OML4SQL)に変更されました。ただし、PL/SQLパッケージの名前はDBMS_DATA_MININGのまま変更されていません。

この章のトピックは、次のとおりです:

参照:

42.1.1 DBMS_DATA_MININGの概要

Oracle Machine Learning for SQLは、教師ありと教師なしの両方の機械学習をサポートしています。教師あり機械学習は、履歴データに基づいてターゲット値を予測します。教師なし機械学習は、自然なグループを検出するもので、ターゲットを使用しません。OML4SQLのプロシージャは、構造化データと非構造化テキストに使用できます。

教師あり機械学習手法には、次のものがあります。

分類
回帰
特徴選択(属性評価)
時系列

教師なし機械学習手法には、次のものがあります。

クラスタリング
相関
特徴抽出
異常検出

機械学習モデルを構築および適用するために使用するステップは、使用する機械学習手法およびアルゴリズムによって異なります。次の表に、Oracle Machine Learning for SQLでサポートされているアルゴリズムを示します。

条42-1 OML4SQLのアルゴリズム

アルゴリズム	略称	ファンクション
Apriori	AR	相関
CUR行列分解	CUR	属性重要度
デシジョン・ツリー	DT	分類
期待値の最大化	EM	クラスタリング
明示的セマンティック分析	ESA	特徴抽出、分類
指数平滑法	ESM	時系列
一般化線形モデル	GLM	分類、回帰
k-Means	KM	クラスタリング
最小記述長	MDL	属性重要度
多変量状態推定法 - 逐次確率比検定	MSET-SPRT	異常検出、分類
Naive Bayes	NB	分類
ニューラル・ネットワーク	NN	分類、回帰
Non-Negative Matrix Factorization	NMF	特徴抽出
直交パーティショニング・クラスタリング	O-Cluster	クラスタリング
ランダム・フォレスト	RF	分類
特異値分解および主成分分析	SVDおよびPCA	特徴抽出
サポート・ベクター・マシン	SVM	分類、回帰、異常検出
XGBoost	XGBoost	分類、回帰

OML4SQLでは、分類、回帰、クラスタリングおよび特徴抽出の機械学習手法に対して2つ以上のアルゴリズムをサポートしています。次の表に示すように、これらの機械学習手法には、それぞれデフォルトのアルゴリズムがあります。

表42-2 OML4SQLのデフォルト・アルゴリズム

マイニング機能	デフォルト・アルゴリズム
分類	Naive Bayes
クラスタリング	k-Means
特徴抽出	Non-Negative Matrix Factorization
特徴選択	最小記述長
回帰	サポート・ベクター・マシン
時系列	指数平滑法

42.1.2 DBMS_DATA_MININGのセキュリティ・モデル

DBMS_DATA_MININGパッケージは、ユーザーSYSによって所有され、データベース・インストールの一環としてインストールされます。このパッケージの実行権限は、PUBLICに付与されます。このパッケージ内のルーチンは、実行者権限(現行のユーザーの権限)を使用して実行されます。

DBMS_DATA_MININGパッケージは、Oracle Machine Learning for SQLで利用するAPIを公開するものです。自分が所有するスキーマ内に機械学習のモデルを作成するユーザーには、CREATE MINING MODELシステム権限が必要です。その他のスキーマ内に機械学習のモデルを作成するユーザーには、CREATE ANY MINING MODELシステム権限が必要です。

ユーザーは、独自のスキーマ内に存在するモデルの管理を完全に制御できます。その他のスキーマ内にある機械学習のモデルを管理するために必要な追加のシステム権限には、ALTER ANY MINING MODEL、DROP ANY MINING MODEL、SELECT ANY MINING MODEL、COMMENT ANY MINING MODELおよびAUDIT ANYがあります。

機械学習モデルに対する個別のオブジェクト権限であるALTER MINING MODELおよびSELECT MINING MODELを使用して、モデルに対する権限を異なるユーザーに選択的に付与できます。

参照:

OML4SQLのセキュリティ機能の詳細は、『Oracle Data Miningユーザーズ・ガイド』を参照してください。

42.1.3 DBMS_DATA_MINING — 機械学習のファンクション

機械学習のファンクションとは、特定の機械学習問題を解決するための方法を表します。

機械学習のファンクションは、モデルの作成時に指定する必要があります。機械学習のファンクションは、CREATE_MODELプロシージャまたはCREATE_MODEL2プロシージャのmining_functionパラメータで指定します。

表42-3 機械学習のファンクション

値	説明
`ASSOCIATION`	相関は、記述の機械学習ファンクションの一種です。相関モデルによって、データ・セット内に存在する関係とその発生確率が識別されます。相関モデルでは、Aprioriアルゴリズムが使用されます。
`ATTRIBUTE_IMPORTANCE`	属性重要度は、予測の機械学習ファンクションの一種で、特徴選択とも呼ばれます。属性評価モデルによって、特定の結果を予測する際の、属性の相対的な重要度が識別されます。属性重要度モデルには、最小記述長(MDL)またはCUR行列分解を使用できます。MDLはデフォルトです。
`CLASSIFICATION`	分類は、予測の機械学習ファンクションの一種です。分類モデルは、履歴データを使用して質的ターゲットを予測します。分類のモデルには、デシジョン・ツリー、ロジスティック回帰、多変量状態推定法 - 逐次確率比検定、Naive Bayes、サポート・ベクター・マシン(SVM)またはXGBoostを使用できます。デフォルトはNaive Bayes。分類ファンクションは、異常検出にも使用できます。異常検出には、多変量状態推定手法 - 順次確率比率テスト・アルゴリズム、またはnullターゲットを含むSVMアルゴリズム(1クラスSVM)、またはnullターゲットを含むEMアルゴリズム(EM異常)を使用できます。
`CLUSTERING`	クラスタリングは、記述の機械学習ファンクションの一種です。クラスタリング・モデルは、データセットの中で自然なグループを識別します。クラスタリングのモデルは、k-Means、O-Clusterまたは期待値最大化を使用できます。デフォルトはk-Means。
`FEATURE_EXTRACTION`	特徴抽出は、記述の機械学習ファンクションの一種です。特徴抽出モデルは、モデルのベースになる最適化されたデータセットを作成します。特徴抽出モデルでは、明示的セマンティック分析、Non-negative Matrix Factorization、特異値分解または主成分分析を使用できます。デフォルトはNon-Negative Matrix Factorizationです。
`REGRESSION`	回帰は、予測の機械学習ファンクションの一種です。回帰モデルは、履歴データを使用して量的ターゲットを予測します。回帰のモデルには、線形回帰、サポート・ベクター・マシンまたはXGBoostを使用できます。デフォルトはサポート・ベクター・マシン。
`TIME_SERIES`	時系列は、予測の機械学習ファンクションの一種です。時系列モデルは、ユーザー指定の時間ウィンドウに渡って時間順に並べられた過去の数値データに関する将来の値を予測します。時系列モデルでは、指数平滑法アルゴリズムを使用します。

参照:

マイニング機能の詳細は、『Oracle Machine Learning for SQL概要』を参照してください。

42.1.4 DBMS_DATA_MINING — モデル設定

Oracle Machine Learning for SQLは、モデルのアルゴリズムなどの特性を指定するために設定を使用します。設定には、一般的な設定と、機械学習のファンクションおよびアルゴリズムに固有の設定があります。

すべての設定にはデフォルト値があります。モデルの1つ以上の設定を上書きするには、設定表を作成する必要があります。設定表には、次の表に示す列名とデータ型を含める必要があります。

表42-4 モデル設定表に必要な列

列名	データ型
`SETTING_NAME`	`VARCHAR2(30)`
`SETTING_VALUE`	`VARCHAR2(4000)`

設定表に指定する情報は、モデルの作成時に使用されます。設定表の名前は、CREATE_MODELプロシージャのオプションの引数です。CREATE_MODEL2プロシージャを使用して、これらの設定を指定することもできます。

データ・ディクショナリ・ビューALL_MINING_MODEL_SETTINGSを問い合せると、モデルで使用される設定を検索できます。このビューには、アクセス権を持つ機械学習モデルで使用されるモデル設定が表示されます。デフォルトの設定値およびユーザーが指定した設定値がすべて、このビューに含まれます。

参照:

『Oracle Databaseリファレンス』のALL_MINING_MODEL_SETTINGSに関する説明
モデル設定の指定方法の詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

42.1.4.1 DBMS_DATA_MINING — アルゴリズム名

ALGO_NAME設定では、モデルのアルゴリズムが指定されます。

次の表に、ALGO_NAME設定の値を示します。

表42-5 アルゴリズム名

ALGO_NAMEの値	説明	機械学習ファンクション
`ALGO_AI_MDL`	最小記述長	属性重要度
`ALGO_APRIORI_ASSOCIATION_RULES`	Apriori	相関ルール
`ALGO_CUR_DECOMPOSITION`	CUR行列分解	属性重要度
`ALGO_DECISION_TREE`	デシジョン・ツリー	分類
`ALGO_EXPECTATION_MAXIMIZATION`	期待値の最大化	クラスタリング、分類
`ALGO_EXPLICIT_SEMANTIC_ANALYS`	明示的セマンティック分析	特徴抽出分類
`ALGO_EXPONENTIAL_SMOOTHING`	指数平滑法	時系列
`ALGO_EXTENSIBLE_LANG`	拡張可能アルゴリズムで使用される言語	サポートされるすべてのマイニング機能
`ALGO_GENERALIZED_LINEAR_MODEL`	一般化線形モデル	分類、回帰および特徴選択と特徴生成
`ALGO_KMEANS`	拡張k-Means	クラスタリング
`ALGO_MSET_SPRT`	多変量状態推定法 - 逐次確率比検定	分類
`ALGO_NAIVE_BAYES`	Naive Bayes	分類
`ALGO_NEURAL_NETWORK`	ニューラル・ネットワーク	分類
`ALGO_NONNEGATIVE_MATRIX_FACTOR`	Non-Negative Matrix Factorization	特徴抽出
`ALGO_O_CLUSTER`	O-Cluster	クラスタリング
`ALGO_RANDOM_FOREST`	ランダム・フォレスト	分類
`ALGO_SINGULAR_VALUE_DECOMP`	特異値分解	特徴抽出
`ALGO_SUPPORT_VECTOR_MACHINES`	サポート・ベクター・マシン	分類と回帰
`ALGO_XGBOOST`	XGBoost	分類と回帰

参照:

アルゴリズムの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.4.2 DBMS_DATA_MINING — 自動データ準備

Oracle Machine Learning for SQLでは、完全自動データ準備(ADP)、ユーザーが指示する一般的なデータ準備およびユーザー指定の埋込みデータ準備がサポートされます。PREP_*設定により、完全自動データ準備またはユーザーが指示する一般的なデータ準備をユーザーが要求できます。デフォルトでは、完全自動データ準備(PREP_AUTO_ON)が有効になっています。

ADPを有効にすると、モデルでは、経験則を使用し、アルゴリズムの要件に応じて作成データを変換します。ユーザーは、完全ADPのかわりに、PREP_SCALE*とPREP_SHIFT*の設定を使用したデータのシフトまたはスケール(あるいはその両方)を要求できます。変換命令は、モデルに格納され、モデルが適用されるたびに再利用されます。モデル設定は、USER_MINING_MODEL_SETTINGSで表示できます。

モデルの作成時にxform_listパラメータに追加の変換を指定することによって、自動データ準備を補うことができます。「CREATE_MODELプロシージャ」および「CREATE_MODEL2プロシージャ」を参照してください。

ADPを使用しないときに、CREATE_MODELへのxform_listパラメータで変換を指定しない場合は、作成データ、テスト・データおよびスコアリング・データのそれぞれに独自の変換を実装する必要があります。各データ・セットに同じ変換を実装する場合は特に注意してください。

ADPを使用しないときに、CREATE_MODELへのxform_listパラメータで変換を指定すると、OML4SQLは、モデルに変換定義を埋め込んで作成データと一致するようにテスト・データおよびスコアリング・データを準備するようになります。

次の表に、PREP_*設定の値を示します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.PREP_AUTO_ONです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'ON'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-6 PREP_*設定

設定名	定数値	文字列値等価	説明
`PREP_AUTO`	`PREP_AUTO_ON`	`ON`	この設定により、完全自動データ準備が有効になります。デフォルトは`PREP_AUTO_ON`です。
`PREP_AUTO`	`PREP_AUTO_OFF`	`OFF`	完全に自動化されたデータ準備を無効にします。
`PREP_SCALE_2DNUM`	`PREP_SCALE_STDDEV`	`PREP_SCALE_STDDEV`	この設定により、2次元数値列のスケーリングのデータ準備が有効になります。この変更を有効にするには、`PREP_AUTO`を`OFF`にする必要があります。 `PREP_SCALE_STDDEV`: 列の値を列の標準偏差で割る要求であり、多くの場合`PREP_SHIFT_MEAN`とともに指定されてz-スコアによる正規化が行われます。
`PREP_SCALE_2DNUM`	`PREP_SCALE_RANGE`	`PREP_SCALE_RANGE`	列の値を値の範囲で割る要求であり、多くの場合`PREP_SHIFT_MIN`とともに指定されて[0,1]の範囲が得られます。
`PREP_SCALE_NNUM`	`PREP_SCALE_MAXABS`	`PREP_SCALE_MAXABS`	この設定により、ネストした数値列のスケーリングのデータ準備が有効になります。この変更を有効にするには、`PREP_AUTO`を`OFF`にする必要があります。指定した場合、この設定の有効な値は`PREP_SCALE_MAXABS`で、これによって[-1,1]の範囲のデータが得られます。
`PREP_SHIFT_2DNUM`	`PREP_SHIFT_MEAN`	`PREP_SHIFT_MEAN`	この設定により、2次元数値列のセンタリングのデータ準備が有効になります。この変更を有効にするには、`PREP_AUTO`を`OFF`にする必要があります。 `PREP_SHIFT_MEAN`: 各値から列の平均が差し引かれます。
`PREP_SHIFT_2DNUM`	`PREP_SHIFT_MIN`	`PREP_SHIFT_MIN`	各値から列の最小値が差し引かれます。

参照:

データ変換の詳細は、Oracle® Machine Learning for SQLを参照してください

42.1.4.3 DBMS_DATA_MINING — 機械学習ファンクションの設定

この表で説明する設定は、機械学習ファンクションに適用されます。

表42-7 機械学習ファンクションの設定

機械学習ファンクション	設定名	設定値	説明
相関	`ASSO_MAX_RULE_LENGTH`	文字列として表される、2から20までの整数	相関ルールの長さの上限を設定します。計算時間の管理に役立ちます。ルールが短い(前件が少ない)ほど、メモリーの使用量が減り、計算時間が短くなります。表現: `TO_CHAR(3)` デフォルトは`4`です。
相関	`ASSO_MIN_CONFIDENCE`	文字列として表される、0から1までの浮動小数点数。	相関ルールの最小信頼度しきい値を定義します。このパラメータは、最小信頼度指定を満たすルールのみに焦点を当てて、生成されるルールの数を減らします。モデルのサイズが小さくなります。表現: `TO_CHAR(0.4)` デフォルトは`0.1`です。
相関	`ASSO_MIN_SUPPORT`	文字列として表される、0から1までの浮動小数点数。	相関ルールの最小支持度のしきい値を指定します。表現: `TO_CHAR(0.2)` デフォルトは`0.1`です。
相関	`ASSO_MIN_SUPPORT_INT`	正の整数	各ルールが満たす必要がある最小絶対支持度(整数)を決定します。アイテムセットが考慮されるために必要な発生数の具体的なベースラインを設定し、ルールが十分に頻繁なパターンに基づくようにします。デフォルトは`1`です。
相関	`ASSO_MIN_REV_CONFIDENCE`	文字列として表される、0から1までの浮動小数点数。	各相関ルールの最小逆確信度を設定します。この設定は、ルールをフィルタ処理して、前件のコンテキストのみでなく後件に関しても重要性を持つようにし、ルールの関連性を高めます。ルールの逆確信度は、ルールが発生するトランザクションの数を後件が発生するトランザクションの数で割ったものとして定義されています。値は0から1の実数になります。表現: `TO_CHAR(0.45)` デフォルトは`0`です。
相関	`ASSO_IN_RULES`	`NULL`	各相関ルールに含める必要があるアイテムのリストを指定します。アイテムのカンマ区切りの文字列を受け入れます。これらのうち少なくとも1つは、前件または後件として、すべてのレポート済ルールに現れる必要があります。このパラメータは、対象となる特定のアイテムに関連するルールに分析を集中させることで、相関ルールを特定の分析ニーズまたは仮説にあわせて調整するのに役立ちます。設定しない場合、デフォルトではフィルタ処理は適用されません。次に例を示します。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_in_rules, '''a'',''b''');`
相関	`ASSO_EX_RULES`	`NULL`	各関連ルールから除外するアイテムのリストを定義します。レポートされた相関ルールに表示されないアイテムをリストするカンマ区切りの文字列を受け入れます。ルール生成から特定のアイテムを省略する場合に必須です。これは、特定のアイテムが分析のコンテキストで無関係であるか、誤解を招くことが判明している場合に特に役立ちます。デフォルトは`NULL`です。次に例を示します。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_ex_rules, '''a'',''b''');`
相関	`ASSO_ANT_IN_RULES`	`NULL`	各相関ルールの前件部分の包含基準を決定します。各ルールの前件に少なくとも1つ現れる必要があるアイテムのカンマ区切りリストを受け入れます。特定のアイテムがルールの潜在的な原因として常に考慮されるようにターゲット設定し、分析のフォーカスを絞り込みます。デフォルトは`NULL`です。次に例を示します。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_ant_in_rules, '''a'',''b''');`
相関	`ASSO_ANT_EX_RULES`	`NULL`	相関ルールの前件の除外基準を設定します。各ルールの前件から除外するアイテムをリストするカンマ区切りの文字列。指定されたアイテムがルールで原因とみなされないようにし、無関係な組合せまたは既知の冗長な組合せを回避します。デフォルトは`NULL`です。次の例は、`CREATE_MODEL`プロシージャの使用時にこのパラメータを定義する方法を示しています。設定名(定数)および設定値を含む表を作成してから、`CREATE_MODEL`プロシージャを使用する必要があります。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_ant_ex_rules, '''a'',''b''');` 次の例は、文字列値を使用して`CREATE_MODEL2`プロシージャの使用時にこのパラメータを定義する方法を示しています。 %script BEGIN DBMS_DATA_MINING.DROP_MODEL('AR_SH_SAMPLE'); EXCEPTION WHEN OTHERS THEN NULL; END; / DECLARE v_setlst DBMS_DATA_MINING.SETTING_LIST; BEGIN v_setlst('ALGO_NAME') := 'ALGO_APRIORI_ASSOCIATION_RULES'; v_setlst('PREP_AUTO') := 'ON'; v_setlst('ASSO_MIN_SUPPORT') := '0.04'; v_setlst('ASSO_MIN_CONFIDENCE') := '0.1'; v_setlst('ASSO_MAX_RULE_LENGTH') := '2'; v_setlst('ASSO_ANT_EX_RULES') := '''a'',''b'''; v_setlst('ODMS_ITEM_ID_COLUMN_NAME'):= 'PROD_NAME'; v_setlst('ASSO_AGGREGATES') := 'AMOUNT_SOLD'; DBMS_DATA_MINING.CREATE_MODEL2( MODEL_NAME => 'AR_SH_SAMPLE', MINING_FUNCTION => 'ASSOCIATION', DATA_QUERY => 'select * from SALES_TRANS_CUST', SET_LIST => v_setlst, CASE_ID_COLUMN_NAME => 'CUST_ID'); END;
相関	`ASSO_CONS_IN_RULES`	`NULL`	各相関ルールの後件部分の包含基準を設定します。各ルールの後件に少なくとも1つ現れる必要があるアイテムのリストを指定します。特定のアイテムが常にルールの潜在的な結果とみなされるようにし、関心のある特定の影響に焦点を当てます。デフォルトは`NULL`です。次の例は、`CREATE_MODEL`プロシージャの使用時にこのパラメータを定義する方法を示しています。設定名(定数)および設定値を含む表を作成してから、`CREATE_MODEL`プロシージャを使用する必要があります。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_cons_in_rules, '''a'',''b''');` 次の例は、文字列値を使用して`CREATE_MODEL2`プロシージャの使用時にこのパラメータを定義する方法を示しています。 %script BEGIN DBMS_DATA_MINING.DROP_MODEL('AR_SH_SAMPLE'); EXCEPTION WHEN OTHERS THEN NULL; END; / DECLARE v_setlst DBMS_DATA_MINING.SETTING_LIST; BEGIN v_setlst('ALGO_NAME') := 'ALGO_APRIORI_ASSOCIATION_RULES'; v_setlst('PREP_AUTO') := 'ON'; v_setlst('ASSO_MIN_SUPPORT') := '0.04'; v_setlst('ASSO_MIN_CONFIDENCE') := '0.1'; v_setlst('ASSO_MAX_RULE_LENGTH') := '2'; v_setlst('ASSO_CONS_IN_RULES') := '''a'',''b'''; v_setlst('ODMS_ITEM_ID_COLUMN_NAME'):= 'PROD_NAME'; v_setlst('ASSO_AGGREGATES') := 'AMOUNT_SOLD'; DBMS_DATA_MINING.CREATE_MODEL2( MODEL_NAME => 'AR_SH_SAMPLE', MINING_FUNCTION => 'ASSOCIATION', DATA_QUERY => 'select * from SALES_TRANS_CUST', SET_LIST => v_setlst, CASE_ID_COLUMN_NAME => 'CUST_ID'); END;
相関	`ASSO_CONS_EX_RULES`	`NULL`	相関ルールの後件の除外基準を設定します。各ルールの後件から除外するアイテムを示すカンマ区切りの文字列。特定のアイテムをルールの結果から除外し、関連性のない結果や誤解を招く結果を削除します。除外ルールを使用すると、格納する必要があるルールを減らすことができますが、ユーザーは、異なる包含ルールまたは除外ルールを実行するための追加のモデルを作成する必要がある場合があります。デフォルトは`NULL`です。次の例は、`CREATE_MODEL`プロシージャの使用時にこのパラメータを定義する方法を示しています。設定名(定数)および設定値を含む表を作成してから、`CREATE_MODEL`プロシージャを使用する必要があります。 `INSERT INTO sett_tab (setting_name, setting_value) VALUES (dbms_data_mining.asso_cons_ex_rules, '''a'',''b''');` 次の例は、文字列値を使用して`CREATE_MODEL2`プロシージャの使用時にこのパラメータを定義する方法を示しています。 %script BEGIN DBMS_DATA_MINING.DROP_MODEL('AR_SH_SAMPLE'); EXCEPTION WHEN OTHERS THEN NULL; END; / DECLARE v_setlst DBMS_DATA_MINING.SETTING_LIST; BEGIN v_setlst('ALGO_NAME') := 'ALGO_APRIORI_ASSOCIATION_RULES'; v_setlst('PREP_AUTO') := 'ON'; v_setlst('ASSO_MIN_SUPPORT') := '0.04'; v_setlst('ASSO_MIN_CONFIDENCE') := '0.1'; v_setlst('ASSO_MAX_RULE_LENGTH') := '2'; v_setlst('ASSO_CONS_EX_RULES') := '''a'',''b'''; v_setlst('ODMS_ITEM_ID_COLUMN_NAME'):= 'PROD_NAME'; v_setlst('ASSO_AGGREGATES') := 'AMOUNT_SOLD'; DBMS_DATA_MINING.CREATE_MODEL2( MODEL_NAME => 'AR_SH_SAMPLE', MINING_FUNCTION => 'ASSOCIATION', DATA_QUERY => 'select * from SALES_TRANS_CUST', SET_LIST => v_setlst, CASE_ID_COLUMN_NAME => 'CUST_ID'); END;
相関	`ASSO_AGGREGATES`	`NULL`	相関ルールの集計の列を定義します。集計の列名のカンマ区切りリスト。10列に制限されます。アイテムとともに追加データを集計し、相関ルールにより多くのコンテキストを提供しますが、メモリーおよび計算の要件が増加する場合があります。 `ODMS_ITEM_ID_COLUMN_NAME`がトランザクションの入力データを指定するように設定されている場合、`ASSO_AGGREGATES`を指定できます。「DBMS_DATA_MINING - グローバル設定」を参照してください。`ODMS_ITEM_ID_COLUMN_NAME`および`case_id_column_name`からそれぞれ導出される`ITEM_ID`および`CASE_ID`のような有効な列名がデータ表に含まれている必要があります。数値がサポートされています。`ITEM_VALUE`は必須の値ではありません。デフォルトは`NULL`です。たとえば、次のようなトランザクション・データ表の場合: `CREATE OR REPLACE VIEW SALES_TRANS_CUST AS SELECT DISTINCT CUST_ID, PROD_NAME, PROD_CATEGORY FROM (SELECT A.CUST_ID, B.PROD_NAME, B.PROD_CATEGORY FROM SH.SALES A, SH.PRODUCTS B WHERE A.PROD_ID = B.PROD_ID AND A.CUST_ID BETWEEN 100001 AND 104500);` 次のようなモデルを作成できます: %script BEGIN DBMS_DATA_MINING.DROP_MODEL('AR_SH_SAMPLE'); EXCEPTION WHEN OTHERS THEN NULL; END; / DECLARE v_setlst DBMS_DATA_MINING.SETTING_LIST; BEGIN v_setlst('ALGO_NAME') := 'ALGO_APRIORI_ASSOCIATION_RULES'; v_setlst('PREP_AUTO') := 'ON'; v_setlst('ASSO_MIN_SUPPORT') := '0.04'; v_setlst('ASSO_MIN_CONFIDENCE') := '0.1'; v_setlst('ASSO_MAX_RULE_LENGTH') := '2'; v_setlst('ODMS_ITEM_ID_COLUMN_NAME'):= 'PROD_NAME'; v_setlst('ASSO_AGGREGATES') := 'AMOUNT_SOLD'; DBMS_DATA_MINING.CREATE_MODEL2( MODEL_NAME => 'AR_SH_SAMPLE', MINING_FUNCTION => 'ASSOCIATION', DATA_QUERY => 'select * from SALES_TRANS_CUST', SET_LIST => v_setlst, CASE_ID_COLUMN_NAME => 'CUST_ID'); END; デフォルトは`NULL`です。項目ごとに、ユーザーが集計対象の複数の列を指定できます。追加データをバッファする場合は、必要なメモリー量が増加します。また、入力データ・セットが大きくなり、操作が増えるため、パフォーマンスへの影響が発生する場合があります。
相関	`ASSO_ABS_ERROR`	`0`<`ASSO_ABS_ERROR`≤`MAX(ASSO_MIN_SUPPORT, ASSO_MIN_CONFIDENCE)`	相関ルールのサンプリングの絶対誤差を指定します。ルール・サンプリングの精度と計算効率のバランスを調整します。値を小さくすると、サンプルが大きくなり、結果がより正確になりますが、計算時間が長くなります。`ASSO_ABS_ERROR`にデフォルト値などの適切な値を設定し、サンプル・サイズが大きくならないようにします。デフォルト値は、`0.5` * `MAX(ASSO_MIN_SUPPORT, ASSO_MIN_CONFIDENCE)`です。
相関	`ASSO_CONF_LEVEL`	`0`≤ `ASSO_CONF_LEVEL` ≤ `1`	相関ルールのサンプルに対する信頼水準を設定します。信頼水準を高くすると、サンプル・サイズが大きくなります。0.9から1の間の値が適しています。デフォルト値は`0.95`です。
分類	`CLAS_COST_TABLE_NAME`	table_name	(デシジョン・ツリーのみ)モデル作成用のユーザー作成のコスト・マトリックス表を指定します。コスト・マトリックスでは、誤分類コストが指定されます。このパラメータは、特定のタイプの誤分類を優先するようにデシジョン・ツリー・モデルを調整し、特定のシナリオでのモデルの有効性を高めます。作成時には、デシジョン・ツリーのモデルのみがコスト・マトリックスを使用できます。適用時には、すべての分類アルゴリズムがコスト・マトリックスを使用できます。列の要件については、「ADD_COST_MATRIXプロシージャ」を参照してください。コストの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。
分類	`CLAS_PRIORS_TABLE_NAME`	table_name	(Naive Bayes)事前確率を格納するためにユーザーが作成した表を指定します。作成データとスコアリング・データの分散の差異を調整します。モデル・トレーニングを現実のデータ分布とより密接に連携させ、Naive Bayesモデルの予測精度を向上させます。列の要件については、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。事前確率の詳細は、『Oracle Machine Learning for SQL概要』を参照してください。
分類	`CLAS_WEIGHTS_TABLE_NAME`	table_name	(GLMおよびSVMのみ)ターゲット値の重みを格納するためにユーザーが作成した表を指定します。重みによって、高い重み付けのクラスのほうにモデルにバイアスがかかります。このパラメータは、GLMおよびSVMモデルを調整して、様々なクラスにフォーカスするか、バランスを取って、特定のターゲットに対するのモデルのパフォーマンスを向上させます。列の要件については、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。クラスの重みの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。
分類	`CLAS_WEIGHTS_BALANCED`	`ON` `OFF`	モデル内のターゲット分布のバランスを示します。出現頻度の低いターゲットに関連しており、平均精度を向上させることができます(優勢なクラスに有利な全体的な精度ではなく、クラスごとの精度の平均)。クラスが不均衡なデータ・セットで特に役立ち、出現頻度の低いイベントがモデルで適切に取得されるようにします。デフォルト値は`OFF`です。
分類	`CLAS_MAX_SUP_BINS`	デシジョン・ツリーの場合: 文字列として表される、2から2147483647までの整数を指定します。ランダム・フォレストの場合: 文字列として表される、2から254までの整数を指定します。	各属性のビンの最大数を指定します。データ・ビニングの細分度を管理し、モデルの複雑さに影響を与え、モデルの正確性と計算時間に影響を及ぼす可能性があります。デフォルト値は`32`です。表現: デシジョン・ツリーの場合: `2 <= a number <=2147483647` ランダム・フォレストの場合: `2 <= a number <=254` 「DBMS_DATA_MINING — 自動データ準備」を参照してください。
クラスタリング	`CLUS_NUM_CLUSTERS`	文字列として表される、1以上の整数	クラスタリング・アルゴリズムで生成されるリーフ・クラスタの最大数。このアルゴリズムでは、データによって、より少ない数のクラスタが返される場合があります。表現: `TO_CHAR(9)` 通常、拡張k-Meansでは、個別のデータ・ポイントの数の方が多ければ、`CLUS_NUM_CLUSTERS`で指定された数に正確に一致する数のクラスタが生成されます。期待値の最大化(EM)をクラスタリングに使用した場合、データによっては、`CLUS_NUM_CLUSTERS`で指定したよりも少ない数のクラスタが戻されることがあります。EMによって返されるクラスタ数は、アルゴリズム固有の設定で制御しているコンポーネント数を超えることはできません。(「学習用の期待値の最大化設定」の表を参照)。これらの設定によっては、コンポーネントよりもクラスタの数が少ない場合があります。コンポーネントのクラスタリングが無効な場合、クラスタの数はコンポーネントの数に等しくなります。この設定は、EMクラスタリング・アルゴリズムにのみ使用できます。 EMクラスタリング・アルゴリズムでは、`CLUS_NUM_CLUSTERS`のデフォルト値は、システムによって決定されます。k-MeansとO-Clusterでは、デフォルトは`10`になります。
特徴抽出	`FEAT_NUM_FEATURES`	文字列として表される、1以上の整数	特徴抽出モデルで抽出される特徴の数。表現: `TO_CHAR(8)` アルゴリズムによって、データからデフォルトが見積もられます。マトリックスのランクがこの数よりも小さい場合、戻される特徴は少なくなります。 CUR行列分解の場合、`FEAT_NUM_FEATURES`の値は`CURS_SVD_RANK`の値と同じです。

参照:

機械学習のファンクションの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.4.4 DBMS_DATA_MINING — グローバル設定

この表の構成の設定はあらゆるタイプのモデルに適用できますが、現在は特定のアルゴリズムに対してのみ実装されています。

表42-8 グローバル設定

設定名	設定値	説明
`ODMS_BOXCOX`	`ODMS_BOXCOX_ENABLE` `ODMS_BOXCOX_DISABLE`	この設定では、Box-Cox分散安定化変換を有効にします。これは、ターゲット値が大きくなるにつれて分散が大きくなる場合に便利です。これにより、分散が小さくなり、ターゲットとの乗法関係が変換されて、よりシンプルな加法関係になります。この設定は、指数平滑法アルゴリズムにのみ適用可能です。`EXSM_MODEL`設定の値が指定されていない場合、デフォルト値は`ODMS_BOXCOX_ENABLE`で、`EXSM_MODEL`設定の値が指定されている場合、デフォルト値は`ODMS_BOXCOX_DISABLE`です。
`ODMS_DEEPTREE`	`ODMS_DEEPTREE_DISABLE` `ODMS_DEEPTREE_ENABLE`	`ODMS_DEEPTREE_ENABLE`が指定されている場合、いずれかのアルゴリズムによる個々のツリーの構築は、最大深度が大きくなります。また、この設定値にすると、`TREE_TERM_MAX_DEPTH`のデフォルト値が、デシジョン・ツリーの場合は30に、ランダム・フォレストの場合は100に変更されます。`TREE_PRUNING_METHOD`のデフォルトも`TREE_PRUNING_NONE`に変更されます。さらに、`ODMS_DEEPTREE_ENABLE`にすると、デシジョン・ツリーとランダム・フォレストの終了条件のデフォルト値に対して変更が指定されます。`TREE_TERM_MINPCT_SPLIT`および`TREE_TERM_MINPCT_NODE`のデフォルト値は0になります。`TREE_TERM_MINREC_SPLIT`のデフォルト値は2になり、`TREE_TERM_MINREC_NODE`は1になります。`ODMS_DEEPTREE_ENABLE`値にすると、デシジョン・ツリーとランダム・フォレストの両方について、`CLAS_MAX_SUP_BINS`のデフォルト値も254に変更されます。`ODMS_DEEPTREE_ENABLE`にすると、 `RFOR_NUM_TREES`のデフォルト値が100に変更されます。ノート: `ODMS_DEEPTREE_ENABLE`を指定することでデフォルト値が変更された場合、その値は、関連する設定をユーザーが直接指定するとオーバーライドされます。 `ODMS_DEEPTREE_DISABLE`はデフォルト値であり、これを指定すると、デシジョン・ツリーとランダム・フォレストの現在の構築動作が維持されます。`ODMS_DEEPTREE_DISABLE`が指定されている場合や、`ODMS_DEEPTREE`の設定がそのデフォルト値のままである場合、現在のデフォルト値は変更されません。
`ODMS_EXPLOSION_MIN_SUPP`	正の整数	これは、展開マッピングに含まれている必要があるカテゴリ値の最低限必要なサポートです。これにより、モデルに対して統計的に有意な影響を及ぼすのに十分な行インスタンスがないカテゴリ値が削除されますが、パフォーマンスが低下する可能性があります。デフォルトは、データセット内の行数に応じて、システムによって決定されます。値`1`を指定すると、すべてのカテゴリ値がマッピングされます。
`ODMS_ITEM_ID_COLUMN_NAME`	column_name	(相関ルールのみ)トランザクションの項目を格納している列の名前。この設定が指定されていると、アルゴリズムは、2つの列で構成されたネイティブ・トランザクション形式でデータが表されると想定します。ケースID: 質的または量的のいずれか項目ID: 質的または量的のいずれかノート: Oracle Machine Learningは、この設定について`BOOLEAN`値をサポートしていません。トランザクション・データの典型的な例としては、多くの項目を含む可能性があるバスケットがケースによって表されるマーケット・バスケット・データがあげられます。各項目は個別の行に格納され、1つのケースを表すのに多くの行が必要になる場合があります。ケースID値は各行を一意に識別しません。トランザクション・データはマルチレコード・ケース・データとも呼ばれます。通常、相関ルール関数はトランザクション・データとともに使用されますが、単一レコード・ケース・データにも適用できます(その他のアルゴリズムと同様)。単一レコードおよびマルチ・レコードのケース・データの詳細は、『Oracle SQL Developer Data Modelerユーザーズ・ガイド』を参照してください。
`ODMS_ITEM_VALUE_COLUMN_NAME`	column_name	(相関ルールのみ)トランザクションの各項目に関連付けられている値を格納している列の名前。この設定は、データがネイティブ・トランザクション形式で表されることを示す値が`ODMS_ITEM_ID_COLUMN_NAME`に指定されている場合にのみ使用されます。 `ASSO_AGGREGATES`が使用される場合、作成データに次の3つの列とAGGREGATES設定で指定した列が含まれる必要があります。ケースID: 質的または量的のいずれか項目ID: 質的または量的のいずれか(`ODMS_ITEM_ID_COLUMN_NAME`によって指定) 項目値: 質的または量的のいずれか(`ODMS_ITEM_VALUE_COLUMN_NAME`によって指定) ノート: Oracle Machine Learningは、この設定について`BOOLEAN`値をサポートしていません。 `ASSO_AGGREGATES`、ケースIDおよび項目ID列が存在する場合は、項目値列が表示される場合とされない場合があります。この項目値列では、(リンゴ3個などの)項目数、(マッキントッシュのリンゴなどの)項目タイプなどの情報を指定できます。 `ASSO_AGGREGATES`の詳細は、「DBMS_DATA_MINING - マイニング機能の設定」を参照してください。
`ODMS_MISSING_VALUE_TREATMENT`	`ODMS_MISSING_VALUE_MEAN_MODE` `ODMS_MISSING_VALUE_DELETE_ROW` `ODMS_MISSING_VALUE_AUTO`	トレーニング・データでの欠損値を処理する方法を示します。この設定は、スコアリング・データに影響を与えません。デフォルト値は、`ODMS_MISSING_VALUE_AUTO`です。 `ODMS_MISSING_VALUE_MEAN_MODE`では、欠損値は、作成時と適用時に、適宜平均値(量的属性)または最頻値(質的属性)に置き換えられます。`ODMS_MISSING_VALUE_AUTO`では、アルゴリズムごとに異なる計画が実行されます。 `ODMS_MISSING_VALUE_TREATMENT`を`ODMS_MISSING_VALUE_DELETE_ROW`に設定すると、欠損値を含むトレーニング・データの行は削除されます。ただし、スコアリング・データにおいてこのような欠損値の処理を行うには、明示的に変換を実行する必要があります。値`ODMS_MISSING_VALUE_DELETE_ROW`は、すべてのアルゴリズムに適用されます。
`ODMS_ROW_WEIGHT_COLUMN_NAME`	column_name	(GLMのみ)行の重み要素を含むトレーニング・データの列の名前。列のデータ型は数値である必要があります。Oracle Machine Learningは、この設定について`BOOLEAN`値をサポートしていません。行の重みは、特定の構成が複数回繰り返される試用を設計する場合のように、繰返し行のコンパクトな表現として使用できます。また、行の重みは、モデルの作成中に特定の行を強調するためにも使用できます。たとえば、より新しい行を優先し、古い可能性のあるデータを避けるようにバイアスをかける場合に使用できます。
`ODMS_TEXT_POLICY_NAME`	`CTX_DDL.CREATE_POLICY`を使用して作成された、Oracle Textポリシーの名前。	非構造化テキストからの個々のトークンの抽出方法に影響を与える。 `CTX_DDL.CREATE_POLICY`の詳細は、『Oracle Textリファレンス』を参照してください。
`ODMS_TEXT_MAX_FEATURES`	1 <= 値	`CREATE_MODEL`に渡されたドキュメント・セットで使用可能な、すべてのテキスト属性の個別機能の最大数。デフォルトは`3000`です。ESAのデフォルト値は`300000`です。
`ODMS_TEXT_MIN_DOCUMENTS`	負でない値	あるトークンがいくつのドキュメントに表示されればそれを特徴として使用できるかを制御するテキスト処理設定です。デフォルトは`1`です。ESAのデフォルトは`3`です。
`ODMS_PARTITION_COLUMNS`	機械学習の属性のカンマ区切りリスト	この設定は、パーティション化されたモデルを作成する要求を示しています。設定値は、リスト内のパーティション・キーの値を決定するために使用される機械学習属性のカンマ区切りリストです。Oracle Machine Learningは、この設定について`BOOLEAN`を含む数値およびカテゴリ値をサポートしています。これらの機械学習属性は、`XFORM_LIST`パラメータが`CREATE_MODEL`または`CREATE_MODEL2`に渡されていないかぎり、入力列から取得されます。`XFORM_LIST`パラメータがモデルの作成中に渡された場合は、これらの変換によって生成された属性から機械学習属性が取得されます。
`ODMS_MAX_PARTITIONS`	`1< value <= 1000000`	この設定は、モデルに対して許可されるパーティションの最大数を示します。デフォルトは`1000`です。
`ODMS_SAMPLING`	`ODMS_SAMPLING_ENABLE` `ODMS_SAMPLING_DISABLE`	この設定により、ユーザーが作成データのサンプリングを要求できます。デフォルトは`ODMS_SAMPLING_DISABLE`です。
`ODMS_SAMPLE_SIZE`	`0 < Value`	この設定により、サンプリングされるおおよその行数が決まります。これは、`ODMS_SAMPLING`が有効である場合にのみ設定できます。デフォルト値は、システムによって決定されます。
`ODMS_PARTITION_BUILD_TYPE`	`ODMS_PARTITION_BUILD_INTRA` `ODMS_PARTITION_BUILD_INTER` `ODMS_PARTITION_BUILD_HYBRID`	この設定により、パーティション化されたモデルのパラレル作成が制御されます。 `ODMS_PARTITION_BUILD_INTRA` — 各パーティションは、すべてのレプリカを使用してパラレルで作成されます。 `ODMS_PARTITION_BUILD_INTER` — 各パーティションは1つのスレーブのみで作成されますが、複数のレプリカがアクティブであるため、複数のパーティションを同時に作成できます。 `ODMS_PARTITION_BUILD_HYBRID` — これは、他の2つのタイプの組合せであり、多くの状況で動的環境に適応するため、お薦めします。デフォルト・モードは、`ODMS_PARTITION_BUILD_HYBRID`です。
`ODMS_TABLESPACE_NAME`	tablespace_name	この設定では、記憶域の指定内容を制御します。これを表領域の名前に明示的に設定すると(十分な割当て容量がある場合)、指定した表領域記憶域で結果のモデル・コンテンツが生成されます。この設定を指定していないと、ユーザーのデフォルトの表領域で結果のモデル・コンテンツが生成されます。
`ODMS_RANDOM_SEED`	この値は、負でない整数である必要があります	乱数シードのあるハッシュ関数は、一様分布の無作為数を生成します。ユーザーは、この設定によって乱数シードを制御できます。デフォルトは`0`です。この設定は、ランダム・フォレスト、ニューラル・ネットワークおよびCUR行列分解で使用されます。
`ODMS_DETAILS`	`ODMS_ENABLE` `ODMS_DISABLE`	この設定により、モデル(特にパーティション化されたモデル)の作成時に使用される領域を削減します。デフォルト値は`ODMS_ENABLE`です。この設定が`ODMS_ENABLE`の場合は、モデルの作成時にモデルの表とビューが作成されます。モデルはSQLで問合せできます。この設定が`ODMS_DISABLE`の場合、モデル・ビューは作成されません。また、モデル詳細に関連する表も作成されません。削減される領域は、モデルに応じて異なります。約10倍の削減が可能です。
`TREE_PRUNING_METHOD`	`TREE_PRUNING_MDL` `TREE_PRUNING_NONE`	`TREE_PRUNING_MDL`にすると、プルーニングに関する現在のデシジョン・ツリー構築動作が維持されます。これはデフォルト値です。 `TREE_PRUNING_NONE`にすると、デシジョン・ツリーのプルーニングが無効になります。

参照:

GLMの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

相関ルールの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

機械学習の非構造化テキストの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

42.1.5 DBMS_DATA_MINING — アルゴリズム固有のモデル設定

Oracle Machine Learning for SQLでは、アルゴリズム固有の設定を使用してモデルの特性が定義されます。

すべての設定にはデフォルト値があります。モデルの1つ以上の設定を上書きする場合は、それらの設定を指定する必要があります。

参照:

『Oracle Databaseリファレンス』のALL_MINING_MODEL_SETTINGSに関する説明
モデル設定の指定方法の詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

42.1.5.1 DBMS_DATA_MINING - アルゴリズムの設定: ALGO_EXTENSIBLE_LANG

このトピックは、Oracleオンプレミスにのみ適用されます。

次の表で示されている設定では、R拡張アルゴリズムを使用する機械学習モデルの動作が構成されます。モデルはR言語で作成されます。

RALG_*_FUNCTIONでは、Rモデルの作成、スコアリングおよび表示に使用されるRスクリプトを指定します。このスクリプトは、Oracle Machine Learning for Rスクリプト・リポジトリに登録されている必要があります。Rスクリプトは、特別な権限のあるOML4Rによって登録します。MINING_MODEL_SETTING表でALGO_EXTENSIBLE_LANGがRに設定されている場合は、機械学習のモデルがR言語で作成されます。Rモデルが作成されると、Rスクリプトの名前がSYSスキーマのMINING_MODEL_SETTING表に記録されます。Rモデルが機能するには、スクリプトがスクリプト・リポジトリに存在している必要があります。こうしたRスクリプトによってRモデルを作成、スコアリングおよび表示するために使用されるRメモリーの量は、OML4Rで制御できます。

アルゴリズムに依存しないすべてのDBMS_DATA_MININGサブプログラムは、機械学習ファンクション(相関、属性重要度、分類、クラスタリング、特徴抽出および回帰など)でRモデルに対する操作が可能です。

サポートされるDBMS_DATA_MININGサブプログラムの一部を次に示します。

ADD_COST_MATRIXプロシージャ
COMPUTE_CONFUSION_MATRIXプロシージャ
COMPUTE_LIFTプロシージャ
COMPUTE_ROCプロシージャ
CREATE_MODELプロシージャ
DROP_MODELプロシージャ
EXPORT_MODELプロシージャ
GET_MODEL_COST_MATRIXファンクション
IMPORT_MODELプロシージャ
REMOVE_COST_MATRIXプロシージャ
RENAME_MODELプロシージャ

表42-9 ALGO_EXTENSIBLE_LANGの設定

設定名	設定値	説明
`RALG_BUILD_FUNCTION`	`R_BUILD_FUNCTION_SCRIPT_NAME`	Rアルゴリズムの機械学習モデル作成ファンクションに対する、既存の登録済Rスクリプトの名前を指定します。Rスクリプトにより、トレーニング・データに対して最初に入力した引数のRファンクションが定義され、Rモデル・オブジェクトが戻されます。クラスタリングと特徴抽出の機械学習ファンクションのモデル作成では、RモデルでR属性のdm$nclusおよびdm$nfeatを設定し、それぞれでクラスタと特徴の数を指定する必要があります。`RALG_BUILD_FUNCTION`は、`model_setting_table`で`ALGO_EXTENSIBLE_LANG`とともに設定する必要があります。
`RALG_BUILD_PARAMETER`	`SELECT` value param_name, ...`FROM DUAL`	モデル作成ファンクションのオプションの入力パラメータに対する、数値および文字列のスカラーのリストを指定します。
`RALG_SCORE_FUNCTION`	`R_SCORE_FUNCTION_SCRIPT_NAME`	既存の登録済Rスクリプトの名前を指定して、データをスコアリングします。スクリプトにより、対応する予測結果が含まれる`data.frame`が戻されます。この設定は、機械学習ファンクション(回帰、分類、クラスタリング、特徴抽出など)でデータをスコアリングする場合に使用します。この設定は、相関および属性重要度の関数には適用されません。
`RALG_WEIGHT_FUNCTION`	`R_WEIGHT_FUNCTION_SCRIPT_NAME`	スコアリングの各属性の重み(コントリビューション)を計算するRアルゴリズムに対する、既存の登録済Rスクリプトの名前を指定します。スクリプトにより、各属性の影響を与える重みが行内に含まれる`data.frame`が戻されます。この関数設定は、`PREDICTION_DETAILS` SQL関数で必要です。
`RALG_DETAILS_FUNCTION`	`R_DETAILS_FUNCTION_SCRIPT_NAME`	モデル情報を生成するRアルゴリズムに対する、既存の登録済Rスクリプトの名前を指定します。モデル・ビューの生成には、この設定が必要です。
`RALG_DETAILS_FORMAT`	`SELECT` type_value column_name, ... `FROM DUAL`	生成されるモデル・ビューの出力列タイプと列名の数値および文字列のスカラーのリストに対する、`SELECT`問合せを指定します。モデル・ビューの生成には、この設定が必要です。

参照:

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.5.2 DBMS_DATA_MINING — アルゴリズムの設定: CUR行列分離

次に示す設定は、CUR行列分解アルゴリズムの動作に影響します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.CURS_ROW_IMP_DISABLEです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'CURS_ROW_IMP_DISABLE'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-10 CUR行列分解の設定

設定名	定数値	文字列値等価	説明
`CURS_APPROX_ATTR_NUM`	正の整数	正の整数	選択する属性の概数を定義します。デフォルト値は属性の数です。
`CURS_ROW_IMPORTANCE`	`CURS_ROW_IMP_ENABLE`	`CURS_ROW_IMP_ENABLE`	行選択を実行するかどうかを示すフラグを定義します。行選択を有効にします。デフォルト値は`CURS_ROW_IMP_DISABLE`です。
`CURS_ROW_IMPORTANCE`	`CURS_ROW_IMP_DISABLE`	`CURS_ROW_IMP_DISABLE`	行選択を無効にします。
`CURS_APPROX_ROW_NUM`	正の整数	正の整数	選択する行の概数を定義します。このパラメータは、ユーザーが行選択の実行を決定した場合(`CURS_ROW_IMP_ENABLE`)にのみ使用されます。デフォルト値は行の合計数です。
`CURS_SVD_RANK`	正の整数	正の整数	列/行のレバレッジ・スコア計算に使用されるランク・パラメータを定義します。ユーザーが入力値を指定しないと、システムによって値が決定されます。

関連トピック

参照:

『Oracle Machine Learning for SQL概要』

42.1.5.3 DBMS_DATA_MINING - アルゴリズムの設定: デシジョン・ツリー

これらの設定は、デシジョン・ツリー・アルゴリズムの動作を構成します。デシジョン・ツリーの設定は、ランダム・フォレストの動作を構成する際にも使用されます。ランダム・フォレストでは、その設定によって個別のデシジョン・ツリーが構築されます。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.TREE_IMPURITY_ENTROPYです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'TREE_IMPURITY_ENTROPY'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-11 デシジョン・ツリーの設定

設定名	定数値	文字列値等価	説明
`TREE_IMPURITY_METRIC`	`TREE_IMPURITY_ENTROPY`	`TREE_IMPURITY_ENTROPY`	デシジョン・ツリーのツリー不純メトリック。ツリー・アルゴリズムでは、各ノードでのデータの分岐に最適なテスト質問が検索されます。最適な分岐および分岐値は、ノードのエンティティに対するターゲット値の同質性(純度)が最大限に高くなるものです。純度はメトリックで表されます。デフォルトでは、アルゴリズムで`TREE_IMPURITY_GINI`が使用されます。
`TREE_IMPURITY_METRIC`	`TREE_IMPURITY_GINI`	`TREE_IMPURITY_GINI`	デシジョン・ツリーでは、純度メトリックとしてジニ(`TREE_IMPURITY_GINI`)またはエントロピ(`TREE_IMPURITY_ENTROPY`)のいずれかを使用できます。
`TREE_TERM_MAX_DEPTH`	デシジョン・ツリーの場合: `2<=数値` `<=20` ランダム・フォレストの場合: `2<=数値` `<=100`	デシジョン・ツリーの場合: `2<=` `a number` `<=20` ランダム・フォレストの場合: `2<=` `a number` `<=100`	分岐の条件: ツリーの最大深度(ルート・ノードとリーフ・ノードとの間(リーフ・ノードを含む)の最大ノード数)。デシジョン・ツリーの場合、デフォルトは`7`です。ランダム・フォレストの場合、デフォルト値は`16`です。
`TREE_TERM_MINPCT_NODE`	`0<=数値<=10`	`0<=` `a number<=10`	ノード内のトレーニング行の最小行数は、トレーニング・データ内の行の割合として表されます。デフォルトは`0.05`で、0.05%を表します。
`TREE_TERM_MINPCT_SPLIT`	`0 <` `数値` `<=20`	`0 <` `a number` `<=20`	ノードの分割を考慮する際に必要になる最小行数。トレーニング行の割合として表されます。デフォルトは`0.1`で、0.1%を表します。
`TREE_TERM_MINREC_NODE`	`数値>=0`	`a number>=0`	ノード内の最小行数。デフォルトは`10`です。
`TREE_TERM_MINREC_SPLIT`	`数値` `> 1`	`a number` `> 1`	分岐の条件: 値として表現される親ノードのレコードの最小数。レコード数がこの値よりも少ない場合、分岐は試行されません。デフォルトは`20`です。

関連トピック

参照:

デシジョン・ツリーの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.4 DBMS_DATA_MINING - アルゴリズムの設定: 期待値の最大化

これらのアルゴリズム設定は、期待値の最大化アルゴリズムの動作を構成します。

参照:

期待値の最大化の詳細は、『Oracle Data Mining概要』を参照してください。

表42-12 データ準備と分析用の期待値の最大化設定

設定名	定数値	文字列値等価	説明
`EMCS_ATTRIBUTE_FILTER`	`EMCS_ATTR_FILTER_ENABLE`	`EMCS_ATTR_FILTER_ENABLE`	モデルに相関していない属性を含めるかどうかの指定。`EMCS_ATTRIBUTE_FILTER`が有効な場合、相関していない属性は含められません。ノート: この設定は、ネストしていない属性にのみ適用されます。クラスタリングの場合、デフォルトはシステムによって決定されます。異常検出の場合、デフォルトは`EMCS_ATTR_FILTER_DISABLE`です。
`EMCS_ATTRIBUTE_FILTER`	`EMCS_ATTR_FILTER_DISABLE`	`EMCS_ATTR_FILTER_DISABLE`	モデルに相関していない属性を含めます。
`EMCS_MAX_NUM_ATTR_2D`	文字列として表される、1以上の整数。	文字列として表される、1以上の整数。	モデルに含める相関属性の最大数。ノート: この設定は、ネストしていない属性(2D)にのみ適用されます。デフォルトは`50`です。表現: `TO_CHAR`(`40`)
`EMCS_NUM_DISTRIBUTION`	`EMCS_NUM_DISTR_BERNOULLI`	`EMCS_NUM_DISTR_BERNOULLI`	量的属性をモデリングする分布。入力表または入力ビューの全体に適用され、属性ごとの指定は許可されません。オプションには、ベルヌーイ分布、ガウス分布またはシステム決定の分布が含まれます。ベルヌーイ分布やガウス分布を選択した場合、すべての量的属性が同じタイプの分布を使用してモデリングされます。デフォルトは`EMCS_NUM_DISTR_SYSTEM`です。
	`EMCS_NUM_DISTR_GAUSSIAN`	`EMCS_NUM_DISTR_GAUSSIAN`	ガウス分布を使用してすべての数値属性をモデル化します。
	`EMCS_NUM_DISTR_SYSTEM`	`EMCS_NUM_DISTR_SYSTEM`	システム決定の分布の場合は、個々の属性で、データに応じて異なる分布(ベルヌーイ分布またはガウス分布)を使用できます。
`EMCS_NUM_EQUIWIDTH_BINS`	文字列として表される、1から255までの整数。	文字列として表される、1から255までの整数。	量的列のクラスタ統計を収集するために使用される等幅ビンの数。デフォルトは`11`です。表現: `TO_CHAR(20)`
`EMCS_NUM_PROJECTIONS`	文字列として表される、1以上の整数。	文字列として表される、1以上の整数。	ネストした各列で使用される予測の数を指定します。指定した数の予測よりも列の個別属性の数が少ない場合、データの予測は行われません。この設定は、すべてのネストしている列に適用されます。デフォルトは`50`です。表現: `TO_CHAR`(`40`)
`EMCS_NUM_QUANTILE_BINS`	文字列として表される、1から255までの整数。	文字列として表される、1から255までの整数。	複数値のベルヌーイ分布において、量的列のモデリングに使用されるクオンタイル・ビンの数を指定します。デフォルトは、システムによって決定されます。表現: `TO_CHAR(20)`
`EMCS_NUM_TOPN_BINS`	文字列として表される、1から255までの整数。	文字列として表される、1から255までの整数。	複数値のベルヌーイ分布において、質的列のモデリングに使用される上位Nビンの数を指定します。デフォルトは、システムによって決定されます。表現: `TO_CHAR(10)`

表42-13 学習用の期待値の最大化設定

設定名	定数値	文字列値等価	説明
`EMCS_CONVERGENCE_CRITERION`	`EMCS_CONV_CRIT_HELDASIDE`	`EMCS_CONV_CRIT_HELDASIDE`	EMの収束基準。収束基準は、取り分けておいたデータ・セットやベイズ情報量基準に基づいている場合があります。 `EMCS_CONV_CRIT_HELDASIDE`: 収束基準に取り分けておいたデータ・セットを使用します。デフォルトは、システムによって決定されます。
`EMCS_CONVERGENCE_CRITERION`	`EMCS_CONV_CRIT_BIC`	`EMCS_CONV_CRIT_BIC`	収束には、ベイズ情報量基準(BIC)を使用します。
`EMCS_LOGLIKE_IMPROVEMENT`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	収束基準が取り分けておいたデータ・セットに基づいている場合(`EMCS_CONVERGENCE_CRITERION` = `EMCS_CONV_CRIT_HELDASIDE`)、この設定では、モデルに新しいコンポーネントを追加するために必要とされる対数尤度ファンクションの値の改善率を指定します。デフォルトは`0.001`です。表現: `TO_CHAR(0.003)`
`EMCS_NUM_COMPONENTS`	文字列として表される、1以上の整数	文字列として表される、1以上の整数	モデル内のコンポーネントの最大数。モデル検索が有効である場合、アルゴリズムによってコンポーネントの数(尤度ファンクションの改善度または正則化に基づいた指定された最大数まで)が自動的に決定されます。 EMクラスタリングの場合、コンポーネントの数は、クラスタの数以上である必要があります。 EMクラスタリングとEM異常の両方のデフォルトは20です。表現: `TO_CHAR(20)`
`EMCS_NUM_ITERATIONS`	文字列として表される、1以上の整数	文字列として表される、1以上の整数	EMアルゴリズムにおける最大反復数を指定します。デフォルトは`100`です。表現: `TO_CHAR(50)`
`EMCS_MODEL_SEARCH`	`EMCS_MODEL_SEARCH_ENABLE`	`EMCS_MODEL_SEARCH_ENABLE`	この設定により、様々なモデル・サイズが検索されるEMでのモデル検索が有効になり、最適なサイズが選択されます。デフォルトは`EMCS_MODEL_SEARCH_DISABLE`です。
`EMCS_MODEL_SEARCH`	`EMCS_MODEL_SEARCH_DISABLE` (デフォルト)。	`EMCS_MODEL_SEARCH_DISABLE` (デフォルト)。	EMでのモデル検索は無効です。
`EMCS_REMOVE_COMPONENTS`	`EMCS_REMOVE_COMPS_ENABLE` (デフォルト)	`EMCS_REMOVE_COMPS_ENABLE` (デフォルト)	この設定により、EMアルゴリズムで、ソリューションから小さいコンポーネントを削除できます。デフォルトは`EMCS_REMOVE_COMPS_ENABLE`です。
`EMCS_REMOVE_COMPONENTS`	`EMCS_REMOVE_COMPS_DISABLE`	`EMCS_REMOVE_COMPS_DISABLE`	EMアルゴリズムが小さいコンポーネントを削除しないようにします。
`EMCS_RANDOM_SEED`	負でない整数	負でない整数	この設定により、EMで使用されるランダム・ジェネレータのシードが制御されます。デフォルトは`0`です。

表42-14 コンポーネント・クラスタリング用の期待値の最大化設定

設定名	定数値	文字列値等価	説明
`EMCS_CLUSTER_COMPONENTS`	`EMCS_CLUSTER_COMP_ENABLE`	`EMCS_CLUSTER_COMP_ENABLE`	EMコンポーネントの上位レベルのクラスタへのグループ化を有効または無効にします。無効にすると、コンポーネント自体がクラスタとして扱われます。この設定は、EMクラスタリングにのみ使用できます。コンポーネント・クラスタリングを有効にすると、SQL `CLUSTER`ファンクションを介したモデル・スコアリングによって、より上位のクラスタに対する割当てが実行されます。デフォルトは`EMCS_CLUSTER_COMP_ENABLE`です。
`EMCS_CLUSTER_COMPONENTS`	`EMCS_CLUSTER_COMP_DISABLE`	`EMCS_CLUSTER_COMP_DISABLE`	クラスタリングを無効にすると、`CLUSTER`ファンクションによって、元のコンポーネントに対する割当てが実行されます。
`EMCS_CLUSTER_THRESH`	文字列として表される、1以上の整数を指定します	文字列として表される、1以上の整数を指定します	EMコンポーネントのクラスタリングを制御する相違点のしきい値。相違点メジャーがしきい値よりも少ない場合、複数のコンポーネントは1つのクラスタに結合されます。この設定は、EMクラスタリングにのみ使用できます。しきい値が低いと、よりコンパクトな多くのクラスタが作成されます。しきい値が高いと、より広く散らばった少数のクラスタが作成されます。デフォルトは`2`です。表現: `TO_CHAR(3)`
`EMCS_LINKAGE_FUNCTION`	`EMCS_LINKAGE_SINGLE`	`EMCS_LINKAGE_SINGLE`	凝集クラスタリング・ステップにおけるリンケージ機能の指定を許可します。 `EMCS_LINKAGE_SINGLE`では、ブランチ内の最短距離が使用されます。クラスタは、大きくて特異な形状をしている傾向があります。デフォルトは`EMCS_LINKAGE_SINGLE`です。
	`EMCS_LINKAGE_AVERAGE`	`EMCS_LINKAGE_AVERAGE`	`EMCS_LINKAGE_AVERAGE`では、ブランチ内の平均距離が使用されます。連鎖効果は少なく、クラスタはよりコンパクトなものになります。
	`EMCS_LINKAGE_COMPLETE`	`EMCS_LINKAGE_COMPLETE`	`EMCS_LINKAGE_COMPLETE`では、ブランチ内の最大距離が使用されます。クラスタは小さく、強固なコンポーネント・オーバーラップを必要とします。

表42-15 クラスタ統計用の期待値の最大化設定

設定名定数値説明

設定名	定数値	説明
`EMCS_CLUSTER_STATISTICS`	`EMCS_CLUS_STATS_ENABLE` `EMCS_CLUS_STATS_DISABLE`	クラスタ(セントロイド、ヒストグラムおよびルール)の記述統計の収集を有効または無効にします。統計を無効にすると、モデルのサイズが縮小され、`GET_MODEL_DETAILS_EM`は分類(階層)とクラスタ数のみを戻します。この設定は、EMクラスタリングにのみ使用できます。デフォルトは`EMCS_CLUS_STATS_ENABLE`です。
`EMCS_MIN_PCT_ATTR_SUPPORT`	文字列として表される、0から1までの浮動小数点数	クラスタ・ルールに属性を含めるときに必要とされる最小限のサポート。このサポートでは、クラスタに割り当てられたデータ行のうち、属性がnull以外の値である必要があるものの割合を示します。この設定は、EMクラスタリングにのみ使用できます。デフォルトは`0.1`です。表現: `TO_CHAR(0.9)`

EMCS_CLUSTER_STATISTICS

EMCS_CLUS_STATS_ENABLE

EMCS_CLUS_STATS_DISABLE

クラスタ(セントロイド、ヒストグラムおよびルール)の記述統計の収集を有効または無効にします。統計を無効にすると、モデルのサイズが縮小され、GET_MODEL_DETAILS_EMは分類(階層)とクラスタ数のみを戻します。この設定は、EMクラスタリングにのみ使用できます。

デフォルトはEMCS_CLUS_STATS_ENABLEです。

EMCS_MIN_PCT_ATTR_SUPPORT

文字列として表される、0から1までの浮動小数点数

クラスタ・ルールに属性を含めるときに必要とされる最小限のサポート。このサポートでは、クラスタに割り当てられたデータ行のうち、属性がnull以外の値である必要があるものの割合を示します。この設定は、EMクラスタリングにのみ使用できます。

デフォルトは0.1です。

表現:

TO_CHAR(0.9)

表42-16 異常検出の期待値の最大化設定

設定名定数値文字列値等価説明

設定名	定数値	文字列値等価	説明
`EMCS_OUTLIER_RATE`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	トレーニング・データでの目標となる外れ値率。この設定は、EM異常にのみ使用できます。デフォルトは0.05です。表現: `TO_CHAR(0.07)`

EMCS_OUTLIER_RATE

文字列として表される、0から1までの浮動小数点数

トレーニング・データでの目標となる外れ値率。この設定は、EM異常にのみ使用できます。

デフォルトは0.05です。

表現:

TO_CHAR(0.07)

関連トピック

42.1.5.5 DBMS_DATA_MINING - アルゴリズムの設定: 明示的セマンティック分析

明示的セマンティック分析(ESA)は、意味を持つ解釈可能な特徴を抽出する際に役立つ技術です。

次の表に示されている設定がESAの値を構成します。

表42-17 明示的セマンティック分析の設定

設定名	設定値	文字列値等価	説明
`ESAS_EMBEDDINGS`	`ESAS_EMBEDDINGS_ENABLE`	`ESAS_EMBEDDINGS_ENABLE`	この設定は、特徴抽出モデルに適用されます。デフォルト値は`ESAS_EMBEDDINGS_DISABLE`です。`ESAS_EMBEDDINGS_ENABLE`を設定すると、次のようになります。 ESAは、スコアリング中に埋込みを生成します生成される埋込みのFEATURE_IDのデータ型はNUMBERです `DBMS_DATA_MINING.CREATE_MODEL`および`DBMS_DATA_MINING.CREATE_MODEL2`ファンクションの`CASE_ID_COLUMN_NAME`引数はオプションです。
`ESAS_EMBEDDINGS`	`ESAS_EMBEDDINGS_DISABLE`	`ESAS_EMBEDDINGS_DISABLE`	ESAでの埋込みの使用を無効にします。この設定は、埋込みが不要であるか、分析に必要でない場合に役立ちます。
`ESAS_EMBEDDING_SIZE`	4096以下の正の整数	4096以下の正の整数	この設定は、特徴抽出モデルに適用されます。この設定では、埋込みを表すベクトルのサイズを指定します。このパラメータを設定できるのは、`ESAS_EMBEDDINGS`を有効にした場合のみです。デフォルト・サイズは1024です。この値がトレーニング・セット内の個別特徴の数より少ない場合は、明示的な特徴の実際の数が埋込みベクトルのサイズとしてかわりに使用されます。
`ESAS_MIN_ITEMS`	テキスト入力は`100` テキスト以外の入力は`0`	テキスト入力は`100` テキスト以外の入力は`0`	この設定により、入力行に表示する必要があるゼロ以外のエントリの最小数が決まります。デフォルトはテキスト入力の場合は100、テキスト以外の入力の場合は0です。
`ESAS_TOPN_FEATURES`	正の整数	正の整数	この設定により、属性ごとの特徴の最大数が制御されます。デフォルトは`1000`です。
`ESAS_VALUE_THRESHOLD`	負以外の数値	負以外の数値	この設定により、変換される作成データの属性の重みに対して小さい値がしきい値処理されます。デフォルトは、`1e-8`です。

関連トピック

参照:

ESAの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。

42.1.5.6 DBMS_DATA_MINING — アルゴリズムの設定: 指数平滑法

これらの設定は、指数平滑法(ESM)アルゴリズムの動作を構成します。

次の表に示す設定は、「指数平滑法」の設定名と使用可能な値を指定します。設定値は、接頭辞DBMS_DATA_MININGを使用して指定できます。たとえば、DBMS_DATA_MINING.EXSM_SIMPLEです。または、DBMS_DATA_MINING接頭辞を付けずに一重引用符で囲んで設定値を指定できます。たとえば、'EXSM_SIMPLE'です。

グローバル設定については、「DBMS_DATA_MINING — グローバル設定」を参照してください。

表42-18 指数平滑法の設定

設定名	設定値	文字列値等価	説明
`EXSM_MODEL`	`EXSM_SIMPLE`	`EXSM_SIMPLE`	この設定によって、モデルを指定します。 `EXSM_SIMPLE`: 加重移動平均としてデータを予測します。過去の観測の影響は、観測が発生してから経過した時間とともに指数関数的に減少します。推定のエラーは、通常、一定の平均および差異とともに分散されているとみなされます。明確な傾向や季節的なパターンがないデータに適しています。デフォルト値は`EXSM_SIMPLE`です。
	`EXSM_SIMPLE_MULT_ERR`	`EXSM_SIMPLE_MULT_ERR`	加重移動平均としてデータを予測します。過去の観測の影響は、観測が発生してから経過した時間とともに指数関数的に減少します。推定のエラーは、前の推定のレベルに比例すると想定されます。
	`EXSM_HOLT`	`EXSM_HOLT`	基礎となる線形傾向を持つデータを予測するように設計された、Holtの線形指数平滑法を適用します。
	`EXSM_HOLT_DAMPED`	`EXSM_HOLT_DAMPED`	減衰係数を持つHoltの線形指数平滑法を適用し、時間の経過とともに傾向の強度を徐々に減らします。
	`EXSM_MULT_TREND`	`EXSM_MULT_TREND`	積乗型の傾向コンポーネントを持つ指数平滑化フレームワークを適用し、傾向が線形ではないが時間の経過とともに増大または減衰するデータを効果的に取得します。
	`EXSM_MULT_TREND_DAMPED`	`EXSM_MULT_TREND_DAMPED`	時間の経過とともに減少する積乗型の傾向を持つ指数平滑化アルゴリズムを適用し、傾向推定に対する保守的なアプローチを提供します。
	`EXSM_SEASON_ADD`	`EXSM_SEASON_ADD`	加算的な季節コンポーネントを持つ指数平滑法を適用し、傾向を組み込むことなく季節変動を分離および評価します。
	`EXSM_SEASON_MUL`	`EXSM_SEASON_MUL`	積乗型の季節コンポーネントを持つ指数平滑化を実行し、系列レベルに比例して増減する季節効果を取得します。
	`EXSM_WINTERS`	`EXSM_WINTERS`	加算的な傾向と積乗型の季節性を持つHolt-Winters法を適用し、線形傾向と比例季節変動の両方を持つデータに対して堅牢なモデルを提供します。
	`EXSM_WINTERS_DAMPED`	`EXSM_WINTERS_DAMPED`	減衰傾向と積乗型の季節性を持つHolt-Winters法を適用し、比例的な季節変化を取得しながら時間の経過に伴う線形傾向を調整します。
	`EXSM_ADDWINTERS`	`EXSM_ADDWINTERS`	Holt-Winters加算モデルを適用して、線形傾向と加算的な季節効果を持つデータを同時に平滑化します。
	`EXSM_ADDWINTERS_DAMPED`	`EXSM_ADDWINTERS_DAMPED`	減衰メカニズムを持つHolt-Winters加算アプローチを適用し、時間の経過に伴う傾向および季節コンポーネントの影響を減らします。
	`EXSM_WINTERS_MUL_TREND`	`EXSM_WINTERS_MUL_TREND`	季節変動と傾向の両方がレベルに比例して増加または減少している系列に適した、傾向コンポーネントと積乗型の季節性コンポーネントの両方を持つHolt-Wintersモデルを適用します。
	`EXSM_WINTERS_MUL_TREND_DMP`	`EXSM_WINTERS_MUL_TREND_DMP`	減衰した積乗型の傾向を持つHolt-Wintersモデルを適用し、時間の経過に伴う傾向コンポーネントと季節コンポーネントの両方の指数的増加または減少を効果的に調整します。
`EXSM_SEASONALITY`	`正の整数> 1`	`正の整数> 1`	この設定では、季節的な周期の長さとして正の整数値を指定します。この値は、`1`より大きくする必要があります。たとえば、この値に`4`を設定することで、4つの観測グループごとに1回の季節的な周期が形成されることを意味します。この設定は、季節性のあるモデルにのみ適用されます。また、そうしたモデルにのみ指定する必要があります。それ以外の場合、モデルはエラーをスローします。 `EXSM_INTERVAL`が設定されていない場合、この設定は元の入力時系列に適用されます。`EXSM_INTERVAL`が設定されている場合、この設定は累積時系列に適用されます。
`EXSM_INTERVAL`	`EXSM_INTERVAL_YEAR`	`EXSM_INTERVAL_YEAR`	この設定は、時間列(`case_id`列)が日時型を保持している場合にのみ適用されます。また、その場合にのみ指定する必要があります。累積される等間隔時期列の間隔区間を指定します。入力表の時間列が日時型の場合、`EXSM_INTERVAL`設定が指定されていないと、モデルからエラーがスローされます。入力表の時間列がOracle数値型の場合、`EXSM_INTERVAL`設定が指定されていると、モデルからエラーがスローされます。 `EXSM_INTERVAL_YEAR`: このオプションは、累積時系列の間隔を1年に設定します。選択すると、データは年次ベースで集計または要約されます。
	`EXSM_INTERVAL_QTR`	`EXSM_INTERVAL_QTR`	このオプションでは、間隔を四半期に設定し、3か月ごとにデータを集計します。
	`EXSM_INTERVAL_MONTH`	`EXSM_INTERVAL_MONTH`	このオプションは、間隔を1か月に調整します。累積時系列は、各月の集計データまたは要約データを表します。
	`EXSM_INTERVAL_WEEK`	`EXSM_INTERVAL_WEEK`	このオプションでは、データは週単位で集計または要約され、間隔を1週間に設定します。
	`EXSM_INTERVAL_DAY`	`EXSM_INTERVAL_DAY`	このオプションは、間隔を1日に調整します。これは、日々の集計されたインサイトが必要なシナリオに適しています。
	`EXSM_INTERVAL_HOUR`	`EXSM_INTERVAL_HOUR`	より詳細なインサイトを得るために、このオプションは間隔を1時間に設定します。これは、1日に大きく変化するデータを分析する場合に特に役立ちます。
	`EXSM_INTERVAL_MINUTE`	`EXSM_INTERVAL_MINUTE`	このオプションでは、間隔は1分に設定されます。これにより、高頻度取引やリアルタイム監視システムなどのアプリケーションに適した、非常に詳細なデータ・ビューが提供されます。
	`EXSM_INTERVAL_SECOND`	`EXSM_INTERVAL_SECOND`	ほとんどの詳細で、このオプションは間隔を1秒に設定します。これは、リアルタイムまたはほぼリアルタイムの分析を必要とするシナリオ向けに調整されています。
`EXSM_INITVL_OPTIMIZE`	`EXSM_INITVL_OPTIMIZE_ENABLE`	`EXSM_INITVL_OPTIMIZE_ENABLE`	設定`EXSM_INITVL_OPTIMIZE`によって、モデルの作成中に初期値が最適化されるかどうかが決まります。デフォルト値は`EXSM_INITVL_OPTIMIZE_ENABLE`です。
`EXSM_INITVL_OPTIMIZE`	`EXSM_INITVL_OPTIMIZE_DISABLE`	`EXSM_INITVL_OPTIMIZE_DISABLE`	ノート: `EXSM_INITVL_OPTIMIZE`を`EXSM_INITVL_OPTIMIZE_DISABLE`に設定できるのは、ユーザーが`EXSM_MODEL`を`EXSM_HW`または`EXSM_HW_ADDSEA`に設定した場合のみです。`EXSM_MODEL`が別のモデル・タイプに設定されているか、指定されていない場合、エラー40213 (競合する設定)が発生し、モデルは作成されません。
`EXSM_ACCUMULATE`	`EXSM_ACCU_TOTAL`	`EXSM_ACCU_TOTAL`	この設定は、時間列が日時型を保持している場合にのみ適用されます。また、その場合にのみ指定する必要があります。入力時系列から累積時系列の値を生成する方法を指定します。 `EXSM_ACCU_TOTAL`: このオプションは、指定した間隔内の時系列値の合計を計算します。選択すると、日時範囲内のすべての個々の値を合計してデータが集計されます。デフォルト値は`EXSM_ACCU_TOTAL`です。
	`EXSM_ACCU_STD`	`EXSM_ACCU_STD`	このオプションは、指定された間隔内の時系列値の標準偏差を計算します。データの変動または分散の量を理解するのに役立ちます。
	`EXSM_ACCU_MAX`	`EXSM_ACCU_MAX`	このオプションを選択すると、指定した間隔内の時系列の最大値が決定されます。これは、指定された範囲のピーク値を識別するのに役立ちます。
	`EXSM_ACCU_MIN`	`EXSM_ACCU_MIN`	このオプションは、指定された間隔内の時系列の最小値の決定に重点を置いています。指定された日時範囲の時系列の最小値を識別するのに役立ちます。
	`EXSM_ACCU_AVG`	`EXSM_ACCU_AVG`	指定された間隔内の時系列の平均値を指定します。指定された範囲内のすべてのデータ・ポイントの平均値を計算します。
	`EXSM_ACCU_MEDIAN`	`EXSM_ACCU_MEDIAN`	このオプションは、指定された間隔内の時系列値の中央値を提供します。中央値は中心値を示すため、データに外れ値が含まれる場合に特に役立ちます。
	`EXSM_ACCU_COUNT`	`EXSM_ACCU_COUNT`	このオプションは、指定された間隔内の時系列値の数をカウントします。特定の日時範囲に存在するデータ・ポイントの数を知る必要がある場合に役立ちます。
`EXSM_SETMISSING`	オプションを指定します: `EXSM_MISS_MIN`	`EXSM_MISS_MIN`	この設定では、欠損値の処理方法を指定します。欠損値は、入力データや時系列の累積処理で発生することがあります。数値またはオプションのどちらかを指定できます。数値を指定すると、すべての欠損値はその数値に設定されます。 `EXSM_MISS_MIN`: 欠損値を累積時系列の最小値に置き換えます。 `EXSM_SETMISSING`設定が指定されていない場合は、`EXSM_MISS_AUTO`がデフォルト値です。このような場合、モデルは入力時系列を不規則時系列として処理します(欠損値が間隙として表される)。
	`EXSM_MISS_MAX`	`EXSM_MISS_MAX`	欠損値を累積時系列の最大値に置換します。
	`EXSM_MISS_AVG`	`EXSM_MISS_AVG`	欠損値を累積時系列の平均値に置換します。
	`EXSM_MISS_MEDIAN`	`EXSM_MISS_MEDIAN`	欠損値を累積時系列の中央値に置換します。
	`EXSM_MISS_LAST`	`EXSM_MISS_LAST`	欠損値を累積時系列の最後の存在する値に置換します。
	`EXSM_MISS_FIRST`	`EXSM_MISS_FIRST`	欠損値を累積時系列の最初の存在する値に置換します。
	`EXSM_MISS_PREV`	`EXSM_MISS_PREV`	欠損値を累積時系列の前の存在する値に置換します。
	`EXSM_MISS_NEXT`	`EXSM_MISS_NEXT`	欠損値を累積時系列の次の存在する値に置換します。
	`EXSM_MISS_AUTO`	`EXSM_MISS_AUTO`	EXSMモデルは入力データを不規則な(等間隔でない)時系列として処理します。
`EXSM_PREDICTION_STEP`	1から30までの数値。	1から30までの数値。	この設定では、何ステップ先の予測を行うかを指定します。設定されていない場合、デフォルト値は`1`です(モデルは、1ステップ先予測を示します)。`30`より大きな値はエラーになります。
`EXSM_CONFIDENCE_LEVEL`	0から1までの数値(0と1を含まない)。	0から1までの数値(0と1を含まない)。	この設定では、予測に対して目的とする信頼水準を指定します。指定された信頼区間の上限と下限が報告されます。この設定が指定されていない場合、デフォルトの信頼水準は`95%`です。
`EXSM_OPT_CRITERION`	`EXSM_OPT_CRIT_LIK`	`EXSM_OPT_CRIT_LIK`	この設定では、目的とする最適化基準を指定します。最適化基準は、同じデータへのモデルの適合性を比較するための診断として役立ちます。 `EXSM_OPT_CRIT_LIK`: 特定のモデルに関連付けられている対数尤度の負の倍数を表します。デフォルト値は、`EXSM_OPT_CRIT_LIK`です。
	`EXSM_OPT_CRIT_MSE`	`EXSM_OPT_CRIT_MSE`	これは、モデルに関連する平均平方根誤差を示します。
	`EXSM_OPT_CRIT_AMSE`	`EXSM_OPT_CRIT_AMSE`	これは、ユーザーが指定した時間枠の平均平方誤差を示します。
	`EXSM_OPT_CRIT_SIG`	`EXSM_OPT_CRIT_SIG`	このメトリックは、モデルの残差の標準偏差を取得します。
	`EXSM_OPT_CRIT_MAE`	`EXSM_OPT_CRIT_MAE`	このメトリックは、モデルに関連付けられた平均絶対エラーを示します。エラーのサイズを測定します。
`EXSM_NMSE`	正の整数	正の整数	この設定では、誤差メトリックの平均二乗誤差(AMSE)の計算に使用するウィンドウの長さを指定します。
`EXSM_SERIES_LIST`	時系列列のカンマ区切りリスト	時系列列のカンマ区切りリスト	この設定を使用すると、ターゲット系列に加えて最大20個の予測子系列を予測できます。 `EXSM_SERIES_LIST`内の列名は、一重引用符で囲みます。ノート: このリストは個々の列名ではなく、単一引用符で囲みます。たとえば: `INSERT INTO <settings_table_name VALUES(dbms_data_mining.exsm_series_list, ‘<column1>,<column2>,<column3>,<column4>’);` 接頭辞`DM$`をビルドおよびスコアリングのデータ・セットに追加する必要があります。列名は125文字未満にする必要があります。「指数平滑法のモデル・ディテール・ビュー」を参照してください。
`EXSM_BACKCAST_OUTPUT`	`EXSM_BACKCAST_OUTPUT_ENABLE`	`EXSM_BACKCAST_OUTPUT_ENABLE`	この設定により、ユーザーはオプションでバックキャスト値の出力を抑制できます。バックキャストは、履歴データのモデル推定です。バックキャストの詳細は、時系列でのバックキャストを参照してください。デフォルト値は`EXSM_BACKCAST_OUTPUT_ENABLE`です。
`EXSM_BACKCAST_OUTPUT`	`EXSM_BACKCAST_OUTPUT_DISABLE`	`EXSM_BACKCAST_OUTPUT_DISABLE`	この設定では、バックキャスト値の出力が無効になります。バックキャスト値の出力を抑制すると、多数のパーティションを持つパーティション化されたESMモデルのメモリーおよびストレージ要件が大幅に削減される可能性があります。

関連トピック

参照:

ESMの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。

https://github.com/oracle-samples/oracle-db-examples/tree/main/machine-learning/sqlリリース・フォルダを参照し、oml4sql-time-series-exponential-smoothing.sqlの例をクリックします。

42.1.5.7 DBMS_DATA_MINING - アルゴリズムの設定: 一般化線形モデル

一般化線形モデル・アルゴリズムの動作は、次の表に示した設定で構成します。

次の表に示す設定は、「一般化線形モデル」の設定名と使用可能な値を指定します。「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。または、「文字列値相当」列から対応する文字列値を指定できます。

グローバル設定については、「DBMS_DATA_MINING — グローバル設定」を参照してください。

一般的な機械学習機能の設定については、DBMS_DATA_MINING — 機械学習機能を参照してください。

表42-19 DBMS_DATA_MININGのGLM設定

設定名	定数値	文字列値等価	説明
`GLMS_CONF_LEVEL`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	信頼区間の信頼水準。デフォルトの信頼水準は`0.95`です。表現: `TO_CHAR(0.98)`
`GLMS_FTR_GEN_METHOD`	`GLMS_FTR_GEN_QUADRATIC`	`GLMS_FTR_GEN_QUADRATIC`	特徴生成が二次式または三次式のどちらであるかを示します。特徴の生成を有効にすると、アルゴリズムでは、最適な特徴生成方式がデータに基づいて自動的に選択されます。 `GLMS_FTR_GEN_QUADRATIC`: 二次メソッドを使用して特徴を生成します。
`GLMS_FTR_GEN_METHOD`	`GLMS_FTR_GEN_CUBIC`	`GLMS_FTR_GEN_CUBIC`	cubicメソッドを使用して特徴を生成します。
`GLMS_FTR_GENERATION`	`GLMS_FTR_GENERATION_ENABLE`	`GLMS_FTR_GENERATION_ENABLE`	GLMに対して特徴生成を有効にするかどうかの指定。デフォルトでは、特徴生成は有効化されていません。ノート: 特徴生成は、特徴選択が有効な場合にのみ有効です。
`GLMS_FTR_GENERATION`	`GLMS_FTR_GENERATION_DISABLE`	`GLMS_FTR_GENERATION_DISABLE`	GLMの特徴生成を無効にします(デフォルト)。
`GLMS_FTR_SEL_CRIT`	`GLMS_FTR_SEL_AIC`	`GLMS_FTR_SEL_AIC`	モデルに特徴を追加する際の、特徴選択のペナルティ基準。特徴選択を有効にすると、アルゴリズムでは、ペナルティ基準がデータに基づいて自動的に選択されます。 `GLMS_FTR_SEL_AIC`: 特徴選択に赤池情報基準を使用します。
	`GLMS_FTR_SEL_SBIC`	`GLMS_FTR_SEL_SBIC`	特徴選択にシュワルツのベイズ情報量規準を使用します。
	`GLMS_FTR_SEL_RIC`	`GLMS_FTR_SEL_RIC`	特徴選択にリスク・インフレーション基準を使用します。
	`GLMS_FTR_SEL_ALPHA_INV`	`GLMS_FTR_SEL_ALPHA_INV`	特徴選択にアルファ反転基準を使用します。
`GLMS_FTR_SELECTION`	`GLMS_FTR_SELECTION_ENABLE`	`GLMS_FTR_SELECTION_ENABLE`	GLMに対して特徴選択を有効にするかどうかの指定。デフォルトでは、特徴選択は無効です。
`GLMS_FTR_SELECTION`	`GLMS_FTR_SELECTION_DISABLE`	`GLMS_FTR_SELECTION_DISABLE`	特徴選択を無効にします。
`GLMS_MAX_FEATURES`	文字列として表される、0より大きく、2000以下の整数	文字列として表される、0より大きく、2000以下の整数	特徴選択を有効にすると、この設定では、最終モデルで選択可能な特徴の最大数が指定されます。デフォルトでは、十分なメモリーを確保するために、アルゴリズムによって特徴の数が制限されます。表現: `TO_CHAR(200)`
`GLMS_PRUNE_MODEL`	`GLMS_PRUNE_MODEL_ENABLE`	`GLMS_PRUNE_MODEL_ENABLE`	最終モデルでの特徴のプルーニングを有効また無効にします。プルーニングは、線形回帰の場合はt検定統計に、ロジスティック回帰の場合はWald検定統計に基づきます。すべての特徴が全データに対して統計的な意味付けを持つまで、これらの特徴はループ処理でプルーニングされます。特徴選択が有効になっている場合、このアルゴリズムでは、自動的に、説明に従ってプルーニングされます。特徴選択が無効になっている場合は、プルーニングを指定できません。
`GLMS_PRUNE_MODEL`	`GLMS_PRUNE_MODEL_DISABLE`	`GLMS_PRUNE_MODEL_DISABLE`	特徴のプルーニングを無効にします。
`GLMS_REFERENCE_CLASS_NAME`	target_value	target_value	バイナリ・ロジスティック回帰モデルで参照クラスとして使用されるターゲット値。その他のクラスに対しては確率が生成されます。デフォルトでは、参照クラスの場合、最も普及率の高い値(ほとんどのケース)がアルゴリズムによって選択されます。
`GLMS_RIDGE_REGRESSION`	`GLMS_RIDGE_REG_ENABLE`	`GLMS_RIDGE_REG_ENABLE`	リッジ回帰を有効または無効にします。リッジは、回帰と分類の両方の機械学習ファンクションに適用されます。リッジを有効にすると、`PREDICTION_BOUNDS` SQLファンクションによって予測限界は生成されません。ノート: リッジは、特徴選択が指定されていない場合または明示的に無効にされている場合にのみ有効です。リッジ回帰が有効になっている場合は、特徴選択を有効にできず、例外が発生します。
`GLMS_RIDGE_REGRESSION`	`GLMS_RIDGE_REG_DISABLE`	`GLMS_RIDGE_REG_DISABLE`	リッジ回帰を無効にします。
`GLMS_RIDGE_VALUE`	文字列として表される、0より大きい整数	文字列として表される、0より大きい整数	リッジ・パラメータ値。この設定は、アルゴリズムでリッジ回帰の使用が構成されている場合にのみ使用されます。リッジ回帰がアルゴリズムによって内部的に有効になっている場合、リッジ・パラメータはアルゴリズムによって決定されます。表現: `TO_CHAR(5)`
`GLMS_ROW_DIAGNOSTICS`	`GLMS_ROW_DIAG_ENABLE`	`GLMS_ROW_DIAG_ENABLE`	`GLMS_ROW_DIAG_ENABLE`: 行診断を有効にします。
`GLMS_ROW_DIAGNOSTICS`	`GLMS_ROW_DIAG_DISABLE (デフォルト)`	`GLMS_ROW_DIAG_DISABLE (デフォルト)`	行診断を無効にします。
`GLMS_CONV_TOLERANCE`	範囲は(`0, 1`)です(この値を含めない)。	範囲は(`0, 1`)です(この値を含めない)。	GLMアルゴリズムの収束許容値の設定デフォルト値は、システムによって決定されます。
`GLMS_NUM_ITERATIONS`	正の整数	正の整数	GLMアルゴリズムの最大反復数。デフォルト値は、システムによって決定されます。
`GLMS_BATCH_ROWS`	`0`または正の整数	`0`または正の整数	SGDソルバーで使用されるバッチ内の行数。このパラメータの値によって、SGDソルバーのバッチのサイズが設定されます。0を入力すると、データ駆動のバッチ・サイズの推定値がトリガーされます。デフォルトは`2000`です
`GLMS_SOLVER`	`GLMS_SOLVER_SGD (StochasticGradient Descent)`	`GLMS_SOLVER_SGD (StochasticGradient Descent)`	この設定により、ユーザーがGLMソルバーを選択できます。`GLMS_FTR_SELECTION`設定が有効である場合、ソルバーは選択できません。 `GLMS_SOLVER_SGD`: 誤差を最小限に抑えるために、データのサブセットを使用してパラメータを繰り返し更新することで一般化線形モデルを最適化します。デフォルト値は、システムによって決定されます。参照: GLMのソルバー
	`GLMS_SOLVER_CHOL (Cholesky)`	`GLMS_SOLVER_CHOL (Cholesky)`	コレスキ分解法を使用して一般化線形モデルを解決し、方程式の右手を下三角マトリックスに変換し、共役転置を行うことにより、安定かつ効率的な解を提供します。
	`GLMS_SOLVER_QR`	`GLMS_SOLVER_QR`	QR分解技術を利用して一般化線形モデルを解決し、問題を直交マトリックスQおよび上三角マトリックスRに分解することにより、数値の安定性と精度を確保します。
	`GLMS_SOLVER_LBFGS_ADMM`	`GLMS_SOLVER_LBFGS_ADMM`	Broyden-Fletcher-Goldfarb-Shanno最適化アルゴリズムの近似であるL-BFGSと、大規模な一般化線形モデルの問題を効率的に解決するためのADMMを組み合せたものです。
`GLMS_SPARSE_SOLVER`	`GLMS_SPARSE_SOLVER_ENABLE`	`GLMS_SPARSE_SOLVER_ENABLE`	この設定により、ユーザーはスパース・ソルバーを使用できます(使用可能な場合)。デフォルト値は`GLMS_SPARSE_SOLVER_DISABLE`です。
`GLMS_SPARSE_SOLVER`	`GLMS_SPARSE_SOLVER_DISABLE` (デフォルト)。	`GLMS_SPARSE_SOLVER_DISABLE` (デフォルト)。	スパース・ソルバーを無効にします。
`GLMS_LINK_FUNCTION`	`GLMS_IDENTITY_LINK`	`GLMS_IDENTITY_LINK`	この設定を使用すると、ユーザーは、GLMモデルを作成するためのリンク・ファンクションを指定できます。リンク・ファンクションはマイニング機能に固有です。分類については、次のものが適用可能です。 `GLMS_LOGIT_LINK` (デフォルト) `GLMS_PROBIT_LINK` `GLMS_CLOGLOG_LINK` `GLMS_CAUCHIT_LINK` 回帰については、次のものが適用可能です。 `GLMS_IDENTITY_LINK` (デフォルト) `GLMS_IDENTITY_LINK`: レスポンス変数を変換なしで線形予測子に直接関連付ける、GLM回帰の恒等リンク関数を採用します。これは、回帰の場合のデフォルト設定です。
	`GLMS_LOGIT_LINK`	`GLMS_LOGIT_LINK`	GLM分類のロジット・リンク関数を実装して、確率を対数-オッズ・スケールにマッピングします(これは、ロジスティック回帰に一般的に使用されます)。
	`GLMS_PROBIT_LINK`	`GLMS_PROBIT_LINK`	GLM分類のプロビット・リンク関数を使用し、正規累積分布と仮定してバイナリ結果をモデル化します。
	`GLMS_CLOGLOG_LINK`	`GLMS_CLOGLOG_LINK`	非対称確率分布のモデル化用に設計された、GLM分類の補対数対数(cloglog)リンク関数を適用します。
	`GLMS_CAUCHIT_LINK`	`GLMS_CAUCHIT_LINK`	GLM分類のCauchitリンク関数を利用し、コーシー累積分布を活用してヘヴィーテイル・データを処理します。

関連トピック

参照:

GLMの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.8 DBMS_DATA_MINING - アルゴリズムの設定: k-Means

k-Meansアルゴリズムの動作は、次の表に示した設定で構成します。

接頭辞DBMS_DATA_MININGを使用して定数値を指定できます。たとえば、DBMS_DATA_MINING.KMNS_CONV_TOLERANCEです。別の方法としては、DBMS_DATA_MINING接頭辞を付けずに文字列値等価を一重引用符で囲みます。たとえば、'KMNS_CONV_TOLERANCE'です

表42-20 k-Meansの設定

設定名	定数値	文字列値等価	説明
`KMNS_CONV_TOLERANCE`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	k-Meansの最小収束許容値。最小収束許容値を満たすか、`KMNS_ITERATIONS`で指定された最大反復数に到達するまで、アルゴリズムは反復します。収束許容値が減少すると、ソリューションはより正確になりますが、実行時間が長くなることがあります。デフォルトの収束許容値は、`0.001`です。表現: `TO_CHAR(0.001)`
`KMNS_DISTANCE`	`KMNS_COSINE`	`KMNS_COSINE`	k-Meansの距離関数。 K-Meansクラスタリング・アルゴリズムでコサイン類似度メトリックを使用してポイント間の距離を測定することを指定します。コサイン類似度により、2つのベクトルの、それらの間の余弦に基づいた類似度が評価されます。これは、高次元データに特に役立ちます(テキストおよびドキュメント・クラスタリングなど)。デフォルトの距離ファンクションは`KMNS_EUCLIDEAN`です。
`KMNS_DISTANCE`	`KMNS_EUCLIDEAN`	`KMNS_EUCLIDEAN`	K-Meansクラスタリング・アルゴリズムでユークリッド距離メトリックを使用してポイント間の距離を測定することを指定します。ユークリッド距離は、空間内の2点間の直線距離であり、数値データのクラスタリングに広く使用されています。
`KMNS_ITERATIONS`	文字列として表された正の整数	文字列として表された正の整数	k-Meansの最大反復数。最大反復数に到達するか、`KMNS_CONV_TOLERANCE`で指定された最小収束許容値を満たすまで、アルゴリズムは反復します。デフォルトの反復回数は`20`です。表現: `TO_CHAR(10)`
`KMNS_MIN_PCT_ATTR_SUPPORT`	文字列として表される、0から1までの浮動小数点数。	文字列として表される、0から1までの浮動小数点数。	クラスタのルール記述にその属性を含めるために必要な、非NULL値でなければならない属性値の最小パーセント。データがまばらであったり多くの欠損値を含んでいる場合、最小支持度が高すぎると非常に短いルールまたは空のルールになる可能性があります。デフォルトの最小支持度は、`0.1`です。表現: `TO_CHAR(0.5)`
`KMNS_NUM_BINS`	文字列として表された、0より大きい正の整数	文字列として表された、0より大きい正の整数	k-meansで生成される属性ヒストグラムでのビンの数。各属性のビン境界は、トレーニング・データセット全体でグローバルに計算されます。ビニングの方法は等幅です。ただ1つのビンを持つ単一値が含まれる属性を除き、すべての属性は同じ数のビンを持ちます。デフォルトのヒストグラム・ビン数は`11`です。表現: `TO_CHAR(15)`
`KMNS_SPLIT_CRITERION`	`KMNS_SIZE`	`KMNS_SIZE`	k-meansの分割基準。分割基準は、新しいk-Meansクラスタの初期化を制御します。アルゴリズムがバイナリ・ツリーを作成し、同時に新しいクラスタを1つ追加します。分割基準がサイズに基づいている場合、新しいクラスタは現在最も大きなクラスタのある領域に置かれます。
`KMNS_SPLIT_CRITERION`	`KMNS_VARIANCE`	`KMNS_VARIANCE`	分割基準が分散値に基づいている場合、新しいクラスタは最も拡大されたクラスタの領域に置かれます。デフォルトの分割基準は`KMNS_VARIANCE`です。
`KMNS_RANDOM_SEED`	負でない整数	負でない整数	この設定により、k-Meansの初期化中に使用されるランダム・ジェネレータのシードを制御します。これは、負でない整数である必要があります。デフォルトは`0`です。
`KMNS_DETAILS`	`KMNS_DETAILS_NONE`	`KMNS_DETAILS_NONE`	この設定により、作成中に計算されるクラスタ詳細のレベルが決まります。 `KMNS_DETAILS_NONE`: クラスタ詳細は計算されません。スコアリング情報のみが永続化されます。
	`KMNS_DETAILS_HIERARCHY`	`KMNS_DETAILS_HIERARCHY`	クラスタ階層とクラスタ・レコード数が計算されます。
	`KMNS_DETAILS_ALL`	`KMNS_DETAILS_ALL`	クラスタ階層、レコード数および記述統計(平均値、分散値、最頻値、ヒストグラムおよびルール)が計算されます。これはデフォルト値です。
`KMNS_WINSORIZE`	`KMNS_WINSORIZE_ENABLE`	`KMNS_WINSORIZE_ENABLE`	データをウィンザライズするには、このパラメータを有効または無効にします。ウィンザライズが有効な場合、平均値の周囲の6つの標準偏差のウィンドウ・サイズでデータが制限されます。この機能は、`AUTO_DATA_PREP`を`ON`および`OFF`にして使用できます。範囲外の値は、間隔の端の値に置き換えられます。ウィンザライズはデフォルトでは有効になっていません。ノート: ウィンザライズは、`KMNS_EUCLIDEAN`距離ファンクションが使用されている場合にのみ使用できます。ウィンザライズが有効になっていて、他の距離ファンクションが設定されている場合は、例外が発生します。
`KMNS_WINSORIZE`	`KMNS_WINSORIZE_DISABLE`	`KMNS_WINSORIZE_DISABLE`	K-Meansクラスタリングのウィンザライズを無効にします。無効にすると、データ内の極端な値が調整されず、外れ値に敏感になる可能性があります。

関連トピック

参照:

クラスタリングに関連する一般的な機械学習機能の設定については、「DBMS_DATA_MINING — 機械学習機能」を参照してください。
k-Meansの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.9 DBMS_DATA_MINING - アルゴリズム設定: 多変量状態推定法 - 逐次確率比検定

多変量状態推定法 - 逐次確率比検定アルゴリズムのトレーニング・キャリブレーション動作を構成する設定です。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.MSET_ADB_HEIGHTです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'MSET_ADB_HEIGHT'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-21 MSET-SPRTの設定

設定名	設定値	文字列値等価	説明
`MSET_ADB_HEIGHT`	正のdouble	正のdouble	シグナル値が正常に周期変動するバンドを推定します。デフォルト値は`0.05`です。
`MSET_ALERT_COUNT`	正の整数	正の整数	しきい値を超えてアラートが生成される、最後のnシグナルの数(アラート・ウィンドウ)。アラート数は、アラート・ウィンドウ以内である必要があります。デフォルト値は`5`です。
`MSET_ALERT_WINDOW`	`MSET_ALERT_COUNT`以上の正の整数	`MSET_ALERT_COUNT`以上の正の整数	SPRT仮説統合ロジックで考慮するシグナルの数。デフォルト値は`5`です。
`MSET_ALPHA_PROB`	0から1までの正のdouble	0から1までの正のdouble	誤警報確率FAP(誤検出)。デフォルト値は`0.01`です。
`MSET_BETA_PROB`	0から1までの正のdouble	0から1までの正のdouble	不警報確率MAP(検出漏れ)。デフォルトは`0.10`です。
`MSET_HELDASIDE`	正の整数	正の整数	MSETモデルのキャリブレーションに使用するデータ行のおよその数。 `ODMS_RANDOM_SEED`を使用して除外サンプルを変更できます。デフォルト値は`10000`です。
`MSET_MEMORY_VECTORS`	正の整数	正の整数	デフォルト値は、データ駆動で決まります。
`MSET_PROJECTION_THRESHOLD`	0より大きく、10000以下の正の整数	0より大きく、10000以下の正の整数	ランダム予測を使用するかどうかを指定します。センサーの数が設定値を超えると、ランダム予測が使用されます。ランダム予測を無効にするには、しきい値をセンサー数以上の値に設定します。デフォルト値は`500`です。
`MSET_STD_TOLERANCE`	正の整数	正の整数	SPRT計算で使用される標準偏差の許容値。デフォルト値は`3`です。

関連トピック

42.1.5.10 DBMS_DATA_MINING - アルゴリズムの設定: Naive Bayes

Naive Bayesアルゴリズムの動作は、次の表に示した設定で構成します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.NABS_PAIRWISE_THRESHOLDです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'NABS_PAIRWISE_THRESHOLD'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-22 Naive Bayesの設定

設定名設定値文字列値等価説明

設定名	設定値	文字列値等価	説明
`NABS_PAIRWISE_THRESHOLD`	文字列として表される、0から1までの浮動小数点数。	文字列として表される、0から1までの浮動小数点数。	NBアルゴリズムでの組しきい値。デフォルトは`0`です。表現: `TO_CHAR(0.5)`
`NABS_SINGLETON_THRESHOLD`	文字列として表される、0から1までの浮動小数点数。	文字列として表される、0から1までの浮動小数点数。	NBアルゴリズムでの単一しきい値。デフォルト値は`0`です。表現: `TO_CHAR(0.5)`

NABS_PAIRWISE_THRESHOLD

文字列として表される、0から1までの浮動小数点数。

NBアルゴリズムでの組しきい値。

デフォルトは0です。

表現:

TO_CHAR(0.5)

NABS_SINGLETON_THRESHOLD

文字列として表される、0から1までの浮動小数点数。

NBアルゴリズムでの単一しきい値。

デフォルト値は0です。

表現:

TO_CHAR(0.5)

関連トピック

参照:

Naive Bayesの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.11 DBMS_DATA_MINING — アルゴリズムの設定: ニューラル・ネットワーク

次の表に示した設定によってニューラル・ネットワーク・アルゴリズムの動作を構成します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.NNET_SOLVER_ADAMです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'NNET_SOLVER_ADAM'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-23 DBMS_DATA_MININGのニューラル・ネットワーク設定

設定名	定数値	文字列値等価	説明
`NNET_SOLVER`	次のいずれかの文字列です。 `NNET_SOLVER_ADAM`	`NNET_SOLVER_ADAM`	最適化の方法を指定します。デフォルト値は、システムによって決定されます。 `NNET_SOLVER_ADAM`: Adam最適化メソッドを使用します。
`NNET_SOLVER`	`NNET_SOLVER_LBFGS`	`NNET_SOLVER_LBFGS`	メモリーが制限されたBroyden-Fletcher-Goldfarb-Shanno (LBFGS)最適化方法を使用します。
`NNET_ACTIVATIONS`	次の1つ以上の文字列です。 `NNET_ACTIVATIONS_ARCTAN`	`NNET_ACTIVATIONS_ARCTAN`	非表示層の活性化関数を指定します。単一の活性化関数を指定(その後、非表示層に適用)することも、各層に活性化関数を個別に指定することもできます。層ごとに異なる活性化関数を用意できます。 1つ以上の層に異なる活性化関数を適用するには、各層に活性化関数を指定する必要があります。指定する活性化関数の数は、`NNET_HIDDEN_LAYERS`値および`NNET_NODES_PER_LAYER`値と一致している必要があります。たとえば、非表示層が3つある場合、次の設定値を使用して3つすべての層に同じ活性化関数の使用を指定できます。 `('NNET_ACTIVATIONS', 'NNET_ACTIVATIONS_TANH')` 次の設定値では、層ごとに異なる活性化関数を指定します。 `('NNET_ACTIVATIONS', '''NNET_ACTIVATIONS_TANH'', ''NNET_ACTIVATIONS_LOG_SIG'', ''NNET_ACTIVATIONS_ARCTAN''')` ノート: 異なる活性化関数は、文字列として1つの文字列内に指定します。引用符はすべて一重引用符で、SQL文およびPL/SQLブロック内の一重引用符をエスケープするには2つの一重引用符を使用します。 `NNET_ACTIVATIONS_ARCTAN`: アークタンジェント・アクティブ化ファンクションを使用します。デフォルト値は`NNET_ACTIVATIONS_LOG_SIG`です。
	`NNET_ACTIVATIONS_BIPOLAR_SIG`	`NNET_ACTIVATIONS_BIPOLAR_SIG`	双極シグモイド活性化関数を使用します。
	`NNET_ACTIVATIONS_LINEAR`	`NNET_ACTIVATIONS_LINEAR`	線形活性化関数を使用します。
	`NNET_ACTIVATIONS_LOG_SIG`	`NNET_ACTIVATIONS_LOG_SIG`	ロジスティック・シグモイド活性化関数を使用します。
	`NNET_ACTIVATIONS_RELU`	`NNET_ACTIVATIONS_RELU`	修正された線形ユニット活性化関数を使用します。
	`NNET_ACTIVATIONS_TANH`	`NNET_ACTIVATIONS_TANH`	双曲タンジェント活性化関数を使用します。
`NNET_HELDASIDE_MAX_FAIL`	正の整数	正の整数	`NNET_REGULARIZER_HELDASIDE`では、検証データのネットワーク・パフォーマンスが改善しない場合や、行の`NNET_HELDASIDE_MAX_FAIL` Epochに変化がない場合、トレーニング処理が早期に停止されます。デフォルト値は`6`です。
`NNET_HELDASIDE_RATIO`	文字列として表される、0より大きく、1以下の整数	文字列として表される、0より大きく、1以下の整数	除外メソッドの保持比率を定義します。デフォルト値は`0.25`です。表現: `TO_CHAR(0.45)`
`NNET_HIDDEN_LAYERS`	正の整数	正の整数	非表示層の数によってトポロジを定義します。デフォルト値は`1`です。
`NNET_ITERATIONS`	正の整数	正の整数	ニューラル・ネットワーク・アルゴリズムにおける最大反復数を指定します。 `DMSSET_NN_SOLVER_LBFGS`ソルバーの場合、デフォルト値は`200`です。 `DMSSET_NN_SOLVER_ADAM`ソルバーの場合、デフォルト値は`10000`です。
`NNET_NODES_PER_LAYER`	正の整数または正の整数のリスト	正の整数または正の整数のリスト	層ごとのノード数によってトポロジを定義します。層ごとに異なる数のノードを保持できます。各層に同じ数のノードを指定するには、単一の値を指定すると、その値が各層に適用されます。 1つ以上の層に異なる数のノードを指定するには、層ごとに1つずつカンマで区切った正の整数のリストを指定します。たとえば、3つの層の場合は、`'10, 20, 5'`となります。設定値は、`NNET_HIDDEN_LAYERS`値と一致する必要があります。層ごとのレイヤーのデフォルト数は、属性の数または`50` (属性の数> `50`の場合)です。
`NNET_REG_LAMBDA`	文字列として表される、0以上の整数	文字列として表される、0以上の整数	L2正則化パラメータ・ラムダを定義します。`NNET_REGULARIZER_HELDASIDE`と同時には設定できません。デフォルト値は`1`です。表現: `TO_CHAR(2)`
`NNET_REGULARIZER`	次のいずれかの文字列です。 `NNET_REGULARIZER_HELDASIDE`	`NNET_REGULARIZER_HELDASIDE`	ニューラル・ネットワーク・アルゴリズムの正則化の設定です。 `NNET_REGULARIZER_HELDASIDE`: 正則化に取り分けられたメソッドを使用します。トレーニング行の合計数が50000より大きい場合、デフォルトは`NNET_REGULARIZER_HELDASIDE`です。
	`NNET_REGULARIZER_L2`	`NNET_REGULARIZER_L2`	2乗の重みの合計にペナルティを課すL2正則化を適用します。
	`NNET_REGULARIZER_NONE`	`NNET_REGULARIZER_NONE`	正則化を無効にします。トレーニング行の合計数が50000以下の場合、デフォルトは`NNET_REGULARIZER_NONE`になります。
`NNET_TOLERANCE`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	ニューラル・ネットワーク・アルゴリズムの収束許容値の設定を定義します。デフォルト値は`0.000001`です。表現: `TO_CHAR(0.00004)`
`NNET_WEIGHT_LOWER_BOUND`	実数	実数	この設定では、重みがランダムに初期化される領域の下限を指定します。`NNET_WEIGHT_LOWER_BOUND`と`NNET_WEIGHT_UPPER_BOUND`は、同時に設定する必要があります。どちらか一方のみを設定すると、エラーが発生します。`NNET_WEIGHT_LOWER_BOUND`には、`NNET_WEIGHT_UPPER_BOUND`より大きな値を設定しないでください。デフォルト値は`–sqrt(6/(l_nodes+r_nodes))`です。`l_nodes`の値は、次のとおりです。入力層の高密度な属性の場合: (`1 +高密度な属性の数`) 入力層の低密度な属性の場合: `低密度な属性の数` 各非表示層の場合: (`1 +その非表示層内のノード数`) `r_nodes`の値は、重みの結合先の層に含まれるノード数です。
`NNET_WEIGHT_UPPER_BOUND`	実数	実数	この設定では、重みが初期化される領域の上限を指定します。`NNET_WEIGHT_LOWER_BOUND`と対にして設定する必要があります。また、`NNET_WEIGHT_LOWER_BOUND`の値より小さな値は設定できません。未指定の場合、`NNET_WEIGHT_LOWER_BOUND`と`NNET_WEIGHT_UPPER_BOUND`の値はシステムによって決定されます。デフォルト値は`sqrt(6/(l_nodes+r_nodes))`です。`NNET_WEIGHT_LOWER_BOUND`を参照してください。

関連トピック

参照:

ニューラル・ネットワークの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。

42.1.5.12 DBMS_DATA_MINING - アルゴリズムの設定: Non-Negative Matrix Factorization

Non-negative Matrix Factorizationアルゴリズムの動作は、次の表に示した設定で構成します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、DBMS_DATA_MINING.NMFS_NONNEG_SCORING_ENABLEです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'NMFS_NONNEG_SCORING_ENABLE'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

データ・ディクショナリ・ビュー*_MINING_MODEL_SETTINGS(接頭辞ALL、USERまたはDBAを使用)を問い合せると、モデルの設定値を確認できます。*_MINING_MODEL_SETTINGSの詳細は、『Oracle Databaseリファレンス』を参照してください。

表42-24 NMFの設定

設定名	定数値	文字列値等価	説明
`NMFS_CONV_TOLERANCE`	文字列として表される、0から0.5までの浮動小数点数	文字列として表される、0から0.5までの浮動小数点数	NMFアルゴリズムでの収束許容値。デフォルトは`0.05`です。表現: `TO_CHAR(0.02)`
`NMFS_NONNEGATIVE_SCORING`	`NMFS_NONNEG_SCORING_ENABLE`	`NMFS_NONNEG_SCORING_ENABLE`	スコアリング結果で負数を許可するかどうか。 `NMFS_NONNEG_SCORING_ENABLE`に設定すると、負の素性値が0(ゼロ)に置き換えられます。デフォルトは`NMFS_NONNEG_SCORING_ENABLE`です。
`NMFS_NONNEGATIVE_SCORING`	`NMFS_NONNEG_SCORING_DISABLE`	`NMFS_NONNEG_SCORING_DISABLE`	`NMFS_NONNEG_SCORING_DISABLE`に設定すると、負の素性値が許可されます。
`NMFS_NUM_ITERATIONS`	文字列として表される、1から500までの整数	文字列として表される、1から500までの整数	NMFアルゴリズムの反復回数。デフォルトは`50`です。表現: `TO_CHAR(80)`
`NMFS_RANDOM_SEED`	文字列として表される整数	文字列として表される整数	NMFアルゴリズムのランダム・シード。デフォルトは`–1`です。表現: `TO_CHAR(2)`

関連トピック

参照:

NMFの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.13 DBMS_DATA_MINING - アルゴリズムの設定: O-Cluster

O-Clusterアルゴリズムの動作は、この表の設定で構成します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.OCLT_SENSITIVITYです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'OCLT_SENSITIVITY'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-25 O-CLusterの設定

設定名定数値文字列値等価説明

設定名	定数値	文字列値等価	説明
`OCLT_SENSITIVITY`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	新しいクラスタを分割するために必要な最大密度を指定する割合。この割合は、全体の均一密度と関連しています。デフォルトは`0.5`です。例: `TO_CHAR(0.9)`

OCLT_SENSITIVITY

文字列として表される、0から1までの浮動小数点数

新しいクラスタを分割するために必要な最大密度を指定する割合。この割合は、全体の均一密度と関連しています。

デフォルトは0.5です。

例:

TO_CHAR(0.9)

関連トピック

参照:

O-Clusterの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.14 DBMS_DATA_MINING — アルゴリズムの設定: ランダム・フォレスト

これらの設定では、ランダム・フォレスト・アルゴリズムの動作を構成します。ランダム・フォレストでは、個々のツリーの構築を構成するためにデシジョン・ツリーの設定を使用します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.RFOR_MTRYです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'RFOR_MTRY'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-26 ランダム・フォレストの設定

設定名定数値文字列値等価説明

設定名	定数値	文字列値等価	説明
`RFOR_MTRY`	`数値>= 0`	`a number >= 0`	列のランダムなサブセットのサイズ。ノードでの分割を選択しているときに考慮されます。各ノードで、プールのサイズは同じままになりますが、特定の候補の列数が変更されます。デフォルトは、モデル・シグネチャに含まれる列数の半数です。特殊な値の`0`は、すべての列が候補プールに含まれることを示します。
`RFOR_NUM_TREES`	`1<=数値` `<=65535`	`1<=` `a number` `<=65535`	フォレスト内のツリーの数デフォルトは`20`です。
`RFOR_SAMPLING_RATIO`	`0<小数<=1`	`0<` `a fraction<=1`	個々のツリーの構築に使用するためにランダムにサンプリングされるトレーニング・データの割合。デフォルトは、トレーニング・データに含まれる行数の半数です。

RFOR_MTRY

数値>= 0

a number >= 0

列のランダムなサブセットのサイズ。ノードでの分割を選択しているときに考慮されます。各ノードで、プールのサイズは同じままになりますが、特定の候補の列数が変更されます。デフォルトは、モデル・シグネチャに含まれる列数の半数です。特殊な値の0は、すべての列が候補プールに含まれることを示します。

RFOR_NUM_TREES

1<=数値 <=65535

1<= a number <=65535

フォレスト内のツリーの数

デフォルトは20です。

RFOR_SAMPLING_RATIO

0<小数<=1

0< a fraction<=1

個々のツリーの構築に使用するためにランダムにサンプリングされるトレーニング・データの割合。デフォルトは、トレーニング・データに含まれる行数の半数です。

関連トピック

参照:

ランダム・フォレストの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.15 DBMS_DATA_MINING - アルゴリズム定数と設定: 特異値分解

次の設定により、特異値分解アルゴリズムの動作が構成されます。

表42-27 特異値分解設定

設定名	定数値	文字列値等価	説明
`SVDS_U_MATRIX_OUTPUT`	`SVDS_U_MATRIX_ENABLE`	`SVDS_U_MATRIX_ENABLE`	SVDによって作成されたUマトリックスを永続化するかどうかを示します。 SVDのUマトリックスには、ビルド・データの行と同数の行があります。大規模なモデルの作成を回避するため、Uマトリックスは、`SVDS_U_MATRIX_OUTPUT`が有効な場合にのみ永続化されます。 `SVDS_U_MATRIX_OUTPUT`を有効にした場合、ビルド・データにケースIDを含める必要があります。ケースIDが存在しないときにUマトリックスが要求されると、例外が発生します。デフォルトは`SVDS_U_MATRIX_DISABLE`です。
`SVDS_U_MATRIX_OUTPUT`	`SVDS_U_MATRIX_DISABLE`	`SVDS_U_MATRIX_DISABLE`	Uマトリックスは永続化されません。
`SVDS_SCORING_MODE`	`SVDS_SCORING_SVD`	`SVDS_SCORING_SVD`	モデルでSVDスコアリングとPCAスコアリングのどちらを使用するかの指定。ビルド・データがSVDでスコアリングされた場合、Uマトリックスと同じ予測になります。デフォルトは`SVDS_SCORING_SVD`です。
`SVDS_SCORING_MODE`	`SVDS_SCORING_PCA`	`SVDS_SCORING_PCA`	ビルド・データがPCAでスコアリングされた場合、UマトリックスとSマトリックスの積が予測になります。
`SVDS_SOLVER`	`SVDS_SOLVER_TSSVD`	`SVDS_SOLVER_TSSVD`	この設定は、データのSVDの計算に使用されるソルバーを示します。PCAの場合、ソルバー設定は、データのPCAの計算に使用されるSVDソルバーのタイプを示します。この設定が指定されない場合、ソルバー・タイプの選択はデータ駆動で行われます。属性の数が3240を超える場合は、デフォルトのワイド・ソルバーが使用されます。そうでない場合、デフォルトのナロー・ソルバーが選択されます。次に、ソルバーのグループを示します。ナロー・データ・ソルバー: 最大で11500個の属性(`TSEIGEN`)または最大で8100個の属性(`TSSVD`)を持つマトリックス用。ワイド・データ・ソルバー: 最大で100万個の属性を持つマトリックス用。ナロー・データ・ソルバーの場合: Tall-Skinny SVDでQR計算TSVD (`SVDS_SOLVER_TSSVD`)が使用されます。 Tall-Skinny SVDで固有値計算TSEIGEN (`SVDS_SOLVER_TSEIGEN`)が使用されます。これは、ナロー・データのデフォルト・ソルバーです。ワイド・データ・ソルバーの場合: 確率SVDでQR計算SSVD (`SVDS_SOLVER_SSVD`)が使用されます。これは、ワイド・データ・ソルバーのデフォルト・ソルバーです。確率SVDで固有値計算STEIGEN (`SVDS_SOLVER_STEIGEN`)が使用されます。
	`SVDS_SOLVER_TSEIGEN`	`SVDS_SOLVER_TSEIGEN`	最大11500個の属性を持つマトリックスの固有値計算を使用したTall-Skinny SVD。これはナロー・データ用のデフォルト・ソルバーです。
	`SVDS_SOLVER_SSVD`	`SVDS_SOLVER_SSVD`	最大100万の属性を持つマトリックスに対するQR計算を使用した確率SVD。これはワイド・データ用のデフォルト・ソルバーです。
	`SVDS_SOLVER_STEIGEN`	`SVDS_SOLVER_STEIGEN`	最大100万の属性を持つマトリックスの固有値計算を使用した確率SVD。
`SVDS_TOLERANCE`	[`0, 1`]の範囲	[`0, 1`]の範囲	特徴のプルーニングには、この設定が使用されます。プルーニング対象外の最初の固有値の共有部分として、特徴の固有値の最小値を定義します。デフォルト値は、データ駆動で決まります。
`SVDS_RANDOM_SEED`	[`0 - 4,294,967,296`]の範囲	[`0 - 4,294,967,296`]の範囲	ランダム・シード値は、確率SVDソルバーで使用されるサンプリング・マトリックスの初期化に使用されます。デフォルトは`0`です。SVDソルバーを`SSVD`または`STEIGEN`に設定する必要があります。
`SVDS_OVER_SAMPLING`	[`1, 5000`]の範囲。	[`1, 5000`]の範囲。	この設定により、確率SVDソルバーで使用されるサンプリング・マトリックスの列数が構成されます。このマトリックスの列数は、特徴の要求数にオーバーサンプリング設定を加えた数と同じです。SVDソルバーを`SSVD`または`STEIGEN`に設定する必要があります。
`SVDS_POWER_ITERATIONS`	[`0, 20`]の範囲。	[`0, 20`]の範囲。	べき乗法設定により、SSVDソルバーの精度が向上します。デフォルトは`2`です。SVDソルバーを`SSVD`または`STEIGEN`に設定する必要があります。

関連トピック

参照:

『Oracle Machine Learning for SQL概要』

42.1.5.16 DBMS_DATA_MINING - アルゴリズムの設定: サポート・ベクター・マシン

次の表に示されている設定がサポート・ベクター・マシン・アルゴリズムの動作を構成します。

「定数値」列は、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、DBMS_DATA_MINING.SVMS_GAUSSIANです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列値等価列から対応する文字列値を一重引用符で囲んで指定できます。たとえば、'SVMS_GAUSSIAN'です。

ノート:

このアルゴリズムの「定数値」と文字列値等価の違いは、Oracle Database 19cとOracle Database 21cに適用されます。

表42-28 SVMの設定

設定名	定数値	文字列値等価	説明
`SVMS_COMPLEXITY_FACTOR`	文字列として表される、0より大きい整数	文字列として表される、0より大きい整数	新しいデータに対して優れた一般化を実現するための、モデルの堅牢性に対するモデルの複雑性のバランスをとる正則化設定。SVMでは、データ駆動の手法を使用して複雑性要素が検出される。 SVMアルゴリズム(分類と回帰の両方)の複雑度係数の値。デフォルト値は、アルゴリズムによってデータから概算されます。表現: `TO_CHAR(20)`
`SVMS_CONV_TOLERANCE`	文字列として表される、0より大きい整数	文字列として表される、0より大きい整数	SVMアルゴリズムでの収束許容値。デフォルトは`0.0001`です。表現: `TO_CHAR(0.005)`
`SVMS_EPSILON`	文字列として表される、0より大きい整数	文字列として表される、0より大きい整数	回帰の正則化設定(複雑度係数と同様)。イプシロンによって、データ内で許容される残差(ノイズ)が指定される。 SVM回帰のエプシロン係数の値。デフォルトは`0.1`です。表現: `TO_CHAR(0.5)`
`SVMS_KERNEL_FUNCTION`	`SVMS_GAUSSIAN`	`SVMS_GAUSSIAN`	サポート・ベクター・マシンのカーネル。線形またはガウス。 `SVMS_GAUSSIAN`: SVMにガウス・カーネルを使用します。デフォルト値は`SVMS_LINEAR`です。
`SVMS_KERNEL_FUNCTION`	`SVMS_LINEAR`	`SVMS_LINEAR`	SVMに線形カーネルを使用します。このオプションがデフォルトです。
`SVMS_OUTLIER_RATE`	文字列として表される、0から1までの浮動小数点数	文字列として表される、0から1までの浮動小数点数	トレーニング・データでの目標となる外れ値率。1クラスSVMモデル(異常検出)に対してのみ有効です。デフォルトは`0.01`です。表現: `TO_CHAR(0.04)`
`SVMS_STD_DEV`	文字列として表される、0より大きい整数	文字列として表される、0より大きい整数	ガウス・カーネル関数の分布を制御する。SVMでは、データ駆動の手法が使用され、通常のケース間の距離と同じスケールにある標準偏差値が検出される。 SVMアルゴリズムの標準偏差の値。これは、ガウス・カーネルにのみ適用されます。デフォルト値は、アルゴリズムによってデータから概算されます。表現: `TO_CHAR(6)`
`SVMS_NUM_ITERATIONS`	正の整数	正の整数	この設定により、SVM反復数の上限が設定されます。これはSVMソルバーに依存するため、デフォルトはシステムによって決定されます。
`SVMS_NUM_PIVOTS`	[`1; 10000`]の範囲	[`1; 10000`]の範囲	この設定により、不完全なコレスキ分解で使用されるピボット数の上限が設定されます。これは、非線形カーネルにのみ設定できます。デフォルト値は`200`です。
`SVMS_BATCH_ROWS`	正の整数	正の整数	この設定は、線形カーネルを使用するSVMモデルに適用されます。この設定により、SGDソルバーのバッチのサイズが設定されます。0を入力すると、データ駆動のバッチ・サイズの推定値がトリガーされます。デフォルト値は`20000`です。
`SVMS_REGULARIZER`	`SVMS_REGULARIZER_L1`	`SVMS_REGULARIZER_L1`	この設定により、SGD SVMソルバーで使用される正則化のタイプが制御されます。この設定は、線形SVMモデルにのみ使用できます。これは潜在的なモデル・サイズに依存するため、デフォルトはシステムによって決定されます。 `SVMS_REGULARIZER_L1`: L1正則化を使用します。
`SVMS_REGULARIZER`	`SVMS_REGULARIZER_L2`	`SVMS_REGULARIZER_L2`	L2正則化を使用します。
`SVMS_SOLVER`	`SVMS_SOLVER_SGD` (劣勾配降下)	`SVMS_SOLVER_SGD` (劣勾配降下)	SVMソルバーを選択できます。カーネルが非線形である場合、SGDソルバーは選択できません。デフォルト値は、システムによって決定されます。 `SVMS_SOLVER_SGD`: 劣勾配降下ソルバーを使用します。
`SVMS_SOLVER`	`SVMS_SOLVER_IPM` (内点法)	`SVMS_SOLVER_IPM` (内点法)	内点法ソルバーを使用します。

関連トピック

参照:

SVMの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.5.17 DBMS_DATA_MINING - アルゴリズムの設定: XGBoost

XGBoostの勾配ブースティング・アルゴリズムの動作を構成する設定です。

「定数名」列では、接頭辞DBMS_DATA_MININGを使用して定数を指定します。たとえば、 DBMS_DATA_MINING.xgboost_boosterです。または、DBMS_DATA_MINING接頭辞を付けずに、文字列名等価列から対応する文字列値を単一引用符で囲んで指定できます。たとえば、'booster'です。

ノート:

このアルゴリズムでの定数値と文字列名等価との区別は、Oracle Database 19cとOracle Database 21cに適用されます。

XGBoostの設定では大文字と小文字が区別されます。設定表に表示されるとおりに設定を入力します。これらの設定は、オープン・ソースで使用可能なXGBoost設定と一致します。OML4SQL XGBoostはXGBoostの1.7.4バージョンに基づいています。

グローバル設定については、「DBMS_DATA_MINING — グローバル設定」を参照してください。

一般的な機械学習手法の設定については、「DBMS_DATA_MINING — 機械学習機能」を参照してください。

表42-29 一般的な設定

定数名文字列名等価設定値説明

定数名	文字列名等価	設定値	説明
`xgboost_booster`	`booster`	次のいずれかの文字列。 `dart` `gblinear` `gbtree`	使用するブースタは次のとおりです。 `dart` `gblinear` `gbtree` `dart`ブースタと`gbtree`ブースタではツリーベースのモデルが使用されるのに対し、`gblinear`では線形関数が使用されます。デフォルト値は`gbtree`です。
`xgboost_num_round`	`num_round`	負でない整数。	ブースティング用の丸めの数。デフォルト値は`10`です。

xgboost_booster

booster

次のいずれかの文字列。

dart

gblinear

gbtree

使用するブースタは次のとおりです。

dart
gblinear
gbtree

dartブースタとgbtreeブースタではツリーベースのモデルが使用されるのに対し、gblinearでは線形関数が使用されます。

デフォルト値はgbtreeです。

xgboost_num_round

num_round

負でない整数。

ブースティング用の丸めの数。

デフォルト値は10です。

表42-30 ツリー・ブースティングの設定

定数名	文字列名等価	設定値	説明
`xgboost_alpha`	`alpha`	負でない数値	重みに対するL1正規化項。この値を大きくすると、モデルはより保守的になります。デフォルト値は`0`です。
`xgboost_colsample_bylevel`	`colsample_bylevel`	[0, 1]の範囲内の数値	各レベルの分割ごとの列のサブサンプル比率。サブサンプリングは、新しい分割が行われるたびに発生します。`tree_method`が`hist`に設定されている場合、このパラメータは効果がありません。デフォルト値は`1`です。
`xgboost_colsample_bynode`	`colsample_bynode`	[0, 1]の範囲内の数値	各ノードの列のサブサンプル比率(分割)。サブサンプリングは、新しい分割が評価されるたびに1回発生します。列は、現在のレベルで選択されている列セットからサブサンプリングされます。デフォルト値は`1`です。
`xgboost_colsample_bytree`	`colsample_bytree`	[0, 1]の範囲内の数値	各ツリーの構築時における列のサブサンプル比率。サブサンプリングは、ブースティングの反復ごとに1回発生します。デフォルト値は`1`です。
`xgboost_eta`	`eta`	[0, 1]の範囲内の数値	オーバーフィットを回避するために更新ステップで使用されるステップ・サイズの縮小。各ブースティング・ステップ後に、`eta`は、素性重みを縮小してブースティング・プロセスをより保守的にします。デフォルト値は`0.3`です。
`xgboost_gamma`	`gamma`	[0, ∞]の範囲内の数値	ツリーのリーフ・ノードでさらにパーティションを作成するのに必要な最小損失低減。gamma値が大きいほど、アルゴリズムは保守的になります。デフォルト値は`0`です。
`xgboost_grow_policy`	`grow_policy`	次のいずれかの文字列。 `depthwise` `lossguide`	新しいノードをツリーに追加する方法を制御します。 `depthwise`は、ルートに最も近いノードで分割します。 `lossguide`は、損失変化が最も高いノードで分割します。 `tree_method`が`hist`に設定されている場合にのみ有効です。デフォルト値は`depthwise`です。
`xgboost_interaction_constraints`	`interaction_constraints`	`[[x0,x1,x2],[x0,x4],[x5,x6]]` (`xn`は特徴名または列)	この設定では、モデル内で許可される相互作用を指定します。ネストされたリストの形式で制約を指定します。内側の各リストは、相互に作用できる特徴(列名)のグループです。相互作用で単一の列が渡された場合、入力は無視されます。ここでは、特徴x0、x1およびx2は相互に作用できますが、他の特徴と相互に作用することはできません。同様に、x0とx4は相互に作用できるが、他の特徴と相互に作用することはできないというようになります。この設定は、2次元特徴に適用されます。サポートされていない型の列や存在しない特徴名を渡すと、エラーが発生します。
`xgboost_lambda`	`lambda`	負でない数値	重みに対するL2正規化項。デフォルト値は`1`です。
`xgboost_max_bin`	`max_bin`	負でない整数	連続素性をバケット化するための離散ビンの最大数。この数を増やすと、計算時間はかかりますが、分割の最適化は向上します。 `tree_method`が`hist`に設定されている場合にのみ、このパラメータは有効です。デフォルト値は`256`です。
`xgboost_max_delta_step`	`max_delta_step`	[0, ∞]の範囲内の数値	各リーフ出力に許容される最大デルタ・ステップ。これを正の値に設定すると、更新ステップがより保守的になります。通常、このパラメータは必要ありませんが、クラスが非常に不均衡な場合はロジスティック回帰に役立つことがあります。1から10までの値に設定すると、更新の制御に役立つことがあります。デフォルト値は`0`です(制約がないことを意味します)。
`xgboost_max_depth`	`max_depth`	[0, ∞]の範囲内の整数	ツリーの最大深度。この値を大きくすると、モデルはより複雑になり、オーバーフィットする可能性が高くなります。この値を0 (ゼロ)に設定すると、制限がないことを意味します。ノート: `grow_policy`設定が`depthwise`の場合、`max_depth`制限を設定する必要があります。デフォルト値は`6`です。
`xgboost_max_leaves`	`max_leaves`	負でない数値	追加するノードの最大数。この設定は、`grow_policy`が`lossguide`に設定されている場合にのみ使用します。デフォルト値は`0`です。
`xgboost_min_child_weight`	`min_child_weight`	[0, ∞]の範囲内の数値	子で必要とされるインスタンスの重み(ヘッセ)の最小合計。ツリー・パーティション・ステップの結果が、インスタンスの重みの合計が`min_child_weight`より小さいリーフ・ノードになる場合、ビルド・プロセスではパーティション化が停止します。線形回帰タスクでは、これは各ノードで必要とされるインスタンスの最小数に相当します。`min_child_weight`値が大きいほど、アルゴリズムは保守的になります。デフォルト値は`1`です。
`xgboost_monotone_decrease_constraints`	`monotone_decrease_constraints`	'`x4,x5`'	この設定では、減少制約に従う必要がある特徴(列名)を指定します。特徴名はカンマで区切ります。たとえば、値'x4,x5'を設定すると、特徴x4およびx5に対して減少制約が設定されます。この設定は、数値列および2次元特徴に適用されます。サポートされていない型の列や存在しない特徴名を渡すと、エラーが発生します。
`xgboost_monotone_increase_constraints`	`monotone_increase_constraints`	'`x0,x3`'	この設定では、増加制約に従う必要がある特徴(列名)を指定します。特徴名はカンマで区切ります。たとえば、値'x0,x3'を設定すると、特徴x0およびx3に対して増加制約が設定されます。この設定は、2次元特徴に適用されます。サポートされていない型の列や存在しない特徴名を渡すと、エラーが発生します。
`xgboost_num_parallel_tree`	`num_parallel_tree`	負でない整数	各反復で構築されたパラレル・ツリーの数。このオプションを使用してブースティングされたランダム・フォレストをサポートします。デフォルト値は`1`です。
`xgboost_scale_pos_weight`	`scale_pos_weight`	負でない数値	正の重みと負の重みのバランスを制御します。これは、不均衡なクラスに役立ちます。考慮する一般的な値: `sum(negative cases) / sum(positive cases)`。デフォルト値は`1`です。
`xgboost_sketch_eps`	`sketch_eps`	(0, 1)の範囲内の数値	列挙精度を高めます。近似貪欲ツリー法でのみ有効です。ビン数の直接選択と比較して、この設定には、スケッチ精度による理論的な保証が付いています。通常、この設定を変更する必要はありませんが、より正確な列挙を得るために、より小さい数値の設定を検討することも可能です。デフォルト値は`0.03`です。
`xgboost_subsample`	`subsample`	[0, 1]の範囲内の数値	トレーニング・インスタンスのサブサンプル比率。0.5に設定すると、XGBoostでは、ツリーを拡張する前にトレーニング・データの半分がランダムにサンプリングされ、オーバーフィットが回避されます。サブサンプリングは、ブースティングの反復ごとに1回発生します。デフォルト値は`1`です。
`xgboost_tree_method`	`tree_method`	次のいずれかの文字列。 `approx` `auto` `exact` `hist`	XGBoostで使用されるツリー構築アルゴリズムです。 `approx`: スケッチングおよびヒストグラムを使用した近似貪欲アルゴリズム。 `auto`: ヒューリスティックを使用してより高速なアルゴリズムを選択します。小規模から中規模のデータ・セットには、厳密貪欲アルゴリズムを使用します。非常に大規模なデータ・セットには、近似貪欲アルゴリズムを使用します。 `exact`: 厳密貪欲アルゴリズム。 `hist`: 高速ヒストグラムで最適化された近似貪欲アルゴリズム。ビン・キャッシュなどのパフォーマンス向上を利用します。デフォルト値は`auto`です。
`xgboost_updater`	`updater`	次の1つ以上のカンマで区切られた文字列。 `grow_colmaker` `grow_histmaker` `grow_skmaker` `grow_quantile_histmaker` `prune` `sync`	実行するツリー・アップデータの順序を定義します。これにより、モジュール方式でツリーを構築および変更できます。これは、他のいくつかのパラメータに応じて、通常は自動的に設定される拡張パラメータです。ただし、設定を明示的に指定することもできます。設定値は次のとおりです。 `grow_colmaker`: 列ベースの非分散ツリー構築。 `grow_histmaker`: ヒストグラム計数のグローバルな提案に基づいた、行ベースのデータ分割による分散ツリー構築。 `grow_skmaker`: 近似スケッチ・アルゴリズムを使用します。 `grow_quantile_histmaker`: 量子化ヒストグラムを使用してツリーを拡大します。 `prune`: 損失が`min_split_loss` (または`gamma`)未満である分割をプルーニングします。 `sync`: すべての分散ノード内のツリーを同期します。

表42-31 ダート・ブースタの設定

定数名	文字列名等価	設定値	説明
`xgboost_one_drop`	`one_drop`	0または1の数値	1に設定すると、ドロップアウト中に少なくとも1つのツリーが常に削除されます。0に設定すると、ドロップアウト中に少なくとも1つのツリーが常に削除されるわけではありません。デフォルト値は`0`です。
`xgboost_normalize_type`	`normalize_type`	次のいずれかの文字列。 `forest` `tree`	正規化アルゴリズムのタイプです。 `forest`: 新しいツリーの重みは、削除されたツリー(フォレスト)の合計と同じです。新しいツリーの重みは、`1 / (1 + learning_rate)`です。削除されたツリーは、係数`1 / (l + learning_rate)`でスケール変更されます。 `tree`: 新しいツリーの重みは、削除されたツリーと同じです。新しいツリーの重みは、`1 / (k + learning_rate)`です。削除されたツリーは、係数`k / (k + learning_rate)`でスケール変更されます。デフォルト値は`tree`です。
`xgboost_rate_drop`	`rate_drop`	[0.0, 1.0]の範囲内の数値	ドロップアウト比率(ドロップアウト中に削除する、ごく一部の前のツリー)。デフォルト値は`0.0`です。
`xgboost_sample_type`	`sample_type`	次のいずれかの文字列。 `uniform` `weighted`	サンプリング・アルゴリズムのタイプです。 `uniform`: 削除されたツリーが均一に選択されます。 `weighted`: 削除されたツリーが重みに比例して選択されます。デフォルト値は`uniform`です。
`xgboost_skip_drop`	`skip_drop`	[0.0, 1.0]の範囲内の数値	ブースティングの反復中にドロップアウト手順をスキップする確率。ドロップアウトがスキップされた場合、`gbtree`と同じ方法で新しいツリーが追加されます。ゼロ以外の`skip_drop`は、`rate_drop`または`one_drop`より優先順位が高くなります。デフォルト値は`0.0`です。

表42-32 線形ブースタの設定

定数名	文字列名等価	設定値	説明
`xgboost_alpha`	`alpha`	負でない数値	トレーニング例の数に正規化されている、重みに対するL1正規化項。この値を大きくすると、モデルはより保守的になります。デフォルト値は`0`です。
`xgboost_feature_selector`	`feature_selector`	次のいずれかの文字列。 `cyclic` `greedy` `random` `shuffle` `thrifty`	素性選択および順序付けの方法です。 `cyclic`: 一度に1つずつ素性を循環することによる決定論的選択。 `greedy`: 勾配の大きさが最大の座標を選択します。この方法は次のとおりです。 `O(num_feature^2)`複雑度がある。完全に決定論的である。 `top_k`パラメータを設定することで、一変量重み変化の大きさが最大の`top_k`素性に、グループごとの選択を制限でき、これにより、`O(num_feature*top_k)`まで複雑度を低減する。 `random`: ランダムな(置換あり)座標セレクタ。 `shuffle`: `cyclic`と似ていますが、各更新の前にランダムに素性がシャッフルされます。 `thrifty`: 倹約型の近似貪欲素性セレクタ。循環更新の前に、一変量重み変化の大きさの降順で、素性の順序を変更します。この操作はマルチスレッド化されており、二次貪欲選択の線形で複雑な近似です。一変量重み変化の大きさが最大の`top_k`素性に、グループごとの選択を制限します。デフォルト値は`cyclic`です。
`xgboost_lambda`	`lambda`	負でない数値	トレーニング例の数に正規化されている、重みに対するL2正規化項。この値を大きくすると、モデルはより保守的になります。デフォルト値は`0`です。
`xgboost_top_k`	`top_k`	負でない整数	`greedy`または`thrifty`素性セレクタ用に選択する上位の素性の数。値0 (ゼロ)では、すべての素性が使用されます。デフォルト値は`0`です。
`xgboost_updater`	`updater`	次のいずれかの文字列。 `coord_descent` `shotgun`	線形モデルに適合するアルゴリズムです。 `coord_descent`: 通常の座標下降アルゴリズム。マルチスレッド化されていますが、決定論的解が引き続き生成されます。 `shotgun`: `shotgun`アルゴリズムに基づいた並列座標下降アルゴリズムで、"hogwild"の並列度を使用するため、実行ごとに非決定論的解を生成します。デフォルト値は`shotgun`です。

表42-33 Tweedie回帰の設定

定数名文字列名等価設定値説明

定数名	文字列名等価	設定値	説明
`xgboost_tweedie_variance_power`	`tweedie_variance_power`	(1, 2)の範囲内の数値	Tweedie分布`var(y) ~ E(y)^tweedie_variance_power`の分散を制御します。 1に近い設定では、ポアソン分布にシフトします。 2に近い設定では、ガンマ分布にシフトします。デフォルト値は`1.5`です。

xgboost_tweedie_variance_power

tweedie_variance_power

(1, 2)の範囲内の数値

Tweedie分布var(y) ~ E(y)^tweedie_variance_powerの分散を制御します。

1に近い設定では、ポアソン分布にシフトします。

2に近い設定では、ガンマ分布にシフトします。

デフォルト値は1.5です。

XGBoostの目標には、分類機能モデルにのみ適用されるものもあれば、回帰機能モデルにのみ適用されるものもあります。互換性のないobjective値を指定すると、エラーが発生します。DBMS_DATA_MINING.CREATE_MODELプロシージャで、DBMS_DATA_MINING.CLASSIFICATIONを関数として指定した場合、使用できる目標値はbinary値およびmulti値のみです。例外の1つはbinary: logitrawで、これは、連続値を生成して回帰モデルにのみ適用されます。DBMS_DATA_MINING.REGRESSIONを関数として指定する場合は、binary: logitrawまたはcount、rank、regおよびsurvivalのいずれかの値を目標として指定できます。

表42-34 学習タスクの設定

設定名	文字列名等価	設定値	説明
`xgboost_objective`	`objective`	分類モデルの場合は、次のいずれかの文字列です。 `binary:hinge` `binary:logistic` `multi:softmax` `multi:softprob` 回帰モデルの場合は、次のいずれかの文字列です。 `binary:logitraw` `count:poisson` `rank:map` `rank:ndcg` `rank:pairwise` `reg:gamma` `reg:logistic` `reg:tweedie` `survival:aft` `survival:cox` `reg:squarederror` `reg:squaredlogerror`	分類モデル用の設定: `binary:hinge`: 2項分類のヒンジ損失。この設定では、確率を生成するのではなく、0または1を予測します。 `binary:logistic`: 2項分類のロジスティック回帰。出力は確率です。 `multi:softmax`: `softmax`目標を使用して多クラス分類を実行します。また、`num_class(number_of_classes)`を設定する必要もあります。 `multi:softprob`: `softmax`と同じですが、ただし、出力は`ndata * nclass`のベクターで、これは今後`ndata * nclass`マトリックスに置き換えられる可能性があります。結果には、各クラスに属する各データ・ポイントの予測された確率が含まれます。分類のデフォルト`objective`値は、`multi:softprob`です。回帰モデル用の設定: `binary:logitraw`: 2項分類のロジスティック回帰。出力はロジスティック変換前のスコアです。 `count:poisson`: カウント・データ用のポアソン回帰。出力はポアソン分布の平均です。ポアソン回帰では、最適化を保護するために、`max_delta_step`値はデフォルトで0.7に設定されます。 `rank:map`: `LambdaMART`を使用して、平均平均精度(MAP)が最大化されるリストごとのランク付けを実行します。 `rank:ndcg`: `LambdaMART`を使用して、正規化減損累積利得(NDCG)が最大化されるリストごとのランク付けを実行します。 `rank:pairwise`: ペアごとの損失を最小限に抑えてランク付けを実行します。 `reg:gamma`: 対数リンクありのガンマ回帰。出力はガンマ分布の平均です。この設定は、保険金請求の重大度のモデリングなど、ガンマ分散される可能性のある結果に役立つ場合があります。 `reg:logistic`: ロジスティック回帰。 `reg:tweedie`: 対数リンクありのTweedie回帰。この設定は、保険における全損のモデリングなど、Tweedie分散される可能性のある結果に役立つ場合があります。 `survival:aft`: 打切り生存時間データに対してAccelerated Failure Time (AFT)モデルを適用します。このオプションを選択すると、`eval_metric`ではデフォルト値として`aft-nloglik`が使用されます。 `survival:cox`: 右側打切りの生存時間データ用のCox回帰(負の値は右側打切りとみなされます)。予測は、ハザード率スケールで(つまり、比例ハザード関数`h(t) = h0(t) * HR`の`HR = exp(marginal_prediction)`として)返されます。 `reg:squarederror`: 二乗損失のある回帰。 `reg:squaredlogerror`: 二乗ログ損失のある回帰。すべての入力ラベルは-1より大きくする必要があります。回帰のデフォルトの`objective`値は、`reg:squarederror`です。
`xgboost_aft_loss_distribution`	`aft_loss_distribution`	[normal, logistic, extreme]	AFTモデルのZ項の分布を指定します。これは、`survival:aft`目的および`aft-nloglik`評価メトリックで使用される確率密度ファンクションを指定します。デフォルト値は`normal`です。
`xgboost_aft_loss_distribution_scale`	`aft_loss_distribution_scale`	正数	AFTモデルのZ項のサイズをスケーリングするスケーリング係数σを指定します。デフォルト値は`1`です。
`xgboost_aft_right_bound_column_name`	`aft_right_bound_column_name`	column_name	AFTモデルのラベルの右境界を含む列を指定します。非AFTモデルについてこのパラメータを選択することはできません。ノート: Oracle Machine Learningは、この設定について`BOOLEAN`値をサポートしていません。
`xgboost_base_score`	`base_score`	数値	すべてのインスタンスの初期予測スコア(グローバル・バイアス) 反復数が十分である場合、この値を変更してもあまり効果はありません。デフォルト値は`0.5`です。
`xgboost_eval_metric`	`eval_metric`	次の1つ以上のカンマで区切られた文字列。 `aft-nloglik` `auc` `aucpr` `cox-nloglik` `error` `error@t` `gamma-deviance` `gamma-nloglik` `logloss` `mae` `map` `map@n` `merror` `mlogloss` `ndcg` `ndcg@n` `poisson-nloglik` `rmse` `tweedie-nloglik@rho` `ndcg-` `map-` `rmsle`	検証データの評価メトリック。次の評価メトリックを1つ以上指定できます。 `aft-nloglik`: `eval_metric`をAFTモデルの負の対数尤度に設定します。 `auc`: 曲線下面積。 `aucpr`: PR曲線下面積。 `cox-nloglik`: Cox比例ハザード回帰用の負の部分対数尤度。 `error`: 不正なケースの数をすべてのケースの数で除算した、2項分類誤差率。予測の場合、評価では、0.5より大きい予測値のインスタンスはポジティブ・インスタンスとみなされ、それ以外はネガティブ・インスタンスとみなされます。 `error@t`: 数値t (`error@0.8`など)を指定することで、0.5以外の2項分類しきい値を指定できます。 `gamma-deviance`: `gamma`回帰の残差逸脱度。 `gamma-nloglik`: `gamma`回帰の負の対数尤度。 `logloss`: 負の対数尤度。 `mae`: 平均絶対誤差。 `map`: 平均平均精度。 `map@n`: 評価用リスト内の最高位のカットオフ値として整数nを割り当てます。 `merror`: 不正なケースの数をすべてのケースの数で除算して算出された多クラス分類誤差率。目標は `multi:softprob`または`multi:softmax`である必要があります。 `mlogloss`: 多クラスの`logloss`。目標は `multi:softprob`または`multi:softmax`である必要があります。 `ndcg`: 正規化減損累積利得。 `ndcg@n`: 評価用リスト内の最高位のカットオフ値として整数nを割り当てます。 `poisson-nloglik`: ポアソン回帰の負の対数尤度 `rmse`: 2乗平均平方根誤差。 `tweedie-nloglik@rho`: (`tweedie_variance_power`パラメータの指定値`rho`での) Tweedie回帰の負の対数尤度。`tweedie-nloglik@1.8`など、`rho`は(1, 2)の範囲内の数値である必要があります。 `ndcg-`および`map-`: XGBoostでは、NDCGおよびMAPは、ポジティブ・サンプルが1でないリストのスコアを評価します。評価メトリックに「-」を追加することで、XGBoostではこれらのスコアが0として評価され、特定の条件下で一貫性が保持されます。 `rmsle`: ルート平均平方ログ・エラーです。これは、`reg:squaredlogerror`の目標のデフォルトのメトリックです。このメトリックは、データセットの外れ値によって生成されるエラーを減らします。ただし、log関数が使用されているため、予測値が-1より小さい場合、`rmsle`の出力はNaNになる可能性があります。デフォルトのメトリックは、目標に応じて割り当てられます。 `error`: 分類の場合 `mean average precision`: ランク付けの場合 `rmse`: 回帰の場合
`xgboost_seed`	`seed`	負でない整数	乱数シード。デフォルト値は`0`です。

関連トピック

参照:

https://github.com/oracle/oracle-db-examples/tree/master/machine-learning/sql/ (リリースを選択し、XGBoostの例を参照してください)。

42.1.6 DBMS_DATA_MINING — ソルバーの設定

Oracle Machine Learning for SQLのアルゴリズムでは、様々なソルバーを使用できます。ソルバーの設定は、ビルド時に設定表で指定できます。

関連トピック

42.1.6.1 DBMS_DATA_MINING — ソルバーの設定: Adam

次の設定により、Adaptive Moment Estimation (Adam)ソルバーの動作が構成されます。

ニューラル・ネットワーク・モデルでは、次の設定が使用されます。

表42-35 DBMS_DATA_MINING Adamの設定

設定名	設定値	説明
`ADAM_ALPHA`	[0; 1]の間隔内の負でない倍精度浮動小数点数	Adamの学習率。デフォルト値は`0.001`です。
`ADAM_BATCH_ROWS`	正の整数	バッチ当たりの行数。デフォルト値は`10000`です。
`ADAM_BETA1`	[0; 1]の間隔内の正の倍精度浮動小数点数	第1の瞬間の見積に対する指数減衰率。デフォルト値は`0.9`です。
`ADAM_BETA2`	[0; 1]の間隔内の正の倍精度浮動小数点数	第2の瞬間の見積に対する指数減衰率。デフォルト値は`0.99`です。
`ADAM_GRADIENT_TOLERANCE`	正の倍精度浮動小数点数	Adamの勾配の無限ノルム許容範囲。デフォルト値は`1E-9`です。

関連トピック

DBMS_DATA_MINING — アルゴリズムの設定: ニューラル・ネットワーク

42.1.6.2 DBMS_DATA_MINING — ソルバーの設定: ADMM

次の表に示した設定によってADMM (Alternating Direction Method of Multipliers)の動作を構成します。一般化線形モデル(GLM)アルゴリズムには、ここに示す設定を使用します。

表42-36 DBMS_DATA_MININGのADMM設定

設定名	設定値	説明
`ADMM_CONSENSUS`	正の整数	ADMMのコンセンサス・パラメータです。値は、正数である必要があります。デフォルト値は`0.1`です。
`ADMM_ITERATIONS`	正の整数	`ADMM`の反復回数。値は正整数である必要があります。デフォルト値は`50`です。
`ADMM_TOLERANCE`	正の整数	許容範囲パラメータです。値は、正数である必要があります。デフォルト値は`0.0001`です

関連トピック

参照:

ニューラル・ネットワークの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.6.3 DBMS_DATA_MINING — ソルバーの設定: LBFGS

次の表に示した設定によってL-BFGSの動作を構成します。ニューラル・ネットワーク・モデルと一般化線形モデル(GLM)には、ここに示す設定を使用します。

表42-37 DBMS_DATA_MININGのL-BFGS設定

設定名設定値説明

設定名	設定値	説明
`LBFGS_GRADIENT_TOLERANCE`	文字列として表される、0より大きい整数	L-BFGSの勾配の無限ノルム許容範囲を定義します。デフォルト値は`1E-9`です。表現: `TO_CHAR (0.000000002)`
`LBFGS_HISTORY_DEPTH`	正の整数。	L-BFGSソルバーに保持される履歴コピーの数を定義します。デフォルト値は`20`です。
`LBFGS_SCALE_HESSIAN`	`LBFGS_SCALE_HESSIAN_ENABLE` `LBFGS_SCALE_HESSIAN_DISABLE`	L-BFGSでヘッセをスケールするかどうかを定義します。デフォルト値は`LBFGS_SCALE_HESSIAN_ENABLE`です。

LBFGS_GRADIENT_TOLERANCE

文字列として表される、0より大きい整数

L-BFGSの勾配の無限ノルム許容範囲を定義します。デフォルト値は1E-9です。

表現:

TO_CHAR (0.000000002)

LBFGS_HISTORY_DEPTH

正の整数。

L-BFGSソルバーに保持される履歴コピーの数を定義します。

デフォルト値は20です。

LBFGS_SCALE_HESSIAN

LBFGS_SCALE_HESSIAN_ENABLE

LBFGS_SCALE_HESSIAN_DISABLE

L-BFGSでヘッセをスケールするかどうかを定義します。

デフォルト値はLBFGS_SCALE_HESSIAN_ENABLEです。

関連トピック

参照:

ニューラル・ネットワークの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

42.1.7 DBMS_DATA_MININGのデータ型

DBMS_DATA_MININGパッケージでは、トランザクション・データを処理するためのオブジェクト・データ型が定義されています。このパッケージでは、ユーザー指定の変換用の型も定義されます。こうした型は、DM_NESTED_nと呼ばれています。このnにより、ネストした属性のOracleデータ型を識別します。

次の表に、Oracle Machine Learning for SQLのオブジェクト・データ型の説明を示します。

表42-38 DBMS_DATA_MININGのデータ・タイプの要約

データ・タイプ	説明
`DM_NESTED_BINARY_DOUBLE`	`BINARY_DOUBLE`タイプの量的属性の名前と値。
`DM_NESTED_BINARY_DOUBLES`	`DM_NESTED_BINARY_DOUBLE`のコレクション。
`DM_NESTED_BINARY_FLOAT`	`BINARY_FLOAT`タイプの量的属性の名前と値。
`DM_NESTED_BINARY_FLOATS`	`DM_NESTED_BINARY_FLOAT`のコレクション。
`DM_NESTED_CATEGORICAL`	`CHAR`、`VARCHAR`または`VARCHAR2`タイプの質的属性の名前と値。
`DM_NESTED_CATEGORICALS`	`DM_NESTED_CATEGORICAL`のコレクション。
`DM_NESTED_NUMERICAL`	`NUMBER`または`FLOAT`タイプの量的属性の名前と値。
`DM_NESTED_NUMERICALS`	`DM_NESTED_NUMERICAL`のコレクション。
`ORA_MINING_VARCHAR2_NT`	`VARCHAR2(4000)`の表。
`TRANSFORM_LIST`	モデルのユーザー定義変換のリスト。パラメータとしてCREATE_MODELプロシージャで使用されます。このコレクション・タイプは、DBMS_DATA_MINING_TRANSFORMパッケージで定義されます。

ネストしたデータの処理の詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。

ノート:

Oracle Database 12cリリース2以降、*GET_MODEL_DETAILSは非推奨になり、モデル・ディテール・ビューに置き換えられています。『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。

42.1.7.1 非推奨になったタイプ

このトピックでは、非推奨になったタイプの一覧表を示します。

DBMS_DATA_MININGパッケージでは、モデル属性に関する情報を格納するためにオブジェクト・データ・タイプが定義されます。これらのタイプの大部分は、テーブル・ファンクションGET_nによって戻され、nは戻す情報のタイプを表します。これらのファンクションは、モデル名を入力に使用し、要求された情報を行のコレクションとして戻します。

GETファンクションのリストは、「DBMS_DATA_MININGサブプログラムの要約」を参照してください。

すべてのテーブル・ファンクションでパイプライン出力が使用され、出力の各行がモデルの記憶域から読み取られながら実体化されるため、表オブジェクトが完全に生成されるまで待機する必要がありません。パイプライン・テーブル・ファンクションの詳細は、『Oracle Database PL/SQL言語リファレンス』を参照してください。

表42-39 DBMS_DATA_MININGの非推奨になったデータ・タイプの要約

データ・タイプ	説明
`DM_CENTROID`	クラスタの重心。
`DM_CENTROIDS`	`DM_CENTROID`のコレクション。`DM_CLUSTER`のメンバー。
`DM_CHILD`	クラスタの子ノード。
`DM_CHILDREN`	`DM_CHILD`のコレクション。`DM_CLUSTER`のメンバー。
`DM_CLUSTER`	クラスタ。クラスタには、`DM_PREDICATES`、`DM_CHILDREN`、`DM_CENTROIDS`および`DM_HISTOGRAMS`が含まれます。また、`DM_RULE`も含まれます。表42-41も参照してください。
`DM_CLUSTERS`	`DM_CLUSTER`のコレクション。GET_MODEL_DETAILS_KMファンクション、GET_MODEL_DETAILS_OCファンクションおよびGET_MODEL_DETAILS_EMファンクションによって戻されます。表42-41も参照してください。
`DM_CONDITIONAL`	Naive Bayesモデルの属性の条件付き確率。
`DM_CONDITIONALS`	`DM_CONDITIONAL`のコレクション。GET_MODEL_DETAILS_NBファンクションによって戻されます。
`DM_COST_ELEMENT`	コスト・マトリックスの実際の値および予測値。
`DM_COST_MATRIX`	`DM_COST_ELEMENT`のコレクション。GET_MODEL_COST_MATRIXファンクションによって戻されます。
`DM_EM_COMPONENT`	期待値最大化モデルのコンポーネント。
`DM_EM_COMPONENT_SET`	`DM_EM_COMPONENT`のコレクション。GET_MODEL_DETAILS_EM_COMPファンクションによって戻されます。
`DM_EM_PROJECTION`	期待値最大化モデルのプロジェクト。
`DM_EM_PROJECTION_SET`	`DM_EM_PROJECTION`のコレクション。GET_MODEL_DETAILS_EM_PROJファンクションによって戻されます。
`DM_GLM_COEFF`	一般化線形モデルの属性の係数および関連付けられている統計。
`DM_GLM_COEFF_SET`	`DM_GLM_COEFF`のコレクション。GET_MODEL_DETAILS_GLMファンクションによって戻されます。
`DM_HISTOGRAM_BIN`	クラスタに関連付けられたヒストグラム。
`DM_HISTOGRAMS`	`DM_HISTOGRAM_BIN`のコレクション。`DM_CLUSTER`のメンバー。表42-41も参照してください。
`DM_ITEM`	相関ルールの項目。
`DM_ITEMS`	`DM_ITEM`のコレクション。
`DM_ITEMSET`	`DM_ITEMS`のコレクション。
`DM_ITEMSETS`	`DM_ITEMSET`のコレクション。GET_FREQUENT_ITEMSETSファンクションによって戻されます。
`DM_MODEL_GLOBAL_DETAIL`	モデルに関する高水準の統計。
`DM_MODEL_GLOBAL_DETAILS`	`DM_MODEL_GLOBAL_DETAIL`のコレクション。GET_MODEL_DETAILS_GLOBALファンクションによって戻されます。
`DM_NB_DETAIL`	Naive Bayesモデルの属性に関する情報。
`DM_NB_DETAILS`	`DM_DB_DETAIL`のコレクション。GET_MODEL_DETAILS_NBファンクションによって戻されます。
`DM_NMF_ATTRIBUTE`	Non-negative Matrix Factorizationモデルの機能の属性。
`DM_NMF_ATTRIBUTE_SET`	`DM_NMF_ATTRIBUTE`のコレクション。`DM_NMF_FEATURE`のメンバー。
`DM_NMF_FEATURE`	Non-negative Matrix Factorizationモデルの機能。
`DM_NMF_FEATURE_SET`	`DM_NMF_FEATURE`のコレクション。GET_MODEL_DETAILS_NMFファンクションによって戻されます。
`DM_PREDICATE`	ルールの前件と後件。
`DM_PREDICATES`	`DM_PREDICATE`のコレクション。`DM_RULE`および`DM_CLUSTER`のメンバー。述語は、GET_ASSOCIATION_RULESファンクション、GET_MODEL_DETAILS_EMファンクション、GET_MODEL_DETAILS_KMファンクション、およびGET_MODEL_DETAILS_OCファンクションによって戻されます。表42-41も参照してください。
`DM_RANKED_ATTRIBUTE`	属性評価モデルで重要度別にランク付けされた属性。
`DM_RANKED_ATTRIBUTES`	`DM_RANKED_ATTRIBUTE`のコレクション。GET_MODEL_DETAILS_AIファンクションによって戻されます。
`DM_RULE`	条件付きの関係を定義するルール。このルールには、GET_ASSOCIATION_RULESファンクションによって戻される相関ルールのいずれか、またはGET_MODEL_DETAILS_KMファンクションおよびGET_MODEL_DETAILS_OCファンクションによって戻されるクラスタのコレクションでクラスタに関連付けられたルールを指定できます。表42-41も参照してください。
`DM_RULES`	`DM_RULE`のコレクション。GET_ASSOCIATION_RULESファンクションによって戻されます。表42-41も参照してください。
`DM_SVD_MATRIX`	特異値分解モデルによって戻されるマトリックス因数分解S、VまたはU。
`DM_SVD_MATRIX_SET`	`DM_SVD_MATRIX`のコレクション。GET_MODEL_DETAILS_SVDファンクションによって戻されます。
`DM_SVM_ATTRIBUTE`	サポート・ベクター・マシン・モデルの属性の名前、値および係数。
`DM_SVM_ATTRIBUTE_SET`	`DM_SVM_ATTRIBUTE`のコレクション。GET_MODEL_DETAILS_SVMファンクションによって戻されます。`DM_SVM_LINEAR_COEFF`のメンバーでもあります。
`DM_SVM_LINEAR_COEFF`	サポート・ベクター・マシン・モデルの各属性の線形係数。
`DM_SVM_LINEAR_COEFF_SET`	`DM_SVM_LINEAR_COEFF`のコレクション。線形カーネルを使用してSVMモデルを作成する場合は、GET_MODEL_DETAILS_SVMファンクションによって戻されます。
`DM_TRANSFORM`	属性の変換式および逆変換式。
`DM_TRANSFORMS`	`DM_TRANSFORM`のコレクション。GET_MODEL_TRANSFORMATIONSファンクションによって戻されます。

クラスタリング・アルゴリズムの戻り値

この表には、DM_CLUSTERの戻り値の列、ネストした表の列および行の説明が含まれます。

表42-40 クラスタリング・アルゴリズムのDM_CLUSTERの戻り値

戻り値説明

戻り値	説明
`DM_CLUSTERS`	`DM_CLUSTER`タイプの行の集合。この行には、次の列があります。 (id NUMBER, cluster_id VARCHAR2(4000), record_count NUMBER, parent NUMBER, tree_level NUMBER, dispersion NUMBER, split_predicate DM_PREDICATES, child DM_CHILDREN, centroid DM_CENTROIDS, histogram DM_HISTOGRAMS, rule DM_RULE)
`DM_PREDICATE`	`antecedent`列および`consequent`列は、それぞれ`DM_PREDICATES`タイプのネストした表を戻します。その行(`DM_PREDICATE`タイプ)には、次の列があります。 (attribute_name VARCHAR2(4000), attribute_subname VARCHAR2(4000), conditional_operator CHAR(2)/=,<>,<,>,<=,>=/, attribute_num_value NUMBER, attribute_str_value VARCHAR2(4000), attribute_support NUMBER, attribute_confidence NUMBER)

DM_CLUSTERS

DM_CLUSTERタイプの行の集合。この行には、次の列があります。

(id               NUMBER,
 cluster_id       VARCHAR2(4000),
 record_count     NUMBER,
 parent           NUMBER,
 tree_level       NUMBER,
 dispersion       NUMBER,
 split_predicate  DM_PREDICATES,
 child            DM_CHILDREN,
 centroid         DM_CENTROIDS,
 histogram        DM_HISTOGRAMS,
 rule             DM_RULE)

DM_PREDICATE

antecedent列およびconsequent列は、それぞれDM_PREDICATESタイプのネストした表を戻します。その行(DM_PREDICATEタイプ)には、次の列があります。

          (attribute_name           VARCHAR2(4000),
           attribute_subname        VARCHAR2(4000),
           conditional_operator     CHAR(2)/*=,<>,<,>,<=,>=*/,
           attribute_num_value      NUMBER,
           attribute_str_value      VARCHAR2(4000),
           attribute_support        NUMBER,
           attribute_confidence     NUMBER)

DM_CLUSTERのフィールド

次の表では、DM_CLUSTERのフィールドについて説明します。

表42-41 DM_CLUSTERのフィールド

列名	説明
`id`	クラスタの識別子
`cluster_id`	モデル内のクラスタのID
`record_count`	レコードの数を指定します。
`parent`	親ID
`tree_level`	ルートからの分岐の数を指定します。
`dispersion`	標準の統計モデルと比較して、一連の確認された出現が分散しているかどうかを定量化するために使用されるメジャー。
`split_predicate`	`DM_CLUSTER`の`split_predicate`列は、`DM_PREDICATES`タイプのネストした表を戻します。各行(`DM_PREDICATE`タイプ)には、次の列があります。 (attribute_name VARCHAR2(4000), attribute_subname VARCHAR2(4000), conditional_operator CHAR(2) /=,<>,<,>,<=,>=/, attribute_num_value NUMBER, attribute_str_value VARCHAR2(4000), attribute_support NUMBER, attribute_confidence NUMBER) ノート: 期待値の最大化アルゴリズムでは、`dispersion`と`split_predicate`を除くすべてのフィールドが使用されます。
`child`	`DM_CLUSTER`の`child`列は、`DM_CHILDREN`タイプのネストした表を戻します。`DM_CHILD`タイプの行には、`NUMBER`タイプの列が1つあり、その列にはそれぞれの子の識別子が含まれます。
`centroid`	`DM_CLUSTER`の`centroid`列は、`DM_CENTROIDS`タイプのネストした表を戻します。その行(`DM_CENTROID`タイプ)には、次の列があります。 (attribute_name VARCHAR2(4000), attribute_subname VARCHAR2(4000), mean NUMBER, mode_value VARCHAR2(4000), variance NUMBER)
`histogram`	`DM_CLUSTER`の`histogram`列は、`DM_HISTOGRAMS`タイプのネストした表を戻します。その行(`DM_HISTOGRAM_BIN`タイプ)には、次の列があります。 (attribute_name VARCHAR2(4000), attribute_subname VARCHAR2(4000), bin_id NUMBER, lower_bound NUMBER, upper_bound NUMBER, label VARCHAR2(4000), count NUMBER)
`rule`	`DM_CLUSTER`の`rule`列は、`DM_RULE`タイプの単一行を戻します。次の列があります。 (rule_id INTEGER, antecedent DM_PREDICATES, consequent DM_PREDICATES, rule_support NUMBER, rule_confidence NUMBER, rule_lift NUMBER, antecedent_support NUMBER, consequent_support NUMBER, number_of_items INTEGER)

使用上のノート

このテーブル・ファンクションは、DM_CLUSTERタイプの行をパイプライン出力します。Oracle Machine Learning for SQLのデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。
述語(DM_PREDICATE)とルール(DM_RULE)の説明については、「GET_ASSOCIATION_RULESファンクション」を参照してください。

42.1.8 DBMS_DATA_MININGサブプログラムの要約

この表は、DBMS_DATA_MININGパッケージに含まれるサブプログラムの概要を示しています。

GET_*インタフェースはモデル・ビューに置き換えられます。かわりにモデル・ディテール・ビューを利用することをお薦めします。詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項と、『Oracle Databaseリファレンス』の静的データ・ディクショナリ・ビュー: ALL_ALL_TABLESからALL_OUTLINESに関する項を参照してください。

表42-42 DBMS_DATA_MININGパッケージのサブプログラム

サブプログラム	用途
ADD_COST_MATRIXプロシージャ	分類モデルにコスト・マトリックスを追加します。
ADD_PARTITIONプロシージャ	既存のパーティション・モデルに1つ以上のパーティションを追加します。
ALTER_REVERSE_EXPRESSIONプロシージャ	逆変換式を指定した式に変更します。
APPLYプロシージャ	データ・セットにモデルを適用します(データのスコアリングを行います)。
COMPUTE_CONFUSION_MATRIXプロシージャ	分類モデルのコンフュージョン・マトリックスを計算します。
COMPUTE_CONFUSION_MATRIX_PARTプロシージャ	パーティション化されたモデルの評価マトリックスを計算します。
COMPUTE_LIFTプロシージャ	分類モデルのリフトを計算します。
COMPUTE_LIFT_PARTプロシージャ	パーティション化されたモデルのリフトを計算します。
COMPUTE_ROCプロシージャ	分類モデルの受信者操作特性(ROC)を計算します。
COMPUTE_ROC_PARTプロシージャ	パーティション化されたモデルの受信者操作特性(ROC)を計算します。
CREATE_MODELプロシージャ	モデルを作成します。
CREATE_MODEL2プロシージャ	永続性ステージを追加することなくモデルを作成します。
登録情報を使用したモデルの作成	JSONオブジェクトから設定情報をフェッチします
DROP_ALGORITHMプロシージャ	登録されているアルゴリズム情報を削除します。
DROP_PARTITIONプロシージャ	単一パーティションを削除します。
DROP_MODELプロシージャ	モデルを削除します。
EXPORT_MODELプロシージャ	モデルをダンプ・ファイルにエクスポートします。
EXPORT_SERMODELプロシージャ	シリアライズされた形式でモデルをエクスポートします
FETCH_JSON_SCHEMAプロシージャ	`all_mining_algorithms`ビューからJSONスキーマをフェッチして読み取ります
GET_MODEL_COST_MATRIXファンクション	モデルのコスト・マトリックスを戻します。
IMPORT_MODELプロシージャ	モデルをユーザー・スキーマにインポートします。
IMPORT_ONNX_MODELプロシージャ	ONNXモデルをデータベースにインポートします。
IMPORT_SERMODELプロシージャ	シリアライズされたモデルをデータベースにインポートします
R拡張アルゴリズムのJSONスキーマ	R拡張のJSONスキーマの作成における柔軟性を表示します
REGISTER_ALGORITHMプロシージャ	新しいアルゴリズムを登録します
RANK_APPLYプロシージャ	分類モデルに対する`APPLY`の結果に基づいて、予測結果をランク付けします。
REMOVE_COST_MATRIXプロシージャ	モデルからコスト・マトリックスを削除します。
RENAME_MODELプロシージャ	モデルの名前を変更します。

非推奨になったGET_MODEL_DETAILS

Oracle Database 12cリリース2以降、次のGET_MODEL_DETAILSは非推奨になりました。

表42-43 非推奨になったGET_MODEL_DETAILSファンクション

サブプログラム	目的
GET_ASSOCIATION_RULESファンクション	相関モデルからルールを返します
GET_FREQUENT_ITEMSETSファンクション	相関モデルの高頻度項目セットを返します
GET_MODEL_DETAILS_AIファンクション	属性重要度モデルに関する詳細を返します
GET_MODEL_DETAILS_EMファンクション	期待値の最大化モデルに関するディテールを戻します。
GET_MODEL_DETAILS_EM_COMPファンクション	期待値の最大化モデルのパラメータに関するディテールを戻します。
GET_MODEL_DETAILS_EM_PROJファンクション	期待値の最大化モデルのプロジェクトに関するディテールを戻します。
GET_MODEL_DETAILS_GLMファンクション	一般化線形モデルに関する詳細を返します
GET_MODEL_DETAILS_GLOBALファンクション	モデルに関する高水準の統計を戻します。
GET_MODEL_DETAILS_KMファンクション	k-Meansモデルに関するディテールを戻します。
GET_MODEL_DETAILS_NBファンクション	Naive Bayesモデルに関するディテールを戻します。
GET_MODEL_DETAILS_NMFファンクション	Non-Negative Matrix Factorizationモデルに関するディテールを戻します。
GET_MODEL_DETAILS_OCファンクション	O-Clusterモデルに関するディテールを戻します。
GET_MODEL_SETTINGSファンクション	指定のモデルの作成に使用された設定を戻しますこのファンクションは、`USER/ALL/DBA_MINING_MODEL_SETTINGS`に置き換えられています
GET_MODEL_SIGNATUREファンクション	作成用の入力表の列のリストを返します。このファンクションは、`USER/ALL/DBA_MINING_MODEL_ATTRIBUTES`に置き換えられています
GET_MODEL_DETAILS_SVDファンクション	特異値分解モデルに関するディテールを戻します。
GET_MODEL_DETAILS_SVMファンクション	線形カーネルを使用するサポート・ベクター・マシン・モデルに関するディテールを戻します。
GET_MODEL_TRANSFORMATIONSファンクション	モデルに埋め込まれた変換を戻します。このファンクションは、`USER/ALL/DBA_MINING_MODEL_XFORMS`に置き換えられています
GET_MODEL_DETAILS_XMLファンクション	デシジョン・ツリー・モデルに関するディテールを戻します。
GET_TRANSFORM_LISTプロシージャ	2つの異なる変換仕様形式との間を変換します。

関連トピック

42.1.8.1 ADD_COST_MATRIXプロシージャ

ADD_COST_MATRIXプロシージャは、分類モデルにコスト・マトリックス表を関連付けます。コスト・マトリックスでは、コストまたは利益を特定のモデル結果に割り当てることによって、そのモデルにバイアスをかけます。

コスト・マトリックスはモデルとともに格納され、モデルのスコアリング時に考慮されます。

また、スコアリングのためにOracle Machine Learning for SQLファンクションを起動したときに、コスト・マトリックスをインラインで指定できます。モデルのスコアリング・マトリックスを表示するには、DM$VCの接頭辞付きモデル・ビューを問い合せます。分類アルゴリズムのモデル・ディテール・ビューに関する項を参照してください。

モデルのデフォルト・スコアリング・マトリックスを取得するには、DM$VCの接頭辞付きモデル・ビューを問い合せます。モデルからデフォルト・スコアリング・マトリックスを削除するには、REMOVE_COST_MATRIXプロシージャを使用します。「REMOVE_COST_MATRIXプロシージャ」を参照してください。

参照:

コストの詳細は、『Oracle Machine Learning for SQL概要』の分類モデルのバイアスに関する項を参照してください
インラインのコスト・マトリックスの構文は、『Oracle Database SQL言語リファレンス』を参照してください。
『Oracle Machine Learning for SQLユーザーズ・ガイド』のコストの指定に関する項を参照してください

構文

DBMS_DATA_MINING.ADD_COST_MATRIX (
       model_name                IN VARCHAR2,
       cost_matrix_table_name    IN VARCHAR2,
       cost_matrix_schema_name   IN VARCHAR2 DEFAULT NULL);
       partition_name            IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-44 ADD_COST_MATRIXプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが想定されます。
`cost_matrix_table_name`	コスト・マトリックス表の名前(表42-45を参照)。
`cost_matrix_schema_name`	コスト・マトリックス表のスキーマ。スキーマが指定されない場合は、現行のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティション名

使用上のノート

モデルが自分のスキーマ内にない場合、ADD_COST_MATRIXには、ALTER ANY MINING MODELシステム権限か、その機械学習モデルに対するALTERオブジェクト権限が必要になります。

コスト・マトリックス表には、表42-45に示す列が必要です。

表42-45 コスト・マトリックス表に必要な列

列名	データ型
`ACTUAL_TARGET_VALUE`	有効なターゲット・データ型
`PREDICTED_TARGET_VALUE`	有効なターゲット・データ型
`COST`	`NUMBER`、`FLOAT`、`BINARY_DOUBLE`または`BINARY_FLOAT`

参照:

有効なターゲット・データ型については、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

実際のターゲット値と予測されるターゲット値のタイプは、モデル・ターゲットのタイプと同じである必要があります。たとえば、モデルのターゲットがBINARY_DOUBLEの場合、実際の値と予測される値はBINARY_DOUBLEである必要があります。実際の値と予測値がCHARまたはVARCHARの場合、ADD_COST_MATRIXによって、VARCHAR2として内部的に処理されます。

タイプが一致しない場合、または実際の値や予測値が有効なターゲット値ではない場合、ADD_COST_MATRIXプロシージャでエラーが発生します。

ノート:

ターゲットに逆変換が関連付けられている場合は、実際の値や予測値と、逆変換の適用後のターゲットとの整合性が保持されている必要があります。

詳細は、「DBMS_DATA_MINING_TRANSFORMの操作上のノート」の「変換リストについて」の「逆変換とモデルの透過性」を参照してください。
利益は負のコストとして表示できるため、コスト・マトリックス表のCOST列に負の数値を指定すると、特定の結果に利益を指定できます。
すべての分類アルゴリズムで、スコアリングのためにコスト・マトリックスを使用できます。デシジョン・ツリー・アルゴリズムでは、作成時にコスト・マトリックスを使用することもできます。コスト・マトリックスを使用してデシジョン・ツリー・モデルを作成する場合、モデルの設定表のCLAS_COST_TABLE_NAME設定にコスト・マトリックス表の名前を指定します。表42-7を参照してください。

デシジョン・ツリー・モデルを作成する場合に使用するコスト・マトリックスは、そのモデルに対するデフォルトのスコアリング・マトリックスになります。スコアリング用に異なるコストを指定する場合は、REMOVE_COST_MATRIXプロシージャを使用してコスト・マトリックスを削除し、ADD_COST_MATRIXプロシージャを使用して新規コスト・マトリックスを追加します。
パーティション化されたモデルのスコアリングは、パーティション固有です。スコアリング・コスト・マトリックスは、パーティション化されたモデルの個々のパーティションに対して追加することも削除することもできます。PARTITION_NAMEがNOT NULLの場合、モデルはパーティション化されたモデルである必要があります。COST_MATRIXは、パーティション化されたモデルのそのパーティションに追加されます。

PARTITION_NAMEがNULLであるが、モデルがパーティション化されたモデルである場合、COST_MATRIX表はモデルのすべてのパーティションに追加されます。

例

この例では、COSTS_NBというコスト・マトリックス表を作成し、NB_SH_CLAS_SAMPLEというNaive Bayesモデルに追加します。このモデルにはバイナリ・ターゲットがあり、1は顧客がプロモーションに応答することを表し、0は顧客が応答しないことを表します。コスト・マトリックスは、応答しない顧客の分類ミスに0.25のコストを割り当て、応答する顧客の分類ミスに0.75のコストを割り当てます。これは、応答しない顧客の分類ミスよりも、応答する顧客の分類ミスの方が3倍コストがかかることを意味します。

CREATE TABLE costs_nb (
  actual_target_value           NUMBER,
  predicted_target_value        NUMBER,
  cost                          NUMBER);
INSERT INTO costs_nb values (0, 0, 0);
INSERT INTO costs_nb values (0, 1, .25);
INSERT INTO costs_nb values (1, 0, .75);
INSERT INTO costs_nb values (1, 1, 0);
COMMIT;
 
EXEC dbms_data_mining.add_cost_matrix('nb_sh_clas_sample', 'costs_nb');
 
SELECT cust_gender, COUNT(*) AS cnt, ROUND(AVG(age)) AS avg_age
   FROM mining_data_apply_v
   WHERE PREDICTION(nb_sh_clas_sample COST MODEL
      USING cust_marital_status, education, household_size) = 1
   GROUP BY cust_gender
   ORDER BY cust_gender;
   
C        CNT    AVG_AGE
- ---------- ----------
F         72         39
M        555         44

42.1.8.2 ADD_PARTITIONプロシージャ

ADD_PARTITIONプロシージャは、既存のパーティション化されたモデルに対する1つ以上のパーティションの追加をサポートしています。

ADD_PARTITIONプロシージャは、既存のモデルから作成設定とユーザー定義の式を導出します。教師ありモデルにパーティションを追加する場合は、ターゲット列が入力データ問合せに存在する必要があります。

構文

DBMS_DATA_MINING.ADD_PARTITION (
      model_name                IN VARCHAR2,
      data_query                IN CLOB,
      add_options               IN VARCHAR2 DEFAULT ERROR);

パラメータ

表42-46 ADD_PARTITIONプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`data_query`	モデル作成にデータを提供する任意のSQL文。ユーザーには、この問合せを評価する権限が必要です。
`add_options`	入力データ・セットの行がモデル内の既存のパーティションと競合する場合に、ユーザーがADDの条件付きの動作を制御できます。次は、返される値です。 `REPLACE`: 競合するキーが検出された既存のパーティションを置き換えます。 `ERROR`: パーティションを追加することなくADD操作を終了します。 `IGNORE`: 競合するキーがある行を排除します。ノート: パフォーマンス向上のために、`REPLACE`オプションを使用せずに、`DROP_PARTITION`の後で`ADD_PARTITION`を使用することをお薦めします。

42.1.8.3 ALTER_REVERSE_EXPRESSIONプロシージャ

このプロシージャは、逆変換式を指定した式に置換します。属性に反転式が含まれない場合、このプロシージャは指定した式から反転式を作成します。

このプロシージャを使用して、クラスタリング、特徴抽出および異常検出の各モデルの出力をカスタマイズすることもできます。

構文

DBMS_DATA_MINING.ALTER_REVERSE_EXPRESSION (
         model_name             VARCHAR2,
         expression             CLOB,
         attribute_name         VARCHAR2 DEFAULT NULL,
         attribute_subname      VARCHAR2 DEFAULT NULL);

パラメータ

表42-47 ALTER_REVERSE_EXPRESSIONプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、独自のスキーマが使用されます。
`expression`	属性に関連した逆変換を置き換える式。
`attribute_name`	属性の名前。`expression`をクラスタ、機能または1クラスSVMの予測に適用する場合は、`NULL`に設定します。
`attribute_subname`	`attribute_name`がネストされた列の場合はネストされた属性の名前。それ以外の場合は`NULL`。

使用上のノート

Oracle Machine Learning for SQLでは、モデルの透過性を目的として、モデルに埋め込まれた変換に対応する逆変換が提供されます。逆変換は、モデル・ディテール・ビューで返される属性と、予測モデルのスコアリング・ターゲットに適用されます。
参照:
- 「DBMS_DATA_MINING_TRANSFORMの操作上のノート」の「変換リストについて」
- 『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください
コスト・マトリックスを持つモデルのターゲットに対する逆変換を変更する場合は、コスト・マトリックス内の実際の値および予測値と同じタイプの変換式を指定する必要があります。また、指定する逆変換の結果は、コスト・マトリックスに存在する値であることが必要です。

参照:

コスト・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』のADD_COST_MATRIXプロシージャに関する項を参照してください。
属性の逆変換が行われないようにするために、expressionにNULLを指定できます。
逆変換式には、有効なOracleデータ型を返すPL/SQLファンクションの参照を含めることができます。たとえば、'Low'、'Medium'、および'High'の値を持つblood_pressureという名前の質的属性に対して、次のようなファンクションを定義できます。
```
CREATE OR REPLACE FUNCTION numx(c char) RETURN NUMBER IS
  BEGIN
    CASE c WHEN ''Low'' THEN RETURN 1;
           WHEN ''Medium'' THEN RETURN 2;
           WHEN ''High'' THEN RETURN 3;
           ELSE RETURN null;
    END CASE;
  END numx;
```
その後、次のようにblood_pressureに対してALTER_REVERSE_EXPRESIONを呼び出すことができます。
```
EXEC dbms_data_mining.alter_reverse_expression(
             '<model_name>', 'NUMX(blood_pressure)', 'blood_pressure');
```
ALTER_REVERSE_EXPRESSIONを使用して、クラスタリング・モデルによって生成されたクラスタと、特徴抽出によって生成された特徴にラベルを付けることができます。

また、ALTER_REVERSE_EXPRESSIONを使用すると、異常検出モデルによって戻された0(ゼロ)および1を置き換えることができます。デフォルトでは、異常検出モデルによって、異常レコードには0のラベルが付けられ、他のすべてのレコードには1のラベルが付けられます。

参照:

異常検出の詳細は、『Oracle Machine Learning for SQL概要』を参照してください

例

この例では、モデルCLASS_MODELのターゲット(affinity_card)が、内部的に1または0のかわりにyesまたはnoで操作されます(ただし、スコアリング時には1および0が戻されます)。ALTER_REVERSE_EXPRESSIONプロシージャによって、ターゲット値がTRUEまたはFALSEとして戻されます。

DECLARE
        v_xlst dbms_data_mining_transform.TRANSFORM_LIST;
  BEGIN
    dbms_data_mining_transform.SET_TRANSFORM(v_xlst,
          'affinity_card', NULL,
          'decode(affinity_card, 1, ''yes'', ''no'')',
          'decode(affinity_card, ''yes'', 1, 0)');
    dbms_data_mining.CREATE_MODEL(
      model_name             => 'CLASS_MODEL',
      mining_function        => dbms_data_mining.classification,
      data_table_name        => 'mining_data_build',
      case_id_column_name    => 'cust_id',
      target_column_name     => 'affinity_card',
      settings_table_name    => NULL,
      data_schema_name       => 'oml_user',
      settings_schema_name   => NULL,
      xform_list             => v_xlst );
  END;
/
SELECT cust_income_level, occupation,
           PREDICTION(CLASS_MODEL USING *) predict_response
      FROM mining_data_test WHERE age = 60 AND cust_gender IN 'M'
      ORDER BY cust_income_level;
 
CUST_INCOME_LEVEL              OCCUPATION                PREDICT_RESPONSE
------------------------------ --------------------- --------------------
A: Below 30,000                Transp.                                  1
E: 90,000 - 109,999            Transp.                                  1
E: 90,000 - 109,999            Sales                                    1
G: 130,000 - 149,999           Handler                                  0
G: 130,000 - 149,999           Crafts                                   0
H: 150,000 - 169,999           Prof.                                    1
J: 190,000 - 249,999           Prof.                                    1
J: 190,000 - 249,999           Sales                                    1
 
BEGIN
  dbms_data_mining.ALTER_REVERSE_EXPRESSION (
     model_name      => 'CLASS_MODEL',
     expression      => 'decode(affinity_card, ''yes'', ''TRUE'', ''FALSE'')',
     attribute_name  => 'affinity_card');
END;
/
column predict_response on
column predict_response format a20
SELECT cust_income_level, occupation,
             PREDICTION(CLASS_MODEL USING *) predict_response
      FROM mining_data_test WHERE age = 60 AND cust_gender IN 'M'
      ORDER BY cust_income_level;
 
CUST_INCOME_LEVEL              OCCUPATION            PREDICT_RESPONSE
------------------------------ --------------------- --------------------
A: Below 30,000                Transp.               TRUE
E: 90,000 - 109,999            Transp.               TRUE
E: 90,000 - 109,999            Sales                 TRUE
G: 130,000 - 149,999           Handler               FALSE
G: 130,000 - 149,999           Crafts                FALSE
H: 150,000 - 169,999           Prof.                 TRUE
J: 190,000 - 249,999           Prof.                 TRUE
J: 190,000 - 249,999           Sales                 TRUE

この例では、sh_clusモデルから生成されたクラスタにラベルを指定します。このラベルは、「クラスタ」という単語およびクラスタの内部数値識別子で構成されます。

BEGIN
  dbms_data_mining.ALTER_REVERSE_EXPRESSION( 'sh_clus', '''Cluster ''||value');
END;
/
 
SELECT cust_id, cluster_id(sh_clus using *) cluster_id
   FROM sh_aprep_num
       WHERE cust_id < 100011
       ORDER by cust_id;
 
CUST_ID CLUSTER_ID
------- ------------------------------------------------
 100001 Cluster 18
 100002 Cluster 14
 100003 Cluster 14
 100004 Cluster 18
 100005 Cluster 19
 100006 Cluster 7
 100007 Cluster 18
 100008 Cluster 14
 100009 Cluster 8
 100010 Cluster 8

42.1.8.4 APPLYプロシージャ

APPLYプロシージャは、対象のデータに機械学習モデルを適用して、その結果を表に生成します。APPLYプロシージャは、スコアリングとも呼ばれます。

予測の機械学習ファンクションの場合、APPLYプロシージャは予測結果をターゲット列に生成します。クラスタリングなどの記述機械学習ファンクションの場合、APPLYプロセスは、確率によって各ケースをクラスタに割り当てます。

Oracle Machine Learning for SQLでは、APPLYプロシージャは、相関のモデルおよび属性重要度のモデルには適用できません。

ノート:

OML4SQLのファンクションを使用すると、SQLで直接スコアリングを実行することもできます。参照

『Oracle Database SQL言語リファレンス』のOracle Machine Learning for SQLのファンクションに関する項を参照してください
『Oracle Machine Learning for SQLユーザーズ・ガイド』のスコアリングと配置に関する項を参照してください

構文

DBMS_DATA_MINING.APPLY (
      model_name           IN VARCHAR2,
      data_table_name      IN VARCHAR2,
      case_id_column_name  IN VARCHAR2,
      result_table_name    IN VARCHAR2,
      data_schema_name     IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-48 APPLYプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`data_table_name`	スコアリング対象のデータが保存された表またはビューの名前。
`case_id_column_name`	ケースID列の名前。
`result_table_name`	適用結果が保存される表の名前。
`data_schema_name`	スコアリング対象のデータが保存されたスキーマの名前。

使用上のノート

APPLYに指定したデータでは、モデルの作成およびテストに使用されるデータと同じ事前処理が実行される必要があります。自動データ準備を使用する場合、アルゴリズムで必要な事前処理は、作成時と適用時の両方で、ユーザーのかわりにモデルによって処理されます。(「自動データ準備」を参照)
APPLYでは、ユーザーのスキーマに表を作成して結果を保存します。列はアルゴリズム固有です。

結果表の列については、表42-49から表42-53で説明します。結果表のケースID列名は、ユーザーが指定したケースID列名と同じ値になります。入力のケースID列のタイプは、APPLYの出力でも維持されます。

ノート:

ケースID列が、APPLYで作成されるいずれの列の名前とも同じにならないことを確認してください。たとえば、分類モデルを適用する場合は、スコアリング・データ内のケースIDをPREDICTIONにもPROBABILITYにもしないでください(表42-49を参照)。
出力列PREDICTION、CLUSTER_IDおよびFEATURE_IDのデータ型は、ユーザーがモデルに埋め込んだ反転式による影響を受けます。ユーザーがスコアリング値のタイプを変更する反転式を指定しない場合は、そのタイプは次の表の説明に従います。詳細は、「ALTER_REVERSE_EXPRESSIONプロシージャ」を参照してください。
モデルがパーティション化されている場合、入力データ表からのデータに応じて、異なるパーティションからの結果がresult_table_nameに含まれる場合があります。PARTITION_NAMEという追加の列が結果表に追加され、各行に関連するパーティション名が示されます。

パーティション化されていないモデルでは、動作は変更されません。

分類

分類の結果表には、表42-49に示す列があります。モデルが質的ターゲットの場合、PREDICTION列のデータ・タイプはVARCHAR2になります。ターゲットがバイナリ・タイプの場合、PREDICTION列もターゲットのバイナリ・タイプになります。

表42-49 分類に対するAPPLYの適用結果表

列名	データ型
`ケースID列の名前`	ケースIDのタイプ
`PREDICTION`	ターゲットのタイプ
`PROBABILITY`	`BINARY_DOUBLE`

異常検出

異常検出の結果表には、表42-50に示す列があります。

表42-50 異常検出に対するAPPLYの適用結果表

列名	データ型
`ケースID列の名前`	ケースIDのタイプ
`PREDICTION`	`NUMBER`
`PROBABILITY`	`BINARY_DOUBLE`

回帰

回帰の結果表には、「APPLYプロシージャ」に示す列があります。

表42-51 回帰に対するAPPLYの適用結果表

列名	データ型
`ケースID列の名前`	ケースIDのタイプ
`PREDICTION`	ターゲットのタイプ

クラスタリング

クラスタリングは教師なしの機械学習ファンクションであるため、ターゲットは存在しません。APPLYプロシージャの結果には、ケースに対応するクラスタ識別子と、それに関連付けられた確率のみが含まれます。結果表には、表42-52に示す列があります。

表42-52 クラスタリングに対するAPPLYの適用結果表

列名	データ型
`ケースID列の名前`	ケースIDのタイプ
`CLUSTER_ID`	`NUMBER`
`PROBABILITY`	`BINARY_DOUBLE`

特徴抽出

特徴抽出も教師なしの機械学習ファンクションであるため、ターゲットは存在しません。APPLYプロシージャの結果は、単にケースに対応する特徴識別子と、ケースの一致率のみになります。結果表には、表42-53に示す列があります。

表42-53 特徴抽出に対するAPPLYの適用結果表

列名	データ型
`ケースID列の名前`	ケースIDのタイプ
`FEATURE_ID`	`NUMBER`
`MATCH_QUALITY`	`BINARY_DOUBLE`

例

この例では、GLM回帰モデルGLMR_SH_REGR_SAMPLEをMINING_DATA_APPLY_Vビューのデータに適用します。APPLYの適用結果は、REGRESSION_APPLY_RESULT表の出力です。

SQL> BEGIN
       DBMS_DATA_MINING.APPLY (
       model_name     => 'glmr_sh_regr_sample',
       data_table_name     => 'mining_data_apply_v',
       case_id_column_name => 'cust_id',
       result_table_name   => 'regression_apply_result');
    END;
    /
 
SQL> SELECT * FROM regression_apply_result WHERE cust_id >  101485;
 
   CUST_ID PREDICTION
---------- ----------
    101486 22.8048824
    101487 25.0261101
    101488 48.6146619
    101489   51.82595
    101490 22.6220714
    101491 61.3856816
    101492 24.1400748
    101493  58.034631
    101494 45.7253149
    101495 26.9763318
    101496 48.1433425
    101497 32.0573434
    101498 49.8965531
    101499  56.270656
    101500 21.1153047

42.1.8.5 COMPUTE_CONFUSION_MATRIXプロシージャ

このプロシージャは、コンフュージョン・マトリックスを計算してユーザーのスキーマにある表に格納し、モデルの精度を戻します。

コンフュージョン・マトリックスは、分類モデルに対するテスト指標値です。一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。コンフュージョン・マトリックスには、各クラスが正しく予測された回数と、各クラスが他のクラスのいずれかになると予測された回数がリストされます。

COMPUTE_CONFUSION_MATRIXは、次の3つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 確率とコストのいずれかが格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列
(オプション)事前定義された列を持つコスト・マトリックス表。列の要件については、「使用上のノート」を参照してください。

参照:

コンフュージョン・マトリックスなどの分類に対応するテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

「COMPUTE_LIFTプロシージャ」

「COMPUTE_ROCプロシージャ」

構文

DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX (
      accuracy                     OUT NUMBER,
      apply_result_table_name      IN  VARCHAR2,
      target_table_name            IN  VARCHAR2,
      case_id_column_name          IN  VARCHAR2,
      target_column_name           IN  VARCHAR2,
      confusion_matrix_table_name  IN  VARCHAR2,
      score_column_name            IN  VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name  IN  VARCHAR2 DEFAULT 'PROBABILITY',
      cost_matrix_table_name       IN  VARCHAR2 DEFAULT NULL,
      apply_result_schema_name     IN  VARCHAR2 DEFAULT NULL,
      target_schema_name           IN  VARCHAR2 DEFAULT NULL,
      cost_matrix_schema_name      IN  VARCHAR2 DEFAULT NULL,
      score_criterion_type         IN  VARCHAR2 DEFAULT 'PROBABILITY');

パラメータ

表42-54 COMPUTE_CONFUSION_MATRIXプロシージャのパラメータ

パラメータ	説明
`accuracy`	予測の全体的な精度(パーセント)が含まれる出力パラメータ。
`apply_result_table_name`	予測結果が含まれる表。
`target_table_name`	テスト・データの既知のターゲット値が含まれる表。
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。
`confusion_matrix_table_name`	コンフュージョン・マトリックスが含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。コンフュージョン・マトリックス表の列については、「使用上のノート」を参照してください。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は`PREDICTION`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率またはコストが格納されます。デフォルトでは、スコアリングは確率に基づくため、各ケースに対して最も確率の高いクラスが予測されます。スコアリングがコストに基づく場合は、最もコストの低いクラスが予測されます。 `score_criterion_type`パラメータは、スコアリングに確率またはコストのいずれを使用するのかを示します。デフォルトの列名は'`PROBABILITY`'です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。詳細は、「使用上のノート」を参照してください。
`cost_matrix_table_name`	(オプション)分類ミスに関連付けられたコストを定義する表。コスト・マトリックス表があり、`score_criterion_type`パラメータが`'COSTS'`に設定されている場合は、スコアリング基準としてこの表のコストが使用されます。コスト・マトリックス表の列については、「使用上のノート」を参照してください。
`apply_result_schema_name`	適用結果表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`cost_matrix_schema_name`	コスト・マトリックス表のスキーマ(指定されている場合)。 NULLの場合、ユーザーのスキーマと想定されます。
`score_criterion_type`	スコアリング基準として確率またはコストのいずれを使用するか。確率またはコストは、`score_criterion_column_name`パラメータで識別される列に渡されます。 `score_criterion_type`のデフォルト値は`'PROBABILITY'`です。スコアリング基準としてコストを使用するには、`'COST'`と指定します。 `score_criterion_type`が'`COST`'に設定されているにもかかわらずコスト・マトリックスがない場合に、モデルにスコアリング・コスト・マトリックスが関連付けられていると、この関連付けられているコストがスコアリングに使用されます。「使用上のノート」および「例」を参照してください。

使用上のノート

COMPUTE_CONFUSION_MATRIXに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、コンフュージョン・マトリックスを計算できます。
COMPUTE_CONFUSION_MATRIXにコスト・マトリックスを渡すかわりに、モデルに関連付けられているスコアリング・コスト・マトリックスを使用できます。スコアリング・コスト・マトリックスは、モデルに埋め込むか、またはモデルの適用時に動的に定義できます。スコアリング・コスト・マトリックスを使用するには、SQLファンクションPREDICTION_COSTを起動して、スコア基準列を移入します。

COMPUTE_CONFUSION_MATRIXに渡す予測情報は、apply_result_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

コスト・マトリックスには、表42-55に示す列が必要です。

表42-55 コスト・マトリックスの列

列名	データ型
`actual_target_value`	作成データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じであることが必要です。
`cost`	`BINARY_DOUBLE`

参照:

有効なターゲット・データ型については、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

コスト・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_CONFUSION_MATRIXで作成されるコンフュージョン・マトリックスには、表42-56に示す列があります。

表42-56 コンフュージョン・マトリックスの列

列名	データ型
`actual_target_value`	作成データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じです。
`value`	`BINARY_DOUBLE`

参照:

コンフュージョン・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

例

ここに示す例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

確率に基づくコンフュージョン・マトリックスの計算

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
       SELECT cust_id,
              PREDICTION(nb_sh_clas_sample USING *) prediction,
              PREDICTION_PROBABILITY(nb_sh_clas_sample USING *) probability
       FROM mining_data_test_v;

スコアリング基準として確率を使用する場合は、次のようにコンフュージョン・マトリックスを計算できます。

DECLARE
   v_accuracy    NUMBER;
      BEGIN
        DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX (
                   accuracy                     => v_accuracy,
                   apply_result_table_name      => 'nb_apply_results',
                   target_table_name            => 'mining_data_test_v',
                   case_id_column_name          => 'cust_id',
                   target_column_name           => 'affinity_card',
                   confusion_matrix_table_name  => 'nb_confusion_matrix',
                   score_column_name            => 'PREDICTION',
                   score_criterion_column_name  => 'PROBABILITY'
                   cost_matrix_table_name       =>  null,
                   apply_result_schema_name     =>  null,
                   target_schema_name           =>  null,
                   cost_matrix_schema_name      =>  null,
                   score_criterion_type         => 'PROBABILITY');
        DBMS_OUTPUT.PUT_LINE('**** MODEL ACCURACY ****: ' || ROUND(v_accuracy,4));
      END;
      /

コンフュージョン・マトリックスとモデルの精度は、次のとおりです。

 **** MODEL ACCURACY ****: .7847

SQL>SELECT * from nb_confusion_matrix;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         60
                  0                      0        891
                  1                      1        286
                  0                      1        263

コスト・マトリックス表に基づくコンフュージョン・マトリックスの計算

前述の例のコンフュージョン・マトリックスは、高い偽陽性率を示しています。263のケースで、実際の値が0(ゼロ)であるにもかかわらず、モデルでは1と予測されました。コスト・マトリックスを使用すると、このようなエラーを最小限に抑えることができます。

コスト・マトリックス表nb_cost_matrixから、偽陽性は偽陰性の3倍以上のコストがかかることがわかります。

SQL> SELECT * from nb_cost_matrix;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE       COST
------------------- ---------------------- ----------
                  0                      0          0
                  0                      1        .75
                  1                      0        .25
                  1                      1          0

次の文は、APPLYを使用して予測を生成する方法を示しています。

BEGIN
    DBMS_DATA_MINING.APPLY(
          model_name          => 'nb_sh_clas_sample',
          data_table_name     => 'mining_data_test_v',
          case_id_column_name => 'cust_id',
          result_table_name   => 'nb_apply_results');
 END;
/

この文では、コスト・マトリックス表を使用してコンフュージョン・マトリックスが計算されます。スコア基準列の名前は'PROBABILITY'で、この列名は、APPLYで生成される名前です。

DECLARE
  v_accuracy    NUMBER;
     BEGIN
       DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX (
                accuracy                     => v_accuracy,
                apply_result_table_name      => 'nb_apply_results',
                target_table_name            => 'mining_data_test_v',
                case_id_column_name          => 'cust_id',
                target_column_name           => 'affinity_card',
                confusion_matrix_table_name  => 'nb_confusion_matrix',
                score_column_name            => 'PREDICTION',
                score_criterion_column_name  => 'PROBABILITY',
                cost_matrix_table_name       => 'nb_cost_matrix',
                apply_result_schema_name     => null,
                target_schema_name           => null,
                cost_matrix_schema_name      => null,
                score_criterion_type         => 'COST');
       DBMS_OUTPUT.PUT_LINE('**** MODEL ACCURACY ****: ' || ROUND(v_accuracy,4));
    END;
    /

生成されるコンフュージョン・マトリックスは、(263から212に)偽陽性が低下したことを示しています。

**** MODEL ACCURACY ****: .798

SQL> SELECT * FROM nb_confusion_matrix;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         91
                  0                      0        942
                  1                      1        255
                  0                      1        212

埋め込まれたコストに基づくコンフュージョン・マトリックスの計算

ADD_COST_MATRIXプロシージャを使用すると、モデルにコスト・マトリックスを埋め込むことができます。埋め込まれたコストは、確率のかわりにスコアリングに使用できます。次の文は、以前に定義済のコスト・マトリックスをモデルに追加します。

BEGIN    DBMS_DATA_MINING.ADD_COST_MATRIX ('nb_sh_clas_sample', 'nb_cost_matrix');END;/

次の文は、埋め込まれたコストを使用してテスト・データにモデルを適用し、結果を表に格納します。

CREATE TABLE nb_apply_results AS
         SELECT cust_id,
              PREDICTION(nb_sh_clas_sample COST MODEL USING *) prediction,
              PREDICTION_COST(nb_sh_clas_sample COST MODEL USING *) cost
          FROM mining_data_test_v;

埋め込まれたコストを使用してコンフュージョン・マトリックスを計算できます。

DECLARE
   v_accuracy         NUMBER;
   BEGIN
       DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX (
            accuracy                     => v_accuracy,
            apply_result_table_name      => 'nb_apply_results',
            target_table_name            => 'mining_data_test_v',
            case_id_column_name          => 'cust_id',
            target_column_name           => 'affinity_card',
            confusion_matrix_table_name  => 'nb_confusion_matrix',
            score_column_name            => 'PREDICTION',
            score_criterion_column_name  => 'COST',
            cost_matrix_table_name       => null,
            apply_result_schema_name     => null,
            target_schema_name           => null,
            cost_matrix_schema_name      => null,
            score_criterion_type         => 'COST');
   END;
   /

結果は次のとおりです。

**** MODEL ACCURACY ****: .798

SQL> SELECT * FROM nb_confusion_matrix;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         91
                  0                      0        942
                  1                      1        255
                  0                      1        212

42.1.8.6 COMPUTE_CONFUSION_MATRIX_PARTプロシージャ

COMPUTE_CONFUSION_MATRIX_PARTプロシージャは、コンフュージョン・マトリックスを計算してユーザーのスキーマにある表に格納し、モデルの精度を戻します。

COMPUTE_CONFUSION_MATRIX_PARTは、パーティション化されたモデルのパーティションごとの評価メトリックの計算をサポートします。パーティション化されていないモデルについては、「COMPUTE_CONFUSION_MATRIXプロシージャ」を参照してください。

コンフュージョン・マトリックスは、分類のモデルに対応するテスト・メトリックです。一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。コンフュージョン・マトリックスには、各クラスが正しく予測された回数と、各クラスが他のクラスのいずれかになると予測された回数がリストされます。

COMPUTE_CONFUSION_MATRIX_PARTは、次の3つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 確率とコストのいずれかが格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列
(オプション)事前定義された列を持つコスト・マトリックス表。列の要件については、「使用上のノート」を参照してください。

参照:

コンフュージョン・マトリックスなどの分類に対応するテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_LIFT_PARTプロシージャ

COMPUTE_ROC_PARTプロシージャ

構文

DBMS_DATA_MINING.compute_confusion_matrix_part(
      accuracy                    OUT DM_NESTED_NUMERICALS,
      apply_result_table_name     IN  VARCHAR2,
      target_table_name           IN  VARCHAR2,
      case_id_column_name         IN  VARCHAR2,
      target_column_name          IN  VARCHAR2,
      confusion_matrix_table_name IN  VARCHAR2,
      score_column_name           IN  VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name IN  VARCHAR2 DEFAULT 'PROBABILITY',
      score_partition_column_name IN  VARCHAR2 DEFAULT 'PARTITION_NAME',
      cost_matrix_table_name      IN  VARCHAR2 DEFAULT NULL,
      apply_result_schema_name    IN  VARCHAR2 DEFAULT NULL,
      target_schema_name          IN  VARCHAR2 DEFAULT NULL,
      cost_matrix_schema_name     IN  VARCHAR2 DEFAULT NULL,
      score_criterion_type        IN  VARCHAR2 DEFAULT NULL);

パラメータ

表42-57 COMPUTE_CONFUSION_MATRIX_PARTプロシージャのパラメータ

パラメータ	説明
`accuracy`	予測の全体的な精度(パーセント)が含まれる出力パラメータ出力引数は、`NUMBER`から`DM_NESTED_NUMERICALS`に変更されます。
`apply_result_table_name`	予測結果が含まれる表
`target_table_name`	テスト・データの既知のターゲット値が含まれる表
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。
`confusion_matrix_table_name`	コンフュージョン・マトリックスが含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。コンフュージョン・マトリックス表の列については、「使用上のノート」を参照してください。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は`PREDICTION`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率またはコストが格納されます。デフォルトでは、スコアリングは確率に基づくため、各ケースに対して最も確率の高いクラスが予測されます。スコアリングがコストに基づく場合は、最もコストの低いクラスが予測されます。 `score_criterion_type`パラメータは、スコアリングに確率またはコストのいずれを使用するのかを示します。デフォルトの列名は`PROBABILITY`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。詳細は、「使用上のノート」を参照してください。
`score_partition_column_name`	(オプション)パーティションの名前を含む列を示すパラメータ。この列により、各パーティションで独立した評価マトリックスが計算されるように、入力テスト結果がスライスされます。
`cost_matrix_table_name`	(オプション)分類ミスに関連付けられたコストを定義する表。コスト・マトリックス表があり、`score_criterion_type`パラメータが`COSTS`に設定されている場合は、スコアリング基準としてこの表のコストが使用されます。コスト・マトリックス表の列については、「使用上のノート」を参照してください。
`apply_result_schema_name`	適用結果表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`cost_matrix_schema_name`	コスト・マトリックス表のスキーマ(指定されている場合)。 NULLの場合、ユーザーのスキーマと想定されます。
`score_criterion_type`	スコアリング基準として確率またはコストのいずれを使用するか。確率またはコストは、`score_criterion_column_name`パラメータで識別される列に渡されます。 `score_criterion_type`のデフォルト値は`PROBABILITY`です。スコアリング基準としてコストを使用するには、`COST`と指定します。 `score_criterion_type`が`COST`に設定されているにもかかわらずコスト・マトリックスがない場合に、モデルにスコアリング・コスト・マトリックスが関連付けられていると、この関連付けられているコストがスコアリングに使用されます。「使用上のノート」および「例」を参照してください。

使用上のノート

COMPUTE_CONFUSION_MATRIX_PARTに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、コンフュージョン・マトリックスを計算できます。
COMPUTE_CONFUSION_MATRIX_PARTにコスト・マトリックスを渡すかわりに、モデルに関連付けられているスコアリング・コスト・マトリックスを使用できます。スコアリング・コスト・マトリックスは、モデルに埋め込むか、またはモデルの適用時に動的に定義できます。スコアリング・コスト・マトリックスを使用するには、SQLファンクションPREDICTION_COSTを起動して、スコア基準列を移入します。

COMPUTE_CONFUSION_MATRIX_PARTに渡す予測情報は、apply_result_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

コスト・マトリックスには、表42-55に示す列が必要です。

表42-58 コスト・マトリックスの列

列名	データ型
`actual_target_value`	テスト・データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じであることが必要です。
`cost`	`BINARY_DOUBLE`

参照:

有効なターゲット・データ型については、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

コスト・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_CONFUSION_MATRIX_PARTで作成されるコンフュージョン・マトリックスには、表42-56に示す列があります。

表42-59 コンフュージョン・マトリックス(パーティション)の列

列名	データ型
`actual_target_value`	テスト・データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じです。
`value`	`BINARY_DOUBLE`

参照:

コンフュージョン・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

例

ここに示す例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

確率に基づくコンフュージョン・マトリックスの計算

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
       SELECT cust_id,
              PREDICTION(nb_sh_clas_sample USING *) prediction,
              PREDICTION_PROBABILITY(nb_sh_clas_sample USING *) probability
       FROM mining_data_test_v;

スコアリング基準として確率を使用する場合は、次のようにコンフュージョン・マトリックスを計算できます。

DECLARE
   v_accuracy    NUMBER;
      BEGIN
        DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX_PART (
                   accuracy                     => v_accuracy,
                   apply_result_table_name      => 'nb_apply_results',
                   target_table_name            => 'mining_data_test_v',
                   case_id_column_name          => 'cust_id',
                   target_column_name           => 'affinity_card',
                   confusion_matrix_table_name  => 'nb_confusion_matrix',
                   score_column_name            => 'PREDICTION',
                   score_criterion_column_name  => 'PROBABILITY'
                   score_partition_column_name  => 'PARTITION_NAME'
                   cost_matrix_table_name       =>  null,
                   apply_result_schema_name     =>  null,
                   target_schema_name           =>  null,
                   cost_matrix_schema_name      =>  null,
                   score_criterion_type         => 'PROBABILITY');
        DBMS_OUTPUT.PUT_LINE('**** MODEL ACCURACY ****: ' || ROUND(v_accuracy,4));
      END;
      /

コンフュージョン・マトリックスとモデルの精度は、次のとおりです。

 **** MODEL ACCURACY ****: .7847

SELECT * FROM NB_CONFUSION_MATRIX;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         60
                  0                      0        891
                  1                      1        286
                  0                      1        263

コスト・マトリックス表に基づくコンフュージョン・マトリックスの計算

コスト・マトリックス表nb_cost_matrixから、偽陽性は偽陰性の3倍以上のコストがかかることがわかります。

 SELECT * from NB_COST_MATRIX;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE       COST
------------------- ---------------------- ----------
                  0                      0          0
                  0                      1        .75
                  1                      0        .25
                  1                      1          0

次の文は、APPLYを使用して予測を生成する方法を示しています。

BEGIN
    DBMS_DATA_MINING.APPLY(
          model_name          => 'nb_sh_clas_sample',
          data_table_name     => 'mining_data_test_v',
          case_id_column_name => 'cust_id',
          result_table_name   => 'nb_apply_results');
 END;
/

DECLARE
  v_accuracy    NUMBER;
     BEGIN
       DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX_PART (
                accuracy                     => v_accuracy,
                apply_result_table_name      => 'nb_apply_results',
                target_table_name            => 'mining_data_test_v',
                case_id_column_name          => 'cust_id',
                target_column_name           => 'affinity_card',
                confusion_matrix_table_name  => 'nb_confusion_matrix',
                score_column_name            => 'PREDICTION',
                score_criterion_column_name  => 'PROBABILITY',
                score_partition_column_name  => 'PARTITION_NAME'
                cost_matrix_table_name       => 'nb_cost_matrix',
                apply_result_schema_name     => null,
                target_schema_name           => null,
                cost_matrix_schema_name      => null,
                score_criterion_type         => 'COST');
       DBMS_OUTPUT.PUT_LINE('**** MODEL ACCURACY ****: ' || ROUND(v_accuracy,4));
    END;
    /

生成されるコンフュージョン・マトリックスは、(263から212に)偽陽性が低下したことを示しています。

**** MODEL ACCURACY ****: .798

 SELECT * FROM NB_CONFUSION_MATRIX;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         91
                  0                      0        942
                  1                      1        255
                  0                      1        212

埋め込まれたコストに基づくコンフュージョン・マトリックスの計算

BEGIN    
DBMS_DATA_MINING.ADD_COST_MATRIX ('nb_sh_clas_sample', 'nb_cost_matrix');
END;/

次の文は、埋め込まれたコストを使用してテスト・データにモデルを適用し、結果を表に格納します。

CREATE TABLE nb_apply_results AS
         SELECT cust_id,
              PREDICTION(nb_sh_clas_sample COST MODEL USING *) prediction,
              PREDICTION_COST(nb_sh_clas_sample COST MODEL USING *) cost
          FROM mining_data_test_v;

埋め込まれたコストを使用してコンフュージョン・マトリックスを計算できます。

DECLARE
   v_accuracy         NUMBER;
   BEGIN
       DBMS_DATA_MINING.COMPUTE_CONFUSION_MATRIX_PART (
            accuracy                     => v_accuracy,
            apply_result_table_name      => 'nb_apply_results',
            target_table_name            => 'mining_data_test_v',
            case_id_column_name          => 'cust_id',
            target_column_name           => 'affinity_card',
            confusion_matrix_table_name  => 'nb_confusion_matrix',
            score_column_name            => 'PREDICTION',
            score_criterion_column_name  => 'COST',
            score_partition_column_name  => 'PARTITION_NAME'  
            cost_matrix_table_name       => null,          
            apply_result_schema_name     => null,
            target_schema_name           => null,
            cost_matrix_schema_name      => null,
            score_criterion_type         => 'COST');
   END;
   /

結果は次のとおりです。

**** MODEL ACCURACY ****: .798

 SELECT * FROM NB_CONFUSION_MATRIX;
ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE      VALUE
------------------- ---------------------- ----------
                  1                      0         91
                  0                      0        942
                  1                      1        255
                  0                      1        212

42.1.8.7 COMPUTE_LIFTプロシージャ

このプロシージャは、リフトを計算し、ユーザーのスキーマにある表に結果を格納します。

リフトは、バイナリ分類モデルに対するテスト指標値です。リフトを計算するには、ターゲット値のいずれかをポジティブ・クラスに指定する必要があります。COMPUTE_LIFTでは、一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。リフトでは、モデルによるポジティブ・クラスの予測結果が、ランダムに選択した場合と比較してどの程度向上しているかが測定されます。

リフトは、確率(またはコスト)によってランク付けされてクオンタイルに分割されたスコアリング結果に対して計算されます。各クオンタイルには、同じ数のケースのスコアが含まれます。

COMPUTE_LIFTでは、クオンタイルに基づく累積統計情報が計算されます。クオンタイルの数およびポジティブ・クラスはユーザーが指定します。また、COMPUTE_LIFTは、次の3つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 予測に関連付けられた確率とコストのいずれかが格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列
(オプション)事前定義された列を持つコスト・マトリックス表。列の要件については、「使用上のノート」を参照してください。

参照:

分類に対応するリフトとテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_CONFUSION_MATRIXプロシージャ

「COMPUTE_ROCプロシージャ」

構文

DBMS_DATA_MINING.COMPUTE_LIFT (
      apply_result_table_name      IN VARCHAR2,
      target_table_name            IN VARCHAR2,
      case_id_column_name          IN VARCHAR2,
      target_column_name           IN VARCHAR2,
      lift_table_name              IN VARCHAR2,
      positive_target_value        IN VARCHAR2,
      score_column_name            IN VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name  IN VARCHAR2 DEFAULT 'PROBABILITY',
      num_quantiles                IN NUMBER DEFAULT 10,
      cost_matrix_table_name       IN VARCHAR2 DEFAULT NULL,
      apply_result_schema_name     IN VARCHAR2 DEFAULT NULL,
      target_schema_name           IN VARCHAR2 DEFAULT NULL,
      cost_matrix_schema_name      IN VARCHAR2 DEFAULT NULL
      score_criterion_type         IN VARCHAR2 DEFAULT 'PROBABILITY');

パラメータ

表42-60 COMPUTE_LIFTプロシージャのパラメータ

パラメータ	説明
`apply_result_table_name`	予測結果が含まれる表。
`target_table_name`	テスト・データの既知のターゲット値が含まれる表。
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。
`lift_table_name`	リフト統計情報が含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。リフト表の列については、「使用上のノート」を参照してください。
`positive_target_value`	ポジティブ・クラス。リフトの計算対象となるクラスです。ターゲット列が`NUMBER`である場合は、`TO_CHAR()`演算子を使用して数値を文字列に変換します。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は'`PREDICTION`'です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率またはコストが格納されます。デフォルトでは、スコアリングは確率に基づくため、各ケースに対して最も確率の高いクラスが予測されます。スコアリングがコストに基づく場合は、最もコストの低いクラスが予測されます。 `score_criterion_type`パラメータは、スコアリングに確率またはコストのいずれを使用するのかを示します。デフォルトの列名は'`PROBABILITY`'です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。詳細は、「使用上のノート」を参照してください。
`num_quantiles`	リフト計算に使用するクオンタイル数。デフォルトは10です。
`cost_matrix_table_name`	(オプション)分類ミスに関連付けられたコストを定義する表。コスト・マトリックス表があり、`score_criterion_type`パラメータが'`COST`'に設定されている場合、スコアリング基準としてこの表のコストが使用されます。コスト・マトリックス表の列については、「使用上のノート」を参照してください。
`apply_result_schema_name`	適用結果表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`cost_matrix_schema_name`	コスト・マトリックス表のスキーマ(指定されている場合)。 NULLの場合、ユーザーのスキーマと想定されます。
`score_criterion_type`	スコアリング基準として確率またはコストのいずれを使用するか。確率またはコストは、`score_criterion_column_name`パラメータで識別される列に渡されます。 `score_criterion_type`のデフォルト値は'`PROBABILITY`'です。スコアリング基準としてコストを使用するには、'`COST`'と指定します。 `score_criterion_type`が'`COST`'に設定されているにもかかわらずコスト・マトリックスがない場合に、モデルにスコアリング・コスト・マトリックスが関連付けられていると、この関連付けられているコストがスコアリングに使用されます。「使用上のノート」および「例」を参照してください。

使用上のノート

COMPUTE_LIFTに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、リフトを計算できます。
COMPUTE_LIFTにコスト・マトリックスを渡すかわりに、モデルに関連付けられているスコアリング・コスト・マトリックスを使用できます。スコアリング・コスト・マトリックスは、モデルに埋め込むか、またはモデルの適用時に動的に定義できます。スコアリング・コスト・マトリックスを使用するには、SQLファンクションPREDICTION_COSTを起動して、スコア基準列を移入します。

COMPUTE_LIFTに渡す予測情報は、apply_results_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

コスト・マトリックスには、表42-61に示す列が必要です。

表42-61 コスト・マトリックスの列

列名	データ型
`actual_target_value`	作成データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じであることが必要です。
`cost`	`NUMBER`

参照:

コスト・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_LIFTで作成される表には、表42-62に示す列があります。

表42-62 リフト表の列

列名	データ型
`quantile_number`	`NUMBER`
`probability_threshold`	`NUMBER`
`gain_cumulative`	`NUMBER`
`quantile_total_count`	`NUMBER`
`quantile_target_count`	`NUMBER`
`percent_records_cumulative`	`NUMBER`
`lift_cumulative`	`NUMBER`
`target_density_cumulative`	`NUMBER`
`targets_cumulative`	`NUMBER`
`non_targets_cumulative`	`NUMBER`
`lift_quantile`	`NUMBER`
`target_density`	`NUMBER`

参照:

リフト表の詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_LIFTにコスト・マトリックスが渡されると、リフト表のprobability_threshold列にコストしきい値が戻されます。

例

この例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

この例は、確率に基づくリフトを示しています。コストに基づく計算を示す例については、「COMPUTE_CONFUSION_MATRIXプロシージャ」を参照してください。

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
    SELECT cust_id, t.prediction, t.probability
    FROM mining_data_test_v, TABLE(PREDICTION_SET(nb_sh_clas_sample USING *)) t;

スコアリング基準として確率を使用する場合は、次のようにリフトを計算できます。

BEGIN
	   DBMS_DATA_MINING.COMPUTE_LIFT (
  	      apply_result_table_name	        => 'nb_apply_results',
  	      target_table_name 	             => 'mining_data_test_v',
  	      case_id_column_name	            => 'cust_id',
  	      target_column_name	             => 'affinity_card',
  	      lift_table_name		                => 'nb_lift',
  	      positive_target_value	          =>  to_char(1),
  	      score_column_name 	             => 'PREDICTION',
  	      score_criterion_column_name    => 'PROBABILITY',
  	      num_quantiles		                  =>  10,
  	      cost_matrix_table_name	         =>  null,
  	      apply_result_schema_name	       =>  null,
  	      target_schema_name	             =>  null,
  	      cost_matrix_schema_name	        =>  null,
  	      score_criterion_type	           =>  'PROBABILITY');
  	END;
  	/

この問合せにより、生成されるリフト表の統計情報の一部が表示されます。

SQL>SELECT quantile_number, probability_threshold, gain_cumulative,
           quantile_total_count
           FROM nb_lift;

QUANTILE_NUMBER PROBABILITY_THRESHOLD GAIN_CUMULATIVE QUANTILE_TOTAL_COUNT 
--------------- --------------------- --------------- --------------------  
              1            .989335775       .15034965                   55 
              2            .980534911       .26048951                   55  
              3            .968506098      .374125874                   55  
              4            .958975196      .493006993                   55 
              5            .946705997      .587412587                   55  
              6            .927454174       .66958042                   55  
              7            .904403627      .748251748                   55  
              8            .836482525      .839160839                   55  
             10            .500184953               1                   54

42.1.8.8 COMPUTE_LIFT_PARTプロシージャ

COMPUTE_LIFT_PARTプロシージャは、リフトを計算して、ユーザーのスキーマ内の表に結果を格納します。このプロシージャは、パーティション化されたモデルのパーティションごとの評価メトリックの計算をサポートします。

リフトは、2項分類モデルに対応するテスト・メトリックです。リフトを計算するには、ターゲット値のいずれかをポジティブ・クラスに指定する必要があります。COMPUTE_LIFT_PARTでは、一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。リフトでは、モデルによるポジティブ・クラスの予測結果が、ランダムに選択した場合と比較してどの程度向上しているかが測定されます。

COMPUTE_LIFT_PARTでは、クオンタイルに基づく累積統計情報が計算されます。クオンタイルの数およびポジティブ・クラスはユーザーが指定します。また、COMPUTE_LIFT_PARTは、次の3つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 予測に関連付けられた確率とコストのいずれかが格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列
(オプション)事前定義された列を持つコスト・マトリックス表。列の要件については、「使用上のノート」を参照してください。

参照:

分類に対応するリフトとテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

「COMPUTE_LIFTプロシージャ」

COMPUTE_CONFUSION_MATRIXプロシージャ

COMPUTE_CONFUSION_MATRIX_PARTプロシージャ

「COMPUTE_ROCプロシージャ」

COMPUTE_ROC_PARTプロシージャ

構文

DBMS_DATA_MINING.COMPUTE_LIFT_PART (
      apply_result_table_name     IN VARCHAR2,
      target_table_name           IN VARCHAR2,
      case_id_column_name         IN VARCHAR2,
      target_column_name          IN VARCHAR2,
      lift_table_name             IN VARCHAR2,
      positive_target_value       IN VARCHAR2,
      score_column_name           IN VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name IN VARCHAR2 DEFAULT 'PROBABILITY',
      score_partition_column_name IN VARCHAR2 DEFAULT 'PARTITION_NAME',
      num_quantiles               IN NUMBER   DEFAULT 10,
      cost_matrix_table_name      IN VARCHAR2 DEFAULT NULL,
      apply_result_schema_name    IN VARCHAR2 DEFAULT NULL,
      target_schema_name          IN VARCHAR2 DEFAULT NULL,
      cost_matrix_schema_name     IN VARCHAR2 DEFAULT NULL,
      score_criterion_type        IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-63 COMPUTE_LIFT_PARTプロシージャのパラメータ

パラメータ	説明
`apply_result_table_name`	予測結果が含まれる表
`target_table_name`	テスト・データの既知のターゲット値が含まれる表
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。
`lift_table_name`	リフト統計情報が含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。リフト表の列については、「使用上のノート」を参照してください。
`positive_target_value`	ポジティブ・クラス。リフトの計算対象となるクラスです。ターゲット列が`NUMBER`である場合は、`TO_CHAR()`演算子を使用して数値を文字列に変換します。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は`PREDICTION`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率またはコストが格納されます。デフォルトでは、スコアリングは確率に基づくため、各ケースに対して最も確率の高いクラスが予測されます。スコアリングがコストに基づく場合は、最もコストの低いクラスが予測されます。 `score_criterion_type`パラメータは、スコアリングに確率またはコストのいずれを使用するのかを示します。デフォルトの列名は`PROBABILITY`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。詳細は、「使用上のノート」を参照してください。
`score_partition_column_name`	パーティションの名前を含む列を示すオプション・パラメータ。この列により、各パーティションで独立した評価マトリックスが計算されるように、入力テスト結果がスライスされます。
`num_quantiles`	リフト計算に使用するクオンタイル数。デフォルトは10です。
`cost_matrix_table_name`	(オプション)分類ミスに関連付けられたコストを定義する表。コスト・マトリックス表があり、`score_criterion_type`パラメータが`COST`に設定されている場合、スコアリング基準としてこのコストが使用されます。コスト・マトリックス表の列については、「使用上のノート」を参照してください。
`apply_result_schema_name`	適用結果表のスキーマ NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ NULLの場合、ユーザーのスキーマと想定されます。
`cost_matrix_schema_name`	コスト・マトリックス表のスキーマ(指定されている場合) NULLの場合、ユーザーのスキーマと想定されます。
`score_criterion_type`	スコアリング基準として確率またはコストのいずれを使用するか。確率またはコストは、`score_criterion_column_name`パラメータで識別される列に渡されます。 `score_criterion_type`のデフォルト値は`PROBABILITY`です。スコアリング基準としてコストを使用するには、`COST`と指定します。 `score_criterion_type`が`COST`に設定されているにもかかわらずコスト・マトリックスがない場合に、モデルにスコアリング・コスト・マトリックスが関連付けられていると、この関連付けられているコストがスコアリングに使用されます。「使用上のノート」および「例」を参照してください。

使用上のノート

COMPUTE_LIFT_PARTに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、リフトを計算できます。
COMPUTE_LIFT_PARTにコスト・マトリックスを渡すかわりに、モデルに関連付けられているスコアリング・コスト・マトリックスを使用できます。スコアリング・コスト・マトリックスは、モデルに埋め込むか、またはモデルの適用時に動的に定義できます。スコアリング・コスト・マトリックスを使用するには、SQLファンクションPREDICTION_COSTを起動して、スコア基準列を移入します。

COMPUTE_LIFT_PARTに渡す予測情報は、apply_results_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

コスト・マトリックスには、表42-61に示す列が必要です。

表42-64 コスト・マトリックスの列

列名	データ型
`actual_target_value`	テスト・データのターゲット列のタイプ
`predicted_target_value`	テスト・データの予測ターゲットのタイプ。予測されるターゲットのタイプは、予測されるターゲットに関連した逆変換が存在しない限り、実際のターゲットのタイプと同じであることが必要です。
`cost`	`NUMBER`

参照:

コスト・マトリックスの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_LIFT_PARTで作成される表には、表42-62に示す列があります。

表42-65 COMPUTE_LIFT_PART表の列

列名	データ型
`quantile_number`	`NUMBER`
`probability_threshold`	`NUMBER`
`gain_cumulative`	`NUMBER`
`quantile_total_count`	`NUMBER`
`quantile_target_count`	`NUMBER`
`percent_records_cumulative`	`NUMBER`
`lift_cumulative`	`NUMBER`
`target_density_cumulative`	`NUMBER`
`targets_cumulative`	`NUMBER`
`non_targets_cumulative`	`NUMBER`
`lift_quantile`	`NUMBER`
`target_density`	`NUMBER`

参照:

リフト表の詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_LIFT_PARTにコスト・マトリックスが渡されると、リフト表のprobability_threshold列にコストしきい値が戻されます。

例

この例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

パーティション化されたモデルの例については、「COMPUTE_CONFUSION_MATRIX_PARTプロシージャ」を参照してください。

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
    SELECT cust_id, t.prediction, t.probability
    FROM mining_data_test_v, TABLE(PREDICTION_SET(nb_sh_clas_sample USING *)) t;

スコアリング基準として確率を使用する場合は、次のようにリフトを計算できます。


BEGIN
	  DBMS_DATA_MINING.COMPUTE_LIFT_PART (
             apply_result_table_name     => 'nb_apply_results',
             target_table_name           => 'mining_data_test_v',
             case_id_column_name         => 'cust_id',
             target_column_name          => 'affinity_card',
             lift_table_name             => 'nb_lift',
             positive_target_value       =>  to_char(1),
             score_column_name           => 'PREDICTION',
             score_criterion_column_name => 'PROBABILITY',
             score_partition_column_name => 'PARTITITON_NAME',
             num_quantiles               =>  10,
             cost_matrix_table_name      =>  null,
             apply_result_schema_name    =>  null,
             target_schema_name          =>  null,
             cost_matrix_schema_name     =>  null,
             score_criterion_type        =>  'PROBABILITY');
END;
/

この問合せにより、生成されるリフト表の統計情報の一部が表示されます。

SELECT quantile_number, probability_threshold, gain_cumulative,
           quantile_total_count
           FROM nb_lift;

QUANTILE_NUMBER PROBABILITY_THRESHOLD GAIN_CUMULATIVE QUANTILE_TOTAL_COUNT 
--------------- --------------------- --------------- --------------------  
              1            .989335775       .15034965                   55 
              2            .980534911       .26048951                   55  
              3            .968506098      .374125874                   55  
              4            .958975196      .493006993                   55 
              5            .946705997      .587412587                   55  
              6            .927454174       .66958042                   55  
              7            .904403627      .748251748                   55  
              8            .836482525      .839160839                   55  
             10            .500184953               1                   54

42.1.8.9 COMPUTE_ROCプロシージャ

このプロシージャは、受信者操作特性(ROC)を計算してユーザーのスキーマにある表に結果を格納し、モデルの精度を戻します。

ROCは、バイナリ分類モデルに対するテスト指標値です。ROCを計算するには、ターゲット値のいずれかをポジティブ・クラスに指定する必要があります。COMPUTE_ROCでは、一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。

ROCは、確率しきい値における変化の影響を測定します。確率しきい値は、モデルが予測に使用する決定ポイントです。バイナリ分類では、デフォルトの確率しきい値は0.5です。それぞれのケースに対して、確率が50%を超える値が予測されます。

ROCは、X-Y軸上の曲線として描くことができます。X軸を偽陽性率にします。Y軸を真陽性率にします。偽陽性とは、陰性であるものがテスト・データで陽性と予測されることです。真陽性とは、陽性であるものがテスト・データで陽性と予測されることです。

COMPUTE_ROCは、次の2つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 確率が格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列

参照:

分類に対応するROCおよびテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

COMPUTE_CONFUSION_MATRIXプロシージャ

「COMPUTE_LIFTプロシージャ」

構文

DBMS_DATA_MINING.COMPUTE_ROC (
      roc_area_under_curve         OUT NUMBER,
      apply_result_table_name      IN  VARCHAR2,
      target_table_name            IN  VARCHAR2,
      case_id_column_name          IN  VARCHAR2,
      target_column_name           IN  VARCHAR2,
      roc_table_name               IN  VARCHAR2,
      positive_target_value        IN  VARCHAR2,
      score_column_name            IN  VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name  IN  VARCHAR2 DEFAULT 'PROBABILITY',
      apply_result_schema_name     IN  VARCHAR2 DEFAULT NULL,
      target_schema_name           IN  VARCHAR2 DEFAULT NULL);

パラメータ

表42-66 COMPUTE_ROCプロシージャのパラメータ

パラメータ	説明
`roc_area_under_the_curve`	ROC曲線(AUC)の下部の面積が含まれる出力パラメータ。AUCによって、実際の陽性が陽性として予測される可能性が測定されます。 AUCが大きいほど、ポジティブ・クラスの予測とネガティブ・クラスの予測の間のトレードオフに対応するモデルの柔軟性が高くなります。AUCは、あるターゲット・クラスが別のターゲット・クラスと比較して、特定されるのが稀な場合または特定することがより重要な場合に、特に重要となります。
`apply_result_table_name`	予測結果が含まれる表。
`target_table_name`	テスト・データの既知のターゲット値が含まれる表。
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。ノート: ターゲット列では、`BINARY_DOUBLE`データ型はサポートされていません。
`roc_table_name`	ROC出力が含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。 ROC表の列については、「使用上のノート」を参照してください。
`positive_target_value`	ポジティブ・クラス。ROCの計算対象となるクラスです。ターゲット列が`NUMBER`である場合は、`TO_CHAR()`演算子を使用して数値を文字列に変換します。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は'`PREDICTION`'です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率が格納されます。デフォルトの列名は'`PROBABILITY`'です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`apply_result_schema_name`	適用結果表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。

使用上のノート

COMPUTE_ROCに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、受信者操作特性を計算できます。

COMPUTE_ROCに渡す予測情報は、apply_results_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

COMPUTE_ROCで作成される表には、表42-67に示す列があります。

表42-67 COMPUTE_ROCの出力

列	データ・タイプ
`probability`	`BINARY_DOUBLE`
`true_positives`	`NUMBER`
`false_negatives`	`NUMBER`
`false_positives`	`NUMBER`
`true_negatives`	`NUMBER`
`true_positive_fraction`	`NUMBER`
`false_positive_fraction`	`NUMBER`

参照:

COMPUTE_ROCの出力の詳細は、『Oracle Machine Learning for SQL概要』を参照してください

ROCは、通常、最適な確率しきい値を決定するために使用されます。最適な確立しきい値を決定するには、真陽性率と偽陽性率を調べます。真陽性率とは、陽性であるものが、テスト・データで正しく陽性と予測される割合のことです。偽陽性率とは、陰性であるものが、テスト・データで誤って陽性と予測される割合のことです。

確率しきい値を指定すると、次の文では、適用結果表内の陽性の予測が確率順に戻されます。
```
SELECT case_id_column_name 
       FROM apply_result_table_name 
       WHERE probability > probability_threshold 
       ORDER BY probability DESC;
```
最適な確率しきい値を特定するには、2つの方法があります。どちらの方法を採用するかは、ポジティブ・クラスとネガティブ・クラスを誤って予測した場合の相対コストがわかっているかどうかで決まります。

コストがわかっている場合は、相対コストをROC表に適用して、コストが最小になる確率しきい値を計算します。相対コスト比率が20 (ポジティブ・クラスの誤りコスト÷ネガティブ・クラスの誤りコスト= 20)であるとします。次のような問合せを実行します。
```
WITH cost AS (
  SELECT probability_threshold, 20 * false_negatives + false_positives cost 
    FROM ROC_table 
  GROUP BY probability_threshold), 
    minCost AS (
      SELECT min(cost) minCost 
        FROM cost)
      SELECT max(probability_threshold)probability_threshold 
        FROM cost, minCost 
    WHERE cost = minCost;
```
相対コストが明確にわかっていない場合は、ROC表の値を確率しきい値の昇順に並べ替えて表示し、表示されたトレードオフ(誤って分類されたポジティブ・クラスとネガティブ・クラスの比率)のうち、どのトレードオフ値が最適であるのかを判断できます。
```
SELECT * FROM ROC_table 
         ORDER BY probability_threshold;
```

例

この例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
    SELECT cust_id, t.prediction, t.probability
    FROM mining_data_test_v, TABLE(PREDICTION_SET(nb_sh_clas_sample USING *)) t;

テスト・データの予測値とターゲット値を使用して、次のようにROCを計算できます。

DECLARE
     v_area_under_curve NUMBER;
BEGIN
     DBMS_DATA_MINING.COMPUTE_ROC (
         roc_area_under_curve        => v_area_under_curve,
         apply_result_table_name     => 'nb_apply_results',
         target_table_name           => 'mining_data_test_v',
         case_id_column_name         => 'cust_id',
         target_column_name          => 'mining_data_test_v',
         roc_table_name              => 'nb_roc',
         positive_target_value       => '1',
         score_column_name           => 'PREDICTION',
         score_criterion_column_name => 'PROBABILITY');
     DBMS_OUTPUT.PUT_LINE('**** AREA UNDER ROC CURVE ****: ' ||
     ROUND(v_area_under_curve,4));
END;
/

生成されるAUCおよび選択されたROC表の列は、次のように表示されます。

**** AREA UNDER ROC CURVE ****: .8212

 SELECT PROBABILITY, TRUE_POSITIVE_FRACTION, FALSE_POSITIVE_FRACTION 
            FROM NB_ROC;
 
PROBABILITY  TRUE_POSITIVE_FRACTION  FALSE_POSITIVE_FRACTION
-----------  ----------------------  -----------------------
     .00000                       1                        1
     .50018              .826589595               .227902946
     .53851              .823699422               .221837088
     .54991              .820809249               .217504333
     .55628              .815028902               .215771231
     .55628              .817919075               .215771231
     .57563              .800578035               .214904679
     .57563              .812138728               .214904679
      .                   .                        .
      .                   .                        .
      .                   .                        .

42.1.8.10 COMPUTE_ROC_PARTプロシージャ

COMPUTE_ROC_PARTプロシージャは、受信者操作特性(ROC)を計算してユーザーのスキーマにある表に結果を格納し、モデルの精度を戻します。このプロシージャは、パーティション化されたモデルのパーティションごとの評価メトリックの計算をサポートします。

ROCは、バイナリ分類モデルに対するテスト指標値です。ROCを計算するには、ターゲット値のいずれかをポジティブ・クラスに指定する必要があります。COMPUTE_ROC_PARTでは、一連のテスト・データにおいて、モデルによって生成された予測結果が実際のターゲット値と比較されます。

ROCは、確率しきい値における変化の影響を測定します。確率しきい値は、モデルが予測に使用する決定ポイントです。バイナリ分類では、デフォルトの確率しきい値は0.5です。それぞれのケースに対して、確率が50%を超える値が予測されます。

ROCは、x-y軸上の曲線として描くことができます。x軸を偽陽性率にします。y軸を真陽性率にします。偽陽性とは、陰性であるものがテスト・データで陽性と予測されることです。真陽性とは、陽性であるものがテスト・データで陽性と予測されることです。

COMPUTE_ROC_PARTは、次の2つの入力ストリームを受け入れます。

テスト・データに対して生成された予測結果。この情報は、次の3つの列で渡されます。
- ケースID列
- 予測列
- 確率が格納されているスコアリング基準列
テスト・データの既知のターゲット値。この情報は、次の2つの列で渡されます。
- ケースID列
- 既知のターゲット値が格納されているターゲット列

参照:

分類に対応するROCおよびテスト・メトリックの詳細は、『Oracle Machine Learning for SQL概要』を参照してください

「COMPUTE_ROCプロシージャ」

COMPUTE_CONFUSION_MATRIXプロシージャ

COMPUTE_LIFT_PARTプロシージャ

「COMPUTE_LIFTプロシージャ」

構文

DBMS_DATA_MINING.compute_roc_part(
      roc_area_under_curve        OUT DM_NESTED_NUMERICALS,
      apply_result_table_name     IN  VARCHAR2,
      target_table_name           IN  VARCHAR2,
      case_id_column_name         IN  VARCHAR2,
      target_column_name          IN  VARCHAR2,
      roc_table_name              IN  VARCHAR2,
      positive_target_value       IN  VARCHAR2,
      score_column_name           IN  VARCHAR2 DEFAULT 'PREDICTION',
      score_criterion_column_name IN  VARCHAR2 DEFAULT 'PROBABILITY',
      score_partition_column_name IN  VARCHAR2 DEFAULT 'PARTITION_NAME',
      apply_result_schema_name    IN  VARCHAR2 DEFAULT NULL,
      target_schema_name          IN  VARCHAR2 DEFAULT NULL);

パラメータ

表42-68 COMPUTE_ROC_PARTプロシージャのパラメータ

パラメータ	説明
`roc_area_under_the_curve`	ROC曲線(AUC)の下部の面積が含まれる出力パラメータ。AUCによって、実際の陽性が陽性として予測される可能性が測定されます。 AUCが大きいほど、ポジティブ・クラスの予測とネガティブ・クラスの予測の間のトレードオフに対応するモデルの柔軟性が高くなります。AUCは、あるターゲット・クラスが別のターゲット・クラスと比較して、特定されるのが稀な場合または特定することがより重要な場合に、特に重要となります。出力引数は、`NUMBER`から`DM_NESTED_NUMERICALS`に変更されます。
`apply_result_table_name`	予測結果が含まれる表。
`target_table_name`	テスト・データの既知のターゲット値が含まれる表。
`case_id_column_name`	適用結果表のケースID列。ターゲット表のケースIDと一致する必要があります。
`target_column_name`	ターゲット表のターゲット列。テスト・データの既知のターゲット値が格納されます。ノート: ターゲット列では、`BINARY_DOUBLE`データ型はサポートされていません。
`roc_table_name`	ROC出力が含まれる表。この表は、このプロシージャによってユーザーのスキーマ内に作成されます。 ROC表の列については、「使用上のノート」を参照してください。
`positive_target_value`	ポジティブ・クラス。ROCの計算対象となるクラスです。ターゲット列が`NUMBER`である場合は、`TO_CHAR()`演算子を使用して数値を文字列に変換します。
`score_column_name`	適用結果表の予測結果が格納される列。デフォルトの列名は`PREDICTION`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_criterion_column_name`	適用結果表のスコアリング基準値が格納される列。予測を決定する確率が格納されます。デフォルトの列名は`PROBABILITY`です。この列名は、`APPLY`プロシージャで作成されるデフォルト名です(「APPLYプロシージャ」を参照)。
`score_partition_column_name`	パーティションの名前を含む列を示すオプション・パラメータ。この列により、各パーティションで独立した評価マトリックスが計算されるように、入力テスト結果がスライスされます。
`apply_result_schema_name`	適用結果表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。
`target_schema_name`	既知のターゲットが含まれている表のスキーマ。 NULLの場合、ユーザーのスキーマと想定されます。

使用上のノート

COMPUTE_ROC_PARTに渡す予測情報は、SQLファンクションPREDICTION、DBMS_DATA_MINING.APPLYプロシージャまたはその他のメカニズムを使用して生成できます。プロシージャは、渡すデータが適切な場合にかぎり、受信者操作特性を計算できます。

COMPUTE_ROC_PARTに渡す予測情報は、apply_results_table_nameで指定した表またはビューに格納されます。

CREATE TABLE apply_result_table_name AS (
            case_id_column_name            VARCHAR2, 
            score_column_name              VARCHAR2,
            score_criterion_column_name    VARCHAR2);

COMPUTE_ROC_PART表には次の列があります。

表42-69 COMPUTE_ROC_PARTの出力

列	データ型
`probability`	`BINARY_DOUBLE`
`true_positives`	`NUMBER`
`false_negatives`	`NUMBER`
`false_positives`	`NUMBER`
`true_negatives`	`NUMBER`
`true_positive_fraction`	`NUMBER`
`false_positive_fraction`	`NUMBER`

参照:

COMPUTE_ROC_PARTの出力の詳細は、『Oracle Machine Learning for SQL概要』を参照してください

ROCは、通常、最適な確率しきい値を決定するために使用されます。最適な確立しきい値を決定するには、真陽性率と偽陽性率を調べます。真陽性率とは、陽性であるものが、テスト・データで正しく陽性と予測される割合のことです。偽陽性率とは、陰性であるものが、テスト・データで誤って陽性と予測される割合のことです。

確率しきい値を指定すると、次の文では、適用結果表内の陽性の予測が確率順に戻されます。
```
SELECT case_id_column_name 
       FROM apply_result_table_name 
       WHERE probability > probability_threshold 
       ORDER BY probability DESC;
```
最適な確率しきい値を特定するには、2つの方法があります。使用する方法は、ポジティブ・クラスとネガティブ・クラスを誤って予測した場合の相対コストがわかっているかどうかで決まります。

コストがわかっている場合は、相対コストをROC表に適用して、コストが最小になる確率しきい値を計算します。相対コスト比率が20 (ポジティブ・クラスの誤りコスト÷ネガティブ・クラスの誤りコスト= 20)であるとします。次のような問合せを実行します。
```
WITH cost AS (
  SELECT probability_threshold, 20 * false_negatives + false_positives cost 
    FROM ROC_table 
  GROUP BY probability_threshold), 
    minCost AS (
      SELECT min(cost) minCost 
        FROM cost)
      SELECT max(probability_threshold)probability_threshold 
        FROM cost, minCost 
    WHERE cost = minCost;
```
相対コストが明確にわかっていない場合は、ROC表の値を確率しきい値の昇順に並べ替えて表示し、表示されたトレードオフ(誤って分類されたポジティブ・クラスとネガティブ・クラスの比率)のうち、どのトレードオフ値が最適であるのかを判断できます。
```
SELECT * FROM ROC_table 
         ORDER BY probability_threshold;
```

例

この例は、Naive Bayesモデルnb_sh_clas_sampleを使用します。

次の文は、テスト・データにモデルを適用し、予測結果と確率を表に格納します。

CREATE TABLE nb_apply_results AS
    SELECT cust_id, t.prediction, t.probability
    FROM mining_data_test_v, TABLE(PREDICTION_SET(nb_sh_clas_sample USING *)) t;

テスト・データの予測値とターゲット値を使用して、次のようにROCを計算できます。

DECLARE
     v_area_under_curve NUMBER;
BEGIN
     DBMS_DATA_MINING.COMPUTE_ROC_PART (
         roc_area_under_curve        => v_area_under_curve,
         apply_result_table_name     => 'nb_apply_results',
         target_table_name           => 'mining_data_test_v',
         case_id_column_name         => 'cust_id',
         target_column_name          => 'affinity_card',
         roc_table_name              => 'nb_roc',
         positive_target_value       => '1',
         score_column_name           => 'PREDICTION',
         score_criterion_column_name => 'PROBABILITY');
         score_partition_column_name => 'PARTITION_NAME'
     DBMS_OUTPUT.PUT_LINE('**** AREA UNDER ROC CURVE ****: ' ||
     ROUND(v_area_under_curve,4));
END;
/

生成されるAUCおよび選択されたROC表の列は、次のように表示されます。

**** AREA UNDER ROC CURVE ****: .8212

 SELECT PROBABILITY, TRUE_POSITIVE_FRACTION, FALSE_POSITIVE_FRACTION 
            FROM NB_ROC;
 
PROBABILITY  TRUE_POSITIVE_FRACTION  FALSE_POSITIVE_FRACTION
-----------  ----------------------  -----------------------
     .00000                       1                        1
     .50018              .826589595               .227902946
     .53851              .823699422               .221837088
     .54991              .820809249               .217504333
     .55628              .815028902               .215771231
     .55628              .817919075               .215771231
     .57563              .800578035               .214904679
     .57563              .812138728               .214904679
      .                   .                        .
      .                   .                        .
      .                   .                        .

42.1.8.11 CREATE_MODELプロシージャ

このプロシージャでは、特定の機械学習ファンクションによってOracle Machine Learning for SQLのモデルを作成します。

構文

DBMS_DATA_MINING.CREATE_MODEL (
      model_name            IN VARCHAR2,
      mining_function       IN VARCHAR2,
      data_table_name       IN VARCHAR2,
      case_id_column_name   IN VARCHAR2,
      target_column_name    IN VARCHAR2 DEFAULT NULL,
      settings_table_name   IN VARCHAR2 DEFAULT NULL,
      data_schema_name      IN VARCHAR2 DEFAULT NULL,
      settings_schema_name  IN VARCHAR2 DEFAULT NULL,
      xform_list            IN TRANSFORM_LIST DEFAULT NULL);

パラメータ

表42-70 CREATE_MODELプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。モデルのネーミングにおける制限については、「使用上のノート」を参照してください。
`mining_function`	機械学習ファンクション。値を表42-3に示します。
`data_table_name`	作成データが含まれる表またはビュー
`case_id_column_name`	作成データのケースID列。
`target_column_name`	教師ありモデルの場合は、作成データのターゲット列。教師なしモデルの場合は、`NULL`。
`settings_table_name`	モデルの作成設定が含まれる表。設定表がない(デフォルトの設定のみが使用されている)場合は、`NULL`。
`data_schema_name`	作成データに適用されるスキーマ。`NULL`の場合、ユーザーのスキーマと想定されます。
`settings_schema_name`	設定表に適用されるスキーマ。`NULL`の場合、ユーザーのスキーマと想定されます。
`xform_list`	自動変換に加えて、または自動変換のかわりに使用される変換のリストで、`PREP_AUTO`設定の値によって異なります。(「自動データ準備」を参照) `xform_list`のデータ・タイプは`TRANSFORM_LIST`です。これは、`TRANSFORM_REC`タイプのレコードで構成されます。各`TRANSFORM_REC`で1つの属性の変換情報を指定します。 TYPE TRANFORM_REC IS RECORD ( attribute_name VARCHAR2(4000), attribute_subname VARCHAR2(4000), expression EXPRESSION_REC, reverse_expression EXPRESSION_REC, attribute_spec VARCHAR2(4000)); `expression`フィールドは、属性を変換するためのSQL式を格納します。`reverse_expression`フィールドは、モデルのディテールの変換を逆変換するためのSQL式を格納します。属性がターゲットの場合は、スコアリング結果の変換を逆変換するためのSQL式を格納します。SQL式は、`DBMS_DATA_MINING_TRANSFORM`パッケージ内の次のルーチンで操作されます。 SET_EXPRESSIONプロシージャ GET_EXPRESSIONファンクション SET_TRANSFORMプロシージャ `attribute_spec`フィールドは、属性の個々の処理を識別します。詳細は、「使用上のノート」を参照してください。 `TRANSFORM_REC`タイプの詳細は、表42-123を参照してください。

使用上のノート

xform_list引数のattribute_specフィールドを使用すると、属性を非構造化テキストとして識別したり、属性に対する自動データ準備を無効にすることができます。attribute_specには、次の値を設定できます。
- TEXT: 属性に非構造化テキストが含まれていることを示します。オプションで、TEXT値の後に、POLICY_NAME、TOKEN_TYPE、MAX_FEATURESおよびMIN_DOCUMENTSのパラメータを追加できます。
  
  TOKEN_TYPEの有効な値は、NORMAL、STEM、THEME、SYNONYM、BIGRAMおよびSTEM_BIGRAMです。オプションで、SYNONYMの後に、大カッコで囲まれたシソーラス名を追加できます。
  
  MAX_FEATURESでは、テキストから抽出されるトークンの最大数を指定します。
  
  MIN_DOCUMENTSでは、すべての選択したトークンが出現するドキュメントの最小数を指定します。(テキスト・ポリシーの作成の詳細は、『Oracle Textリファレンス』のCTX_DDL.CREATE_POLICYに関する項を参照)。
  
  Oracle Machine Learning for SQLは、VARCHAR2/CHAR、CLOB、BLOBおよびBFILEの列をテキストとして処理できます。列がVARCHAR2またはCHARのときにTEXTを指定していないと、OML4SQLは、その列を質的データとして処理します。列がCLOBの場合、OML4SQLは、その列をデフォルトでテキストとして処理します(その列をTEXTとして指定する必要はありません。ただし、設定にOracle Textポリシーを指定する必要があります)。列がBLOBまたはBFILEの場合は、その列をTEXTとして指定する必要があります。それ以外の場合、CREATE_MODELはエラーを返します。
  
  ネストした列またはネストした列の属性にTEXTを指定すると、CREATE_MODELはエラーを返します。
- NOPREP: 属性のADPを無効にします。ADPがOFFの場合、値NOPREPは無視されます。
  
  NOPREPはネストした列に対して指定できますが、ネストした列の属性に対しては指定できません。ADPが有効なときに、ネストした列の属性にNOPREPを指定すると、CREATE_MODELはエラーを返します。
データ・ディクショナリ・ビューを問い合せると、モデルに関する情報を取得できます。
```
ALL/USER/DBA_MINING_MODELS
ALL/USER/DBA_MINING_MODEL_ATTRIBUTES
ALL/USER/DBA_MINING_MODEL_SETTINGS
ALL/USER/DBA_MINING_MODEL_VIEWS
ALL/USER/DBA_MINING_MODEL_PARTITIONS
ALL/USER/DBA_MINING_MODEL_XFORMS
```
モデル・ビューを介してモデルのディテールを問い合せると、モデルの属性に関する情報を取得できます。『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。
モデルのネーミング規則には、大部分のデータベース・スキーマ・オブジェクトのネーミング規則よりも多くの制限があります。モデル名は、次の要件も満たす必要があります。
- 名前の長さは、123文字までにする必要があります。
- 名前は、引用符で囲まれていない識別子である必要があります。引用符で囲まれていない識別子は、英数字、アンダースコア(_)、ドル記号($)、およびポンド記号(#)のみで構成され、最初の文字はアルファベットである必要があります。引用符で囲まれていないリテラルに、ドル記号およびポンド記号は使用しないことを強くお薦めします。
スキーマ・オブジェクトのネーミング要件の詳細は、『Oracle Database SQL言語リファレンス』を参照してください。
パーティション化されたモデルを作成するには、追加設定を指定する必要があります。

パーティション列の設定は、次のとおりです。
```
INSERT INTO settings_table VALUES (‘ODMS_PARTITION_COLUMNS’, ‘GENDER, AGE’);
```
モデルにユーザー定義のパーティション数を設定する場合、設定は次のようになります。
```
INSERT INTO settings_table VALUES ('ODMS_MAX_PARTITIONS’, '10’);
```
パーティションの最大数のデフォルト値は1000です。
xform_listをCREATE_MODELに渡すと、入力データで実行される変換のリストを指定できます。PREP_AUTO設定をONにすると、自動変換に加えてその変換が使用されます。PREP_AUTO設定をOFFにすると、指定した変換のみがモデルで実装されます。いずれの場合も、変換定義はモデルに埋め込まれ、モデルが適用されるたびに自動的に実行されます。「自動データ準備」を参照してください。xform_listで指定できる他の変換には、FORCE_INなどがあります。『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。

例

最初の例では、サポート・ベクター・マシン・アルゴリズムを使用する分類モデルを作成します。

-- Create the settings table 
CREATE TABLE svm_model_settings (
  setting_name  VARCHAR2(30),
  setting_value VARCHAR2(30));

-- Populate the settings table
-- Specify SVM. By default, Naive Bayes is used for classification.
-- Specify ADP. By default, ADP is not used.
BEGIN 
  INSERT INTO svm_model_settings (setting_name, setting_value) VALUES
     (dbms_data_mining.algo_name, dbms_data_mining.algo_support_vector_machines);
  INSERT INTO svm_model_settings (setting_name, setting_value) VALUES
     (dbms_data_mining.prep_auto,dbms_data_mining.prep_auto_on);
  COMMIT;
END;
/
-- Create the model using the specified settings 
BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'svm_model',
    mining_function     => dbms_data_mining.classification,
    data_table_name     => 'mining_data_build_v',
    case_id_column_name => 'cust_id',
    target_column_name  => 'affinity_card',
    settings_table_name => 'svm_model_settings');
END;
/

モデル設定は、次の問合せで表示できます。

SELECT * FROM user_mining_model_settings 
       WHERE model_name IN 'SVM_MODEL';

MODEL_NAME     SETTING_NAME            SETTING_VALUE                  SETTING
-------------  ----------------------  -----------------------------  -------
SVM_MODEL      ALGO_NAME               ALGO_SUPPORT_VECTOR_MACHINES  INPUT

SVM_MODEL      SVMS_STD_DEV            3.004524                      DEFAULT
SVM_MODEL      PREP_AUTO               ON                            INPUT
SVM_MODEL      SVMS_COMPLEXITY_FACTOR  1.887389                      DEFAULT
SVM_MODEL      SVMS_KERNEL_FUNCTION    SVMS_LINEAR                 	 DEFAULT
SVM_MODEL      SVMS_CONV_TOLERANCE     .001                          DEFAULT

次に、古いGEL_MODEL_DETAILS_SVMルーチンのかわりに、モデル・ビューを問い合せる例を示します。

SELECT target_value, attribute_name, attribute_value, coefficient   FROM DM$VLSVM_MODEL;

その次の例では、異常検出モデルを作成します。異常検出には、ターゲットなしのSVM分類が使用されます。この例では、最初の例でSVM分類モデル用に作成したものと同じ設定表を使用します。

BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'anomaly_detect_model',
    mining_function     => dbms_data_mining.classification,
    data_table_name     => 'mining_data_build_v',
    case_id_column_name => 'cust_id',
    target_column_name  => null,
    settings_table_name => 'svm_model_settings');
END;
/

この問合せは、これらの例で作成されたモデルが、スキーマで唯一のモデルであることを示しています。

SELECT model_name, mining_function, algorithm FROM user_mining_models;
 
MODEL_NAME              MINING_FUNCTION      ALGORITHM
----------------------  -------------------- ------------------------------
SVM_MODEL               CLASSIFICATION       SUPPORT_VECTOR_MACHINES
ANOMALY_DETECT_MODEL    CLASSIFICATION       SUPPORT_VECTOR_MACHINES

この問合せは、このSVM分類モデルにのみターゲットがあることを示しています。

SELECT model_name, attribute_name, attribute_type, target 
       FROM user_mining_model_attributes 
       WHERE target = 'YES';
 
MODEL_NAME          ATTRIBUTE_NAME   ATTRIBUTE_TYPE     TARGET
------------------  ---------------  -----------------  ------
SVM_MODEL           AFFINITY_CARD    CATEGORICAL         YES

42.1.8.12 CREATE_MODEL2プロシージャ

CREATE_MODEL2プロシージャはCREATE_MODELプロシージャの代替プロシージャであり、これによって永続性ステージを追加することなくモデルを作成できます。CREATE_MODELプロシージャでは、入力は表またはビューであり、そのようなオブジェクトがまだ存在しない場合はユーザーが作成する必要があります。CREATE_MODEL2プロシージャを使用することにより、ユーザーはそのような一時データベース・オブジェクトを作成する必要がありません。

構文

DBMS_DATA_MINING.CREATE_MODEL2 (
     model_name            IN VARCHAR2,
     mining_function       IN VARCHAR2,
     data_query            IN CLOB,
     set_list              IN SETTING_LIST,
     case_id_column_name   IN VARCHAR2 DEFAULT NULL,
     target_column_name    IN VARCHAR2 DEFAULT NULL,
     xform_list            IN TRANSFORM_LIST DEFAULT NULL);

パラメータ

表42-71 CREATE_MODEL2プロシージャのパラメータ

パラメータ	説明
`model_name`	[`schema_name`.]`model_name`の形式のモデル名。スキーマを指定しない場合は、現行のスキーマが使用されます。モデルのネーミングにおける制限の詳細は、「CREATE_MODELプロシージャ」の「使用上のノート」を参照してください。
`mining_function`	機械学習ファンクション。値の一覧は「DBMS_DATA_MINING — 機械学習ファンクションの設定」を参照。
`data_query`	モデルを作成するためのトレーニング・データを提供する問合せ。
`set_list`	`SETTING_LIST`を指定します。 `SETTING_LIST`は`VARCHAR2(30)`によるCLOB索引の表で、ここで索引は設定名でCLOBはその名前の設定値です。
`case_id_column_name`	作成データのケースID列。
`target_column_name`	教師ありモデルの場合は、作成データのターゲット列。教師なしモデルの場合は、`NULL`。
`xform_list`	「CREATE_MODELプロシージャ」を参照してください。

使用上のノート

使用上のノートは、「CREATE_MODELプロシージャ」を参照してください。

例

次の例では、サポート・ベクター・マシン・アルゴリズムを使用しています。

declare
 v_setlst DBMS_DATA_MINING.SETTING_LIST;

BEGIN
  v_setlst(dbms_data_mining.algo_name) := dbms_data_mining.algo_support_vector_machines;
  v_setlst(dbms_data_mining.prep_auto) := dbms_data_mining.prep_auto_on;
  
DBMS_DATA_MINING.CREATE_MODEL2(
    model_name         => 'svm_model',
    mining_function    => dbms_data_mining.classification,
    data_query         => 'select * from mining_data_build_v',
    data_table_name    => 'mining_data_build_v',
    case_id_column_name=> 'cust_id',
    target_column_name => 'affinity_card',
    set_list           => v_setlst,
    case_id_column_name=> 'cust_id',
    target_column_name => 'affinity_card');
END;
/

42.1.8.13 登録情報を使用したモデルの作成

このトピックは、Oracleオンプレミスにのみ適用されます。

ユーザーは、登録されたアルゴリズム名を使用してモデルを作成できます。DBMS_DATA_MINING.CREATE_MODELファンクションは、JSONオブジェクトから設定情報をフェッチします。

使用上のノート

アルゴリズムが登録されていると、ユーザーは登録されたアルゴリズム名を使用してモデルを作成できます。すべてのRスクリプトとデフォルト設定値はすでに登録されているため、設定表で値を指定する必要はありません。これにより、このアルゴリズムの使用が簡単になります。

例

最初の例では、GLMアルゴリズムを使用して分類モデルを作成します。

CREATE TABLE GLM_RDEMO_SETTINGS_CL (
                                                   
   setting_name  VARCHAR2(30),
   setting_value VARCHAR2(4000));
   BEGIN
        INSERT INTO GLM_RDEMO_SETTINGS_CL VALUES
         ('ALGO_EXTENSIBLE_LANG', 'R');
        INSERT INTO GLM_RDEMO_SETTINGS_CL VALUES
         (dbms_data_mining.ralg_registration_algo_name, 't1');
        INSERT INTO GLM_RDEMO_SETTINGS_CL VALUES
        (dbms_data_mining.odms_formula,   
        'AGE + EDUCATION + HOUSEHOLD_SIZE + OCCUPATION');
        INSERT INTO GLM_RDEMO_SETTINGS_CL VALUES
         ('RALG_PARAMETER_FAMILY',   'binomial(logit)' );
   END;
   /
     BEGIN
          DBMS_DATA_MINING.CREATE_MODEL(
          model_name                    =>    'GLM_RDEMO_CLASSIFICATION',
          mining_function               =>     dbms_data_mining.classification,
          data_table_name               =>    'mining_data_build_v',
          case_id_column_name           =>    'CUST_ID',
          target_column_name            =>    'AFFINITY_CARD',
          settings_table_name           =>    'GLM_RDEMO_SETTINGS_CL');
      END;
      /

42.1.8.14 DROP_ALGORITHMプロシージャ

この機能は、登録されているアルゴリズム情報の削除に使用します。

構文

DBMS_DATA_MINING.DROP_ALGORITHM (algorithm_name  IN  VARCHAR2(30),
                                 cascade         IN  BOOLEAN default FALSE)

パラメータ

表42-72 DROP_ALGORITHMプロシージャのパラメータ

パラメータ	説明
`algorithm_name`	アルゴリズムの名前。
`cascade`	カスケード・オプションが`TRUE`の場合は、このアルゴリズムを使用するすべてのモデルが強制的に削除されます。その後で、アルゴリズムが削除されます。デフォルト値は`FALSE`です。

使用上のノート

機械学習モデルを削除するには、そのモデルの所有者であるか、RQADMIN権限が必要です。機械学習の権限の詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。
システム表からアルゴリズムを削除する前に、モデルがそのアルゴリズムに基づいて構築されていないことを確認してください。
モデル構築の基になっているアルゴリズムを削除しようとすると、エラーが表示されます。

42.1.8.15 DROP_PARTITIONプロシージャ

構文

DBMS_DATA_MINING.DROP_PARTITION (
      model_name                IN VARCHAR2,
      partition_name            IN VARCHAR2);

パラメータ

表42-73 DROP_PARTITIONプロシージャのパラメータ

パラメータ	説明
`model_name`	機械学習モデルの名前(名前の形式は、[schema_name.]model_nameです)。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	削除する必要があるパーティションの名前。

42.1.8.16 DROP_MODELプロシージャ

このプロシージャは、指定した機械学習モデルを削除します。

構文

DBMS_DATA_MINING.DROP_MODEL (model_name IN VARCHAR2,
                             force      IN BOOLEAN DEFAULT FALSE);

パラメータ

表42-74 DROP_MODELプロシージャのパラメータ

パラメータ	説明
`model_name`	機械学習モデルの名前(名前の形式は、[schema_name.]model_nameです)。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`force`	機械学習モデルが無効な場合でも、強制的に削除されます。機械学習モデルは、重大なシステム・エラーでモデルの作成プロセスが中断された場合は無効になることがあります。

使用上のノート

機械学習モデルを削除するには、そのモデルの所有者であるか、DROP ANY MINING MODEL権限が必要です。Oracle Machine Learning for SQLの権限の詳細は、『Oracle Data Miningユーザーズ・ガイド』を参照してください。

例

次のコマンドを使用すると、自分のスキーマ内のnb_sh_clas_sampleという有効な機械学習モデルを削除できます。

BEGIN
  DBMS_DATA_MINING.DROP_MODEL(model_name => 'nb_sh_clas_sample');
END;
/

42.1.8.17 EXPORT_MODELプロシージャ

このプロシージャは、指定した機械学習のモデルをダンプ・ファイル・セットにエクスポートします。

ダンプ・ファイル・セットからモデルをインポートするには、IMPORT_MODELプロシージャを使用します。EXPORT_MODELおよびIMPORT_MODELでは、Oracle Data Pumpテクノロジが使用されています。

Oracle Data Pumpを使用してスキーマ全体またはデータベース全体をエクスポートまたはインポートすると、そのスキーマまたはデータベースの機械学習のモデルが含められます。ただし、EXPORT_MODELおよびIMPORT_MODELは、個々のモデルのエクスポートとインポートをサポートする唯一のユーティリティです。

参照:

Oracle Data Pumpの詳細は、『Oracle Databaseユーティリティ』を参照してください。

機械学習のモデルのインポートおよびエクスポートの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

構文

DBMS_DATA_MINING.EXPORT_MODEL (
      filename          IN VARCHAR2,
      directory         IN VARCHAR2,
      model_filter      IN VARCHAR2 DEFAULT NULL,
      filesize          IN VARCHAR2 DEFAULT NULL,
      operation         IN VARCHAR2 DEFAULT NULL,
      remote_link       IN VARCHAR2 DEFAULT NULL,
      jobname           IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-75 EXPORT_MODELプロシージャのパラメータ

パラメータ	説明
`filename`	モデルのエクスポート先のダンプ・ファイル・セットの名前。この名前は、スキーマ内で一意である必要があります。ダンプ・ファイル・セットには1つ以上のファイルを保存できます。ダンプ・ファイル・セットのファイルの個数は、エクスポートするモデルのサイズ(メタデータとデータの両方)および指定または推定された最大ファイル・サイズによって決まります。ファイル・サイズは、`filesize`パラメータで指定することも、`operation`パラメータを使用してOracle Data Pumpでファイル・サイズを推定することもできます。エクスポートするモデルのサイズが最大ファイル・サイズより大きい場合は、1つ以上の追加ファイルが作成されます。エクスポート操作が正常に終了すると、ダンプ・ファイル・セット内にファイルが1つしか存在しない場合でも、ダンプ・ファイル・セットの名前が自動的に`filename01.dmp`という形式に拡張されます。追加ファイルがある場合は、`filename02.dmp`、`filename03.dmp`のように連続したファイル名が使用されます。
`directory`	ダンプ・ファイル・セットの作成場所を指定する、事前定義済のディレクトリ・オブジェクトの名前。エクスポートするユーザーには、このディレクトリ・オブジェクト、およびこのディレクトリ・オブジェクトによって指定されるファイル・システム・ディレクトリに対する読取り/書込み権限が必要です。ディレクトリ・オブジェクトの詳細は、『Oracle Database SQL言語リファレンス』を参照してください。
`model_filter`	エクスポートするモデルを指定するパラメータ(オプション)。`model_filter`の値を指定しない場合は、スキーマ内のすべてのモデルがエクスポートされます。また、`NULL`(デフォルト)または`'ALL'`を指定しても、すべてのモデルをエクスポートできます。機械学習のファンクションまたはアルゴリズムに基づいて、モデルの名前およびグループごとに個々のモデルをエクスポートできます。たとえば、すべての回帰モデルまたはすべてのNaive Bayesモデルをエクスポートできます。例は、表42-76を参照してください。
`filesize`	ダンプ・ファイル・セット内のファイルの最大サイズを指定するパラメータ(オプション)。サイズは、バイト単位、キロバイト単位(KB)、メガバイト単位(MB)、ギガバイト単位(GB)で指定可能です。デフォルトのサイズは50MBです。エクスポートするモデルのサイズが`filesize`より大きい場合は、ダンプ・セット内に1つ以上の追加ファイルが作成されます。詳細は、`filename`パラメータの説明を参照してください。
`operation`	ダンプ・ファイル・セット内のファイルのサイズを推定するかどうかを指定するパラメータ(オプション)。デフォルトでは、ファイルのサイズは推定されず、`filesize`パラメータの値によって決まります。 `operation`には、次のいずれかの値を指定できます。 `'EXPORT'`—すべてのモデルまたは指定したモデルをエクスポートします。(デフォルト) `'ESTIMATE'`—エクスポートするモデルのサイズを推定します。
`remote_link`	リモート・システムへのデータベース・リンクの名前を指定するオプション・パラメータ。デフォルト値は`NULL`です。データベース・リンクはローカル・データベースのスキーマ・オブジェクトであり、これを使用すると、リモート・データベース上のオブジェクトにアクセスできます。`remote_link`の値を指定することで、リモート・データベース内のモデルをエクスポートできます。リモート・モデルのエクスポートには、`EXP_FULL_DATABASE`ロールが必要です。また、`EXP_FULL_DATABASE`権限、`CREATE DATABASE LINK`権限およびその他の権限が必要になることもあります。
`jobname`	エクスポート・ジョブの名前を指定するパラメータ(オプション)。デフォルトでは、`username_exp_nnnn`という形式の名前になります(`nnnn`は数字です)。たとえば、`SCOTT`スキーマ内のジョブ名は、`SCOTT_exp_134`のようになります。ジョブ名を指定する場合は、スキーマ内で一意の名前を指定する必要があります。ジョブ名の最大長は30文字です。エクスポート・ジョブのログ・ファイルが、`jobname.log`という名前で、ダンプ・ファイル・セットと同じディレクトリに作成されます。

使用上のノート

model_filterパラメータは、エクスポートするモデルを指定します。名前ごとにモデルをリストすることも、同じ機械学習のファンクションまたはアルゴリズムを持つモデルをすべて指定することもできます。USER_MINING_MODELSビューを問い合せると、スキーマ内のモデルを表示できます。

SQL> describe user_mining_models
 Name                                      Null?    Type
 ----------------------------------------- -------- ----------------------------
 MODEL_NAME                                NOT NULL VARCHAR2(30)
 MINING_FUNCTION                                    VARCHAR2(30)
 ALGORITHM                                          VARCHAR2(30)
 CREATION_DATE                             NOT NULL DATE
 BUILD_DURATION                                     NUMBER
 MODEL_SIZE                                         NUMBER
 COMMENTS                                           VARCHAR2(4000)

表42-76に、モデル・フィルタの例を示します。

表42-76 モデル・フィルタ・パラメータのサンプル値

サンプル値	意味
`'mymodel'`	`mymodel`という名前のモデルをエクスポートします。
`'name= ''mymodel'''`	`mymodel`という名前のモデルをエクスポートします。
`'name IN (''mymodel2'',''mymodel3'')'`	`mymodel2`および`mymodel3`という名前のモデルをエクスポートします。
`'ALGORITHM_NAME = ''NAIVE_BAYES'''`	すべてのNaive Bayesモデルをエクスポートします。アルゴリズム名のリストについては、表42-5を参照してください。
`'FUNCTION_NAME =''CLASSIFICATION'''`	すべての分類モデルをエクスポートします。機械学習のファンクションのリストについては、表42-3を参照してください。

例

次の文では、oml_user3スキーマ内のすべてのモデルが、$ORACLE_HOME/rdbms/logディレクトリのmodels_outというダンプ・ファイル・セットにエクスポートされます。このディレクトリは、DATA_PUMP_DIRというディレクトリ・オブジェクトにマップされています。oml_user3ユーザーには、このディレクトリとディレクトリ・オブジェクトへの読取り/書込みアクセス権があります。
```
SQL>execute dbms_data_mining.export_model ('models_out', 'DATA_PUMP_DIR');
```
SQL*Plusを終了し、作成されたダンプ・ファイルおよびログ・ファイルを表示できます。
```
SQL>EXIT
>cd $ORACLE_HOME/rdbms/log
>ls
>oml_user3_exp_1027.log  models_out01.dmp  
```
次の例は、同じディレクトリ・オブジェクトを使用し、同じユーザーによって実行されます。この例では、NMF_SH_SAMPLEおよびSVMR_SH_REGR_SAMPLEというモデルが、同じディレクトリ内の別々のダンプ・ファイル・セットにエクスポートされます。
```
SQL>EXECUTE DBMS_DATA_MINING.EXPORT_MODEL ( 'models2_out', 'DATA_PUMP_DIR',
            'name in (''NMF_SH_SAMPLE'', ''SVMR_SH_REGR_SAMPLE'')');
SQL>EXIT
>cd $ORACLE_HOME/rdbms/log
>ls
>oml_user3_exp_1027.log  models_out01.dmp
 oml_user3_exp_924.log  models2_out01.dmp
```

次の例は、特定のアルゴリズムと機械学習ファンクションの名前を指定してモデルをエクスポートする方法を示しています。

SQL>EXECUTE DBMS_DATA_MINING.EXPORT_MODEL('algo.dmp','DM_DUMP',
        'ALGORITHM_NAME IN (''O_CLUSTER'',''GENERALIZED_LINEAR_MODEL'',
        ''SUPPORT_VECTOR_MACHINES'',''NAIVE_BAYES'')');
 
SQL>EXECUTE DBMS_DATA_MINING.EXPORT_MODEL('func.dmp', 'DM_DUMP', 
        'FUNCTION_NAME IN (CLASSIFICATION,CLUSTERING,FEATURE_EXTRACTION)');

42.1.8.18 EXPORT_SERMODELプロシージャ

このプロシージャは、スコアリングのために別のプラットフォームに移動できるように、シリアライズされた形式でモデルをエクスポートします。

シリアライズされた形式でモデルをエクスポートするときには、ユーザーは空のBLOBロケータを渡して、エクスポートするモデル名を指定する必要があります。モデルがパーティション化されている場合、ユーザーは必要に応じてエクスポートする個別のパーティションを選択できます。それ以外の場合は、すべてのパーティションがエクスポートされます。返されたBLOBには、デプロイ可能なコンテンツが含まれています。

構文

DBMS_DATA_MINING.EXPORT_SERMODEL (
      model_data     IN OUT NOCOPY BLOB,
      model_name     IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-77 EXPORT_SERMODELプロシージャのパラメータ

パラメータ	説明
`model_data`	シリアル化されたモデル・データを指定します。
`model_name`	機械学習モデルの名前(名前の形式は、[schema_name.]model_nameです)。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	エクスポートする必要があるパーティションの名前。

例

次の文では、シリアライズされた形式ですべてのモデルをエクスポートします。

DECLARE
 v_blob blob;
BEGIN
 dbms_lob.createtemporary(v_blob, FALSE);
 dbms_data_mining.export_sermodel(v_blob, 'MY_MODEL');
-- save v_blob somewhere (e.g., bfile, etc.)
 dbms_lob.freetemporary(v_blob);
END;
/

参照:

機械学習のモデルのインポートおよびエクスポートの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

42.1.8.19 FETCH_JSON_SCHEMAプロシージャ

このトピックは、Oracleオンプレミスにのみ適用されます。

ユーザーは、ALL_MINING_ALGORITHMSビューからJSONスキーマをフェッチして読取りできます。この関数は、R拡張アルゴリズムの事前登録済JSONスキーマを返します。

構文

DBMS_DATA_MINING.FETCH_JSON_SCHEMA RETURN CLOB;

パラメータ

表42-78 FETCH_JSON_SCHEMAプロシージャのパラメータ

パラメータ説明

RETURN

このファンクションは、R拡張性に関する事前登録済のJSONスキーマを返します。

デフォルト値はCLOBです。

使用上のノート

アルゴリズムの登録関数を使用して新しいアルゴリズムを登録する場合、ユーザーは必要とされるJSONオブジェクト・メタデータを作成するときに、この関数を使用して事前登録済のJSONスキーマをフェッチしてそのスキーマに従い、それを登録関数に渡します。

42.1.8.20 GET_ASSOCIATION_RULESファンクション

GET_ASSOCIATION_RULESファンクションは、相関モデルによって作成されたルールを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

フィルタ条件を指定して、ルールのサブセットをGET_ASSOCIATION_RULESから戻すことができます。このテーブル・ファンクションのパフォーマンスは、フィルタ条件によって向上させることができます。ルールの数が多い場合は、topnパラメータを指定するとパフォーマンスが最適化されます。

構文

DBMS_DATA_MINING.get_association_rules(
      model_name       IN VARCHAR2,
      topn             IN NUMBER DEFAULT NULL,
      rule_id          IN INTEGER DEFAULT NULL,
      min_confidence   IN NUMBER DEFAULT NULL,
      min_support      IN NUMBER DEFAULT NULL,
      max_rule_length  IN INTEGER DEFAULT NULL,
      min_rule_length  IN INTEGER DEFAULT NULL,
      sort_order       IN ORA_MINING_VARCHAR2_NT DEFAULT NULL,
      antecedent_items IN DM_ITEMS DEFAULT NULL,
      consequent_items IN DM_ITEMS DEFAULT NULL,
      min_lift         IN NUMBER DEFAULT NULL,
      partition_name   IN VARCHAR2 DEFAULT NULL)
  RETURN DM_Rules PIPELINED;

パラメータ

表42-79 GET_ASSOCIATION_RULESファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。これは、`GET_ASSOCIATION_RULES`の唯一の必須パラメータです。他のすべてのパラメータは、戻すルールのフィルタをオプションで設定します。
`topn`	まず信頼度、次に支持度に基づいて降順でルールを並べ、上位n個のルールを戻します。ソート順序を指定すると、そのソートの実行後に上位n個のルールが導出されます。 `topn`が指定され、ルールの最大長も最小長も指定されていない場合、ソート順序に指定できる列は`RULE_CONFIDENCE`および`RULE_SUPPORT`のみです。`topn`が指定され、ルールの最大長または最小長が指定されている場合は、`RULE_CONFIDENCE`、`RULE_SUPPORT`および`NUMBER_OF_ITEMS`をソート順序に指定できます。
`rule_id`	戻すルールの識別子。`rule_id`の値を指定する場合は、他のフィルタ・パラメータの値は指定しないでください。
`min_confidence`	この数値以上の信頼度を持つルールを戻します。
`min_support`	この数値以上の支持値を持つルールを戻します。
`max_rule_length`	この数値以下の長さを持つルールを戻します。ルールの長さとは、ルール内の項目数のことです(`表42-80`の「NUMBER_OF_ITEMS」を参照)。たとえば、ルールA=>B(AならばB)の項目の数は2です。 `max_rule_length`が指定されている場合は、ソート順序に`NUMBER_OF_ITEMS`を指定できます。
`min_rule_length`	この数値以上の長さを持つルールを戻します。ルールの長さについては、「`max_rule_length`」を参照してください。 `min_rule_length`が指定されている場合は、ソート順序に`NUMBER_OF_ITEMS`を指定できます。
`sort_order`	戻される1つ以上の列の値に基づいてルールをソートします。列名の後に`ASC`(昇順)または`DESC`(降順)を追加して、1つ以上の列名を指定します。(列名については、表42-80を参照) たとえば、結果セットを、まず`NUMBER_OF_ITEMS`列に基づいて降順でソートし、次に`RULE_CONFIDENCE`列に基づいて降順でソートする場合は、次のように指定する必要があります。 `ORA_MINING_VARCHAR2_NT('NUMBER_OF_ITEMS DESC', 'RULE_CONFIDENCE DESC')` `topn`を指定した場合、結果はソート順序によって変わります。デフォルトでは、結果は、まず信頼度に基づいて降順でソートされ、次に支持度に基づいて降順でソートされます。
`antecedent_items`	これらの項目が前件にあるルールを戻します。
`consequent_items`	この項目が後件にあるルールを戻します。
`min_lift`	この数値以上のリフトを持つルールを戻します。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

GET_ASSOCIATION_RULESによって戻されるオブジェクト・タイプが、表42-80で説明されています。各フィールドの説明については、「使用上のノート」を参照してください。

表42-80 GET_ASSOCIATION RULESファンクションの戻り値

戻り値説明

DM_RULES

DM_RULEタイプの行の集合。この行には、次の列があります。

(rule_id              INTEGER,
 antecedent           DM_PREDICATES,
 consequent           DM_PREDICATES,
 rule_support         NUMBER,
 rule_confidence      NUMBER,
 rule_lift            NUMBER,
 antecedent_support   NUMBER,
 consequent_support   NUMBER,
 number_of_items      INTEGER )

DM_PREDICATES

antecedent列およびconsequent列は、それぞれDM_PREDICATESタイプのネストした表を戻します。その行(DM_PREDICATEタイプ)には、次の列があります。

     (attribute_name            VARCHAR2(4000),
      attribute_subname         VARCHAR2(4000),
      conditional_operator      CHAR(2)/*=,<>,<,>,<=,>=*/,
      attribute_num_value       NUMBER,
      attribute_str_value       VARCHAR2(4000),
      attribute_support         NUMBER,
      attribute_confidence      NUMBER)

使用上のノート

このテーブル・ファンクションは、DM_RULESタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。

GET_ASSOCIATION_RULESによって戻される列は、次のとおりです。

DM_RULESの列	説明
`rule_id`	ルールの一意の識別子
`antecedent`	ルール内の独立の条件。この条件が存在する場合は、後件に依存条件も存在します。条件は、述語(`DM_PREDICATE`)と呼ばれる属性値の組み合わせです。述語は、属性ごとの条件を指定します。条件としては、指定の値に等しい(=)、等しくない(<>)、より大(>)、より小(<)、以上(>=)、または以下(<=)を指定できます。前件の属性条件ごとに、`Support`と`Confidence`が述語に戻されます。支持度は、前件を満たすトランザクションの数です。信頼度は、トランザクションが前件を満たす確度です。ノート: `DM_PREDICATE`属性があることは、トランザクションに項目が存在することを示しています。`attribute_num_value`または`attribute_str_value`の実際の値に意味はありません。たとえば、次の述語は、属性値が`NULL`でもトランザクションにMouse Padが存在していることを示しています。 DM_PREDICATE('PROD_NAME', 'Mouse Pad', '= ', NULL, NULL, NULL, NULL))
`consequent`	ルール内の依存条件。後件が存在する場合に、この条件が存在します。後件は、前件と同様に述語(`DM_PREDICATE`)です。後件の属性条件ごとに、支持度と信頼度が述語に戻されます。支持度は、後件を満たすトランザクションの数です。信頼度は、トランザクションが後件を満たす確度です。
`rule_support`	ルールを満たすトランザクションの数。
`rule_confidence`	トランザクションがルールを満たす確度。
`rule_lift`	ルールが満たされた場合に、ランダムな可能性を上回る予測の改善の程度。
`antecedent_support`	トランザクションの合計数に対する、前件を満たすトランザクションの数の割合。
`consequent_support`	トランザクションの合計数に対する、後件を満たすトランザクションの数の割合。
`number_of_items`	ルールの前件と後件で参照される属性の合計数。

例

次の例では、相関モデルの作成後に、テーブル・ファンクションGET_ASSOCIATION_RULESを数回コールしています。

-- prepare a settings table to override default settings
CREATE TABLE market_settings AS
SELECT *
  FROM TABLE(DBMS_DATA_MINING.GET_DEFAULT_SETTINGS)
 WHERE setting_name LIKE 'ASSO_%';
BEGIN
-- update the value of the minimum confidence
UPDATE market_settings
   SET setting_value = TO_CHAR(0.081)
 WHERE setting_name = DBMS_DATA_MINING.asso_min_confidence;

-- build an AR model 
DBMS_DATA_MINING.CREATE_MODEL(
  model_name => 'market_model',
  function => DBMS_DATA_MINING.ASSOCIATION,
  data_table_name => 'market_build',
  case_id_column_name => 'item_id',
  target_column_name => NULL,
  settings_table_name => 'market_settings');
END;
/
-- View the (unformatted) rules 
SELECT rule_id, antecedent, consequent, rule_support,
       rule_confidence
  FROM TABLE(DBMS_DATA_MINING.GET_ASSOCIATION_RULES('market_model'));

前述の例では、すべてのルールが表示されます。上位20個のルールのみを表示するには、次の文を使用します。

-- View the top 20 (unformatted) rules
SELECT rule_id, antecedent, consequent, rule_support,
       rule_confidence
  FROM TABLE(DBMS_DATA_MINING.GET_ASSOCIATION_RULES('market_model', 20));

次の問合せでは、相関モデルAR_SH_SAMPLEを使用しています。

SELECT * FROM TABLE (
   DBMS_DATA_MINING.GET_ASSOCIATION_RULES (
      'AR_SH_SAMPLE', 10, NULL, 0.5, 0.01, 2, 1,
         ORA_MINING_VARCHAR2_NT (
         'NUMBER_OF_ITEMS DESC', 'RULE_CONFIDENCE DESC', 'RULE_SUPPORT DESC'),
         DM_ITEMS(DM_ITEM('CUSTPRODS', 'Mouse Pad', 1, NULL), 
                  DM_ITEM('CUSTPRODS', 'Standard Mouse', 1, NULL)),
         DM_ITEMS(DM_ITEM('CUSTPRODS', 'Extension Cable', 1, NULL))));

この問合せは、次のように3つのルールを戻します。

13  DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Mouse Pad', '= ', 1, NULL, NULL, NULL), 
       DM_PREDICATE('CUSTPRODS', 'Standard Mouse', '= ', 1, NULL, NULL, NULL))
    DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Extension Cable', '= ', 1, NULL, NULL, NULL))
    .15532      .84393   2.7075     .18404     .3117   2
 
11  DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Standard Mouse', '= ', 1, NULL, NULL, NULL))
    DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Extension Cable', '= ', 1, NULL, NULL, NULL))
    .18085      .56291   1.8059     .32128     .3117   1
 
9   DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Mouse Pad', '= ', 1, NULL, NULL, NULL))
    DM_PREDICATES(
       DM_PREDICATE('CUSTPRODS', 'Extension Cable', '= ', 1, NULL, NULL, NULL))
      .17766    .55116   1.7682     .32234     .3117   1

参照:

DM_RULE列のデータ・タイプについては、表42-80を参照してください。

42.1.8.21 GET_FREQUENT_ITEMSETSファンクション

GET_FREQUENT_ITEMSETSファンクションは、相関モデルから高頻度項目セットを示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

高頻度項目セットの詳細は、『Oracle Machine Learning for SQL概要』を参照してください。

構文

DBMS_DATA_MINING.get_frequent_itemsets(
      model_name IN VARCHAR2,
      topn IN NUMBER DEFAULT NULL,
      max_itemset_length IN NUMBER DEFAULT NULL,
      partition_name     IN VARCHAR2 DEFAULT NULL)
  RETURN DM_ItemSets PIPELINED;

パラメータ

表42-81 GET_FREQUENT_ITEMSETSファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`topn`	`NULL`以外の場合は、支持度に基づいて降順でルールを並べ、上位n個の行を戻します。
`max_itemset_length`	項目セットの最大長。
`partition_name`	パーティション化されたモデルのパーティションを指定します。ノート: `partition_name`列は、モデルがパーティション化されている場合にのみ適用されます。

戻り値

表42-82 GET_FREQUENT_ITEMSETSファンクションの戻り値

戻り値説明

DM_ITEMSETS

DM_ITEMSETタイプの行の集合。この行には、次の列があります。

(partition_name  VARCHAR2(128)
itemsets_id      NUMBER,
items             DM_ITEMS,
support           NUMBER,
number_of_items   NUMBER)

ノート:

partition_name列は、モデルがパーティション化されている場合にのみ適用されます。

items列は、DM_ITEMSタイプのネストした表を戻します。この行のタイプは、DM_ITEMです。

(attribute_name      VARCHAR2(4000),
attribute_subname    VARCHAR2(4000),
attribute_num_value  NUMBER,
attribute_str_value  VARCHAR2(4000))

使用上のノート

このテーブル・ファンクションは、DM_ITEMSETSタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。

例

この例では、相関モデルの作成後に、Oracle SQLからテーブル・ファンクションGET_FREQUENT_ITEMSETSをコールする方法を示します。

-- prepare a settings table to override default settings
CREATE TABLE market_settings AS

    SELECT *

  FROM TABLE(DBMS_DATA_MINING.GET_DEFAULT_SETTINGS)
 WHERE setting_name LIKE 'ASSO_%';
BEGIN
-- update the value of the minimum confidence
UPDATE market_settings
   SET setting_value = TO_CHAR(0.081)
 WHERE setting_name = DBMS_DATA_MINING.asso_min_confidence;

/* build a AR model */
DBMS_DATA_MINING.CREATE_MODEL(
  model_name           => 'market_model',
  function             => DBMS_DATA_MINING.ASSOCIATION,
  data_table_name      => 'market_build',
  case_id_column_name  => 'item_id',
  target_column_name   => NULL,
  settings_table_name  => 'market_settings');
END;
/

-- View the (unformatted) Itemsets from SQL*Plus
SELECT itemset_id, items, support, number_of_items
  FROM TABLE(DBMS_DATA_MINING.GET_FREQUENT_ITEMSETS('market_model'));

前述の例では、すべての項目セットが表示されます。上位20個の項目セットのみを表示するには、次の文を使用します。

-- View the top 20 (unformatted) Itemsets from SQL*Plus
SELECT itemset_id, items, support, number_of_items
  FROM TABLE(DBMS_DATA_MINING.GET_FREQUENT_ITEMSETS('market_model', 20));

42.1.8.22 GET_MODEL_COST_MATRIXファンクション

GET_*インタフェースはモデル・ビューに置き換えられるため、かわりにこのビューを利用することをお薦めします。

GET_MODEL_COST_MATRIXファンクションは、スコアリング・コスト・マトリックスであるDM$VCの接頭辞付きビューに置き換えられます。デシジョン・ツリーの作成時に使用したコスト・マトリックスは、デシジョン・ツリーの作成コスト・マトリックスであるDM$VMの接頭辞付きビューで使用できるようになります。

分類アルゴリズムのモデル・ディテール・ビューに関する項を参照してください。

GET_MODEL_COST_MATRIXファンクションは、指定したモデルに関連付けられたコスト・マトリックスの行を戻します。

デフォルトでは、このファンクションは、ADD_COST_MATRIXプロシージャを使用してモデルに追加されたスコアリング・コスト・マトリックスを戻します。モデルの作成に使用されるコスト・マトリックスを取得する場合は、matrix_typeにcost_matrix_type_createを指定します。表42-83を参照してください。

「ADD_COST_MATRIXプロシージャ」も参照してください。

構文

DBMS_DATA_MINING.GET_MODEL_COST_MATRIX (
      model_name                IN VARCHAR2,
      matrix_type               IN VARCHAR2 DEFAULT cost_matrix_type_score)
      partition_name            IN VARCHAR2 DEFAULT NULL);
RETURN DM_COST_MATRIX PIPELINED;

パラメータ

表42-83 GET_MODEL_COST_MATRIXファンクションのパラメータ

パラメータ説明

model_name

[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

matrix_type

コスト・マトリックスのタイプ。

COST_MATRIX_TYPE_SCORE—スコアリングに使用されるコスト・マトリックス。(デフォルト。)

COST_MATRIX_TYPE_CREATE—モデルの作成に使用されるコスト・マトリックス(デシジョン・ツリーのみ)。

partition_name

パーティション化されたモデルのパーティション名

戻り値

表42-84 GET_MODEL_COST_MATRIXファンクションの戻り値

戻り値説明

DM_COST_MATRIX

DM_COST_ELEMENTタイプの行の集合。この行には、次の列があります。

actual          VARCHAR2(4000), NUMBER,  predicted       VARCHAR2(4000), cost            NUMBER)

使用上のノート

コスト・マトリックスを使用して作成できるのは、デシジョン・ツリー・モデルのみです。コスト・マトリックスを使用してデシジョン・ツリー・モデルを作成する場合、モデルの設定表のCLAS_COST_TABLE_NAME設定にコスト・マトリックス表の名前を指定します。表42-7を参照してください。

デシジョン・ツリー・モデルを作成する場合に使用するコスト・マトリックスは、そのモデルに対するデフォルトのスコアリング・マトリックスになります。スコアリング用に異なるコストを指定する場合は、REMOVE_COST_MATRIXプロシージャを使用してコスト・マトリックスを削除し、ADD_COST_MATRIXプロシージャを使用して新規コスト・マトリックスを追加できます。

GET_MODEL_COST_MATRIXでは、モデルまたはモデルのパーティションに定義された作成コスト・マトリックスまたはスコアリング・コスト・マトリックスが戻されます。

パーティション化されたモデルの名前を指定しない場合は、エラーが表示されます。

例

この例では、Naive BayesモデルNB_SH_CLAS_SAMPLEに関連付けられたスコアリング・コスト・マトリックスを戻します。

column actual format a10
column predicted format a10
SELECT *
    FROM TABLE(dbms_data_mining.get_model_cost_matrix('nb_sh_clas_sample'))
    ORDER BY predicted, actual;
 
ACTUAL     PREDICTED   COST
---------- ---------- -----
0          0            .00
1          0            .75
0          1            .25
1          1            .00

42.1.8.23 GET_MODEL_DETAILS_AIファンクション

GET_MODEL_DETAILS_AIファンクションは、属性重要度モデルの詳細を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_ai(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN dm_ranked_attributes pipelined;

パラメータ

表42-85 GET_MODEL_DETAILS_AIファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-86 GET_MODEL_DETAILS_AIファンクションの戻り値

戻り値説明

DM_RANKED_ATTRIBUTES

DM_RANKED_ATTRIBUTEタイプの行の集合。この行には、次の列があります。

(attribute_name          VARCHAR2(4000,
 attribute_subname       VARCHAR2(4000),
 importance_value        NUMBER,
 rank                    NUMBER(38))

例

次の例では、サンプル・プログラムdmaidemo.sqlで作成された属性評価モデルAI_SH_sampleに関するモデルのディテールが戻されます。

SELECT attribute_name, importance_value, rank
    FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_AI('AI_SH_sample'))
    ORDER BY RANK;
 
ATTRIBUTE_NAME                           IMPORTANCE_VALUE       RANK
---------------------------------------- ---------------- ----------
HOUSEHOLD_SIZE                                 .151685183          1
CUST_MARITAL_STATUS                            .145294546          2
YRS_RESIDENCE                                   .07838928          3
AGE                                            .075027496          4
Y_BOX_GAMES                                    .063039952          5
EDUCATION                                      .059605314          6
HOME_THEATER_PACKAGE                           .056458722          7
OCCUPATION                                     .054652937          8
CUST_GENDER                                    .035264741          9
BOOKKEEPING_APPLICATION                        .019204751         10
PRINTER_SUPPLIES                                        0         11
OS_DOC_SET_KANJI                               -.00050013         12
FLAT_PANEL_MONITOR                             -.00509564         13
BULK_PACK_DISKETTES                            -.00540822         14
COUNTRY_NAME                                   -.01201116         15
CUST_INCOME_LEVEL                              -.03951311         16

42.1.8.24 GET_MODEL_DETAILS_EMファンクション

GET_MODEL_DETAILS_EMファンクションは、期待値最大化モデルによって生成されたクラスタに関する統計を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

デフォルトでは、EMアルゴリズムによってコンポーネントが上位レベルのクラスタへとグループ化されるため、GET_MODEL_DETAILS_EMは上位レベルのクラスタのみを、その階層とともに戻します。または、EMモデルを構成して、コンポーネントの上位レベルのクラスタへのグループ化を無効にできます。この場合、GET_MODEL_DETAILS_EMは、これらのコンポーネント自体をクラスタとして、階層とともに戻します。表42-12を参照してください。

構文

DBMS_DATA_MINING.get_model_details_em(
      model_name VARCHAR2,
      cluster_id NUMBER   DEFAULT NULL,
      attribute  VARCHAR2 DEFAULT NULL,
      centroid   NUMBER   DEFAULT 1,
      histogram  NUMBER   DEFAULT 1,
      rules      NUMBER   DEFAULT 2,
      attribute_subname  VARCHAR2 DEFAULT NULL,
      topn_attributes NUMBER DEFAULT NULL,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN dm_clusters PIPELINED;

パラメータ

表42-87 GET_MODEL_DETAILS_EMファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`cluster_id`	モデル内のクラスタのID。指定したクラスタIDが有効な場合、そのクラスタのディテールのみが戻されます。そうでない場合は、すべてのクラスタのディテールが戻されます。
`attribute`	属性の名前。指定した属性名が有効な場合、その属性のディテールのみが戻されます。そうでない場合は、すべての属性のディテールが戻されます。
`centroid`	このパラメータには次の値を使用できます。 1: 重心のディテールが戻されます(デフォルト)。 0: 重心のディテールは戻されません。
`histogram`	このパラメータには次の値を使用できます。 1: ヒストグラムのディテールが戻されます(デフォルト)。 0: ヒストグラムのディテールは戻されません。
`rules`	このパラメータには次の値を使用できます。 2: ルールのディテールが戻されます(デフォルト)。 1: ルールの要約が戻されます。 0: ルールに関する情報は戻されません。
`attribute_subname`	ネストした属性の名前。ネストした属性のフルネームの形式は、次のとおりです。 `attribute_name.attribute_subname` ここで、`attribute_name`は列の名前、`attribute_subname`はその列にネストした属性の名前になります。属性がネストしていない場合、`attribute_subname`はNULLです。
`topn_attributes`	セントロイド、ヒストグラムおよびルール・オブジェクトで戻される属性数を制限します。ルール内で最も高い信頼度の値を持つ`n`個の属性のみが戻されます。ルールに含まれる属性の数が`topn`より少ない場合、追加の属性が最大`n`個までアルファベット順に戻されます。 `attribute`と`topn_attributes`の両方のパラメータを指定した場合、`topn_attributes`は無視されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

使用上のノート

Oracle Machine Learning for SQLのデータ型とテーブル・ファンクションからのクラスタリング・アルゴリズムの戻り値のパイプ出力については、「データ型」を参照してください。
GET_MODEL_DETAILSファンクションは、作成プロセス中に適用された変換を自動的に元に戻すことによって、モデル透過性を保持します。このため、モデルのディテールに戻される属性は、モデル作成に使用された元の属性(または元の属性の近似値)となります。
クラスタ統計を無効にすると(EMCS_CLUSTER_STATISTICSをEMCS_CLUS_STATS_DISABLEに設定)、GET_MODEL_DETAILS_EMはセントロイド、ヒストグラムまたはルールを戻しません。分類(階層)とクラスタ数のみが戻されます。
パーティション化されたモデルでpartition_nameがNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

42.1.8.25 GET_MODEL_DETAILS_EM_COMPファンクション

GET_MODEL_DETAILS_EM_COMPテーブル・ファンクションは、期待値最大化モデルのパラメータに関する詳細を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_em_comp(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_EM_COMPONENT_SET PIPELINED;

パラメータ

表42-88 GET_MODEL_DETAILS_EM_COMPファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	ディテールを取得するパーティション化されたモデルのパーティションを指定します。

戻り値

表42-89 GET_MODEL_DETAILS_EM_COMPファンクションの戻り値

戻り値説明

DM_EM_COMPONENT_SET

DM_EM_COMPONENTタイプの行の集合。この行には、次の列があります。

(info_type             VARCHAR2(30),
 component_id          NUMBER,
 cluster_id            NUMBER,
 attribute_name        VARCHAR2(4000),
 covariate_name        VARCHAR2(4000),
 attribute_value       VARCHAR2(4000),
 value                 NUMBER )

使用上のノート

このテーブル・ファンクションは、DM_EM_COMPONENTタイプの行をパイプライン出力します。Oracle Machine Learning for SQLのデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。

GET_MODEL_DETAILS_EM_COMPによって戻された各行の列は次のとおりです。

DM_EM_COMPONENTの列	説明
`info_type`	行の情報タイプ。次の情報タイプがサポートされています。 `cluster` `prior` `mean` `covariance` `frequency`
`component_id`	コンポーネントの一意の識別子
`cluster_id`	各コンポーネントの上位レベルのリーフ・クラスタの一意の識別子
`attribute_name`	元の属性の名前または導出された機能識別子。導出された機能識別子は、ネストした列を持つデータで作成されたモデルで使用されます。導出された機能の定義は、GET_MODEL_DETAILS_EM_PROJファンクションで取得できます。
`covariate_name`	分散定義または共分散定義で使用される、元の属性の名前または導出された機能識別子。
`attribute_value`	ビニングされた量的属性の質的値またはビン間隔。
`value`	次のように、`info_type`の値に従って異なる情報がエンコーディングされます。 `cluster` — 値フィールドは`NULL`です `prior` — 値フィールドは直前のコンポーネントを戻します `mean` — 値フィールドは、`attribute_name`で指定されている属性の平均を戻します `covariance` — 値フィールドは、`attribute_name`および`covariate_name`で指定されている属性の共分散を戻します。`attribute_name`および`covariate_name`の同じ属性を使用して、分散を戻せます。 `frequency`— 値フィールドは、`attribute_name`および`attribute_value`で指定されている属性と値の組合せに対応する複数値のベルヌーイ頻度パラメータを戻します。詳細は、「使用上のノート」の2を参照してください。

次の表に、それぞれのinfo_typeでどのフィールドを使用するかを示します。空白のセルはNULLを表します。

info_type	component_id	cluster_id	attribute_name	covariate_name	attribute_value	value
cluster	X	X
prior	X	X				X
mean	X	X	X			X
covariance	X	X	X	X		X
frequency	X	X	X		X	X

GET_MODEL_DETAILSファンクションは、作成プロセス中に適用された変換を自動的に元に戻すことによって、モデル透過性を保持します。このため、モデルのディテールに戻される属性は、モデル作成に使用された元の属性(または元の属性の近似値)となります。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

42.1.8.26 GET_MODEL_DETAILS_EM_PROJファンクション

GET_MODEL_DETAILS_EM_PROJファンクションは、期待値最大化モデルによって生成された予測に関する統計を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_em_proj(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_EM_PROJECTION_SET PIPELINED;

パラメータ

表42-90 GET_MODEL_DETAILS_EM_PROJファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-91 GET_MODEL_DETAILS_EM_PROJファンクションの戻り値

戻り値説明

DM_EM_PROJECTION_SET

DM_EM_PROJECTIONタイプの行の集合。この行には、次の列があります。

(feature_name          VARCHAR2(4000),
 attribute_name        VARCHAR2(4000),
 attribute_subname     VARCHAR2(4000),
 attribute_value       VARCHAR2(4000),
 coefficient           NUMBER )

詳細は、「使用上のノート」を参照してください。

使用上のノート

このテーブル・ファンクションは、DM_EM_PROJECTIONタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。

GET_MODEL_DETAILS_EM_PROJによって戻された各行の列は次のとおりです。

DM_EM_PROJECTIONの列	説明
`feature_name`	導出された機能の名前。この機能は、GET_MODEL_DETAILS_EMファンクションによって戻されたattribute_nameにマッピングされます。
`attribute_name`	作成データ内の列の名前
`attribute_subname`	ネストした列のサブ名
`attribute_value`	質的値
`coefficient`	予測係数。データ表現はまばらなため、ゼロ以外の係数のみが戻されます。

GET_MODEL_DETAILSファンクションは、作成プロセス中に適用された変換を自動的に元に戻すことによって、モデル透過性を保持します。このため、モデルのディテールに戻される属性は、モデル作成に使用された元の属性(または元の属性の近似値)となります。

係数は元の属性ではなく、変換された属性に関連します。係数は、モデルのディテールに直接戻された場合、意味のある情報を表しません。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.27 GET_MODEL_DETAILS_GLMファンクション

GET_MODEL_DETAILS_GLMファンクションは、一般化線形モデルの係数統計情報を返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

線形とロジスティックの両方の回帰に対して同じ統計情報のセットが返されますが、機械学習ファンクションに適用されない統計情報はNULLとして返されます。詳細は、「使用上のノート」を参照してください。

構文

DBMS_DATA_MINING.get_model_details_glm(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_GLM_Coeff_Set PIPELINED;

パラメータ

表42-92 GET_MODEL_DETAILS_GLMファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-93 GET_MODEL_DETAILS_GLMの戻り値

戻り値説明

DM_GLM_COEFF_SET

DM_GLM_COEFFタイプの行の集合。この行には、次の列があります。

(class                   VARCHAR2(4000),
 attribute_name          VARCHAR2(4000),
 attribute_subname       VARCHAR2(4000),
 attribute_value         VARCHAR2(4000),
 feature_expression      VARCHAR2(4000), 
 coefficient             NUMBER,
 std_error               NUMBER,
 test_statistic          NUMBER,
 p_value                 NUMBER,
 VIF                     NUMBER,
 std_coefficient         NUMBER,
 lower_coeff_limit       NUMBER,
 upper_coeff_limit       NUMBER,
 exp_coefficient         BINARY_DOUBLE,
 exp_lower_coeff_limit   BINARY_DOUBLE,
 exp_upper_coeff_limit   BINARY_DOUBLE)

GET_MODEL_DETAILS_GLMは、属性ごとの統計の行および切片用の追加の1行(属性名のNULL値で識別されます)を戻します。各行のデータ・タイプは、DM_GLM_COEFFです。統計については、表42-94で説明します。

表42-94 DM_GLM_COEFFデータ・タイプの説明

列	説明
`class`	ロジスティック回帰の非参照ターゲット・クラス。このモデルは、このクラスの確率を予測するために作成されます。その他のクラス(参照クラス)は、モデル設定`GLMS_REFERENCE_CLASS_NAME`に指定されます。表42-19を参照してください。線形回帰の場合、`class`はNULLです。
`attribute_name`	サブ名がない場合は属性名、サブ名がある場合は属性名の最初の部分。`attribute_name`の値は、この属性のソースであるケース表の列の名前でもあります。切片の場合、`attribute_name`はNULLです。切片は、SVMモデルのバイアスに相当する用語です。
`attribute_subname`	ネストした表の属性の名前。ネストした属性のフルネームの形式は、次のとおりです。 `attribute_name.attribute_subname` ここで、`attribute_name`は、この属性のソースであるケース表のネストした列の名前です。属性がネストしていない場合、`attribute_subname`はNULLです。属性が切片の場合、`attribute_name`と`attribute_subname`の両方がNULLです。
`attribute_value`	属性の値(質的属性のみ)。量的属性の場合、`attribute_value`はNULLです。
`feature_expression`	特徴生成が有効で上位の特徴が検出された場合に、アルゴリズムによって作成される特徴名。特徴選択が有効でない場合、この特徴名は、単に完全修飾された属性名になります(属性がネストした列内にあるときは`attribute_name.attribute_subname`になる)。質的属性では、次のような形式の特徴名が作成されます。 `fully-qualified_attribute_name.attribute_value` 量的属性では、結果の値の積を計算することで、上位の特徴の名前がアルゴリズムによって作成されます。 (`attrib1`)(`attrib2`))...... ここで、`attrib1`と`attrib2`は、完全修飾された属性名です。
`coefficient`	線形係数推定値。
`std_error`	係数推定値の標準誤差。
`test_statistic`	線形回帰の場合は、係数推定値のt値。ロジスティック回帰の場合は、係数推定値のWaldカイ二乗値。
`p-value`	`test_statistic`の確率。モデルの特定の属性の重要度を分析するのに使用されます。
`VIF`	分散拡大要因。切片の場合、この値はゼロです。ロジスティック回帰の場合、`VIF`はNULLです。ソルバーがコレスキの場合、VIFは計算されません。
`std_coefficient`	係数の標準化推定値。
`lower_coeff_limit`	係数の信頼限界値の下限。
`upper_coeff_limit`	係数の信頼限界値の上限。
`exp_coefficient`	ロジスティック回帰の指数係数。線形回帰の場合、`exp_coefficient`はNULLです。
`exp_lower_coeff_limit`	ロジスティック回帰の場合は、係数の信頼限界値の下限の指数係数。線形回帰の場合、`exp_lower_coeff_limit`はNULLです。
`exp_upper_coeff_limit`	ロジスティック回帰の場合は、係数の信頼限界値の上限の指数係数。線形回帰の場合、`exp_lower_coeff_limit`はNULLです。

使用上のノート

各係数に対して、必ずしもすべての統計が戻されるわけではありません。次の場合、統計はNULLになります。

機械学習ファンクションには適用されません。たとえば、exp_coefficientは線形回帰に適用されません。
理論上、計算できない場合。リッジ回帰の詳細は、表42-19を参照してください。
システム・リソースの制限が原因で計算できない場合。
値が無限大になる可能性がある場合。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の例では、GLM回帰モデルGLMR_SH_Regr_sampleのモデル詳細の一部が返されます。

SET line 120
SET pages 99
column attribute_name format a30
column attribute_subname format a20
column attribute_value format a20
col coefficient format 990.9999
col std_error format 990.9999
SQL> SELECT * FROM
(SELECT attribute_name, attribute_value, coefficient, std_error
  FROM DM$VDGLMR_SH_REGR_SAMPLE order by 1,2)
WHERE rownum < 11;

ATTRIBUTE_NAME 				ATTRIBUTE_VALUE 	COEFFICIENT 	STD_ERROR
------------------------------ -------------------- ----------- ---------
AFFINITY_CARD 										-0.5797 		0.5283
BOOKKEEPING_APPLICATION 							-0.4689 		3.8872
BULK_PACK_DISKETTES 								-0.9819 		2.5430
COUNTRY_NAME 					Argentina 			-1.2020 		1.1876
COUNTRY_NAME 					Australia 			-0.0071 		5.1146
COUNTRY_NAME 					Brazil				 5.2931 		1.9233
COUNTRY_NAME 					Canada 				 4.0191 		2.4108
COUNTRY_NAME 					China 				 0.8706 		3.5889
COUNTRY_NAME 					Denmark 			-2.9822  		3.1803
COUNTRY_NAME 					France 				-1.1044 		7.1811

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.28 GET_MODEL_DETAILS_GLOBALファンクション

GET_MODEL_DETAILS_GLOBALファンクションは、モデル全体に関する統計を戻します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

グローバルな詳細は、一般化線形モデル、相関ルール、特異値分解および期待値の最大化で使用できます。すべてのアルゴリズムのグローバル情報を表示する新しいグローバル・モデル・ビューがあります。かわりにビューを利用することをお薦めします。グローバル・モデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_global(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_model_global_details PIPELINED;

パラメータ

表42-95 GET_MODEL_DETAILS_GLOBALファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-96 GET_MODEL_DETAILS_GLOBALファンクションの戻り値

戻り値説明

DM_MODEL_GLOBAL_DETAILS

DM_MODEL_GLOBAL_DETAILタイプの行のコレクション。この行には、次の列があります。

(global_detail_name   VARCHAR2(30),
 global_detail_value   NUMBER)

例

次の例では、GLM回帰モデルGLMR_SH_Regr_sampleのグローバルなモデル詳細が返されます。

SELECT *
  FROM TABLE(dbms_data_mining.get_model_details_global(
              'GLMR_SH_Regr_sample'))
ORDER BY global_detail_name;
GLOBAL_DETAIL_NAME             GLOBAL_DETAIL_VALUE
------------------------------ -------------------
ADJUSTED_R_SQUARE                       .731412557
AIC                                       5931.814
COEFF_VAR                               18.1711243
CORRECTED_TOTAL_DF                            1499
CORRECTED_TOT_SS                        278740.504
DEPENDENT_MEAN                              38.892
ERROR_DF                                      1433
ERROR_MEAN_SQUARE                       49.9440956
ERROR_SUM_SQUARES                       71569.8891
F_VALUE                                 62.8492452
GMSEP                                    52.280819
HOCKING_SP                              .034877162
J_P                                     52.1749319
MODEL_CONVERGED                                  1
MODEL_DF                                        66
MODEL_F_P_VALUE                                  0
MODEL_MEAN_SQUARE                       3138.94871
MODEL_SUM_SQUARES                       207170.615
NUM_PARAMS                                      67
NUM_ROWS                                      1500
ROOT_MEAN_SQ                            7.06711367
R_SQ                                    .743238288
SBIC                                    6287.79977
VALID_COVARIANCE_MATRIX                          1

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.29 GET_MODEL_DETAILS_KMファンクション

GET_MODEL_DETAILS_KMファンクションは、k-meansクラスタリング・モデルの詳細を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

モデルに関する特定の情報を要求するようにGET_MODEL_DETAILS_KMの入力を指定すると、問合せのパフォーマンスが向上します。フィルタ・パラメータを指定しない場合、GET_MODEL_DETAILS_KMはモデルに関するすべての情報を戻します。

構文

DBMS_DATA_MINING.get_model_details_km(
      model_name VARCHAR2,
      cluster_id NUMBER   DEFAULT NULL,
      attribute  VARCHAR2 DEFAULT NULL,
      centroid   NUMBER   DEFAULT 1,
      histogram  NUMBER   DEFAULT 1,
      rules      NUMBER   DEFAULT 2,
      attribute_subname  VARCHAR2 DEFAULT NULL,
      topn_attributes NUMBER DEFAULT NULL,
      partition_name VARCHAR2 DEFAULT NULL)
  RETURN dm_clusters PIPELINED;

パラメータ

表42-97 GET_MODEL_DETAILS_KMファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`cluster_id`	モデル内のクラスタのID。指定したクラスタIDが有効な場合、そのクラスタのディテールのみが戻されます。そうでない場合は、すべてのクラスタのディテールが戻されます。
`attribute`	属性の名前。指定した属性名が有効な場合、その属性のディテールのみが戻されます。そうでない場合は、すべての属性のディテールが戻されます。
`centroid`	このパラメータには次の値を使用できます。 1: 重心のディテールが戻されます(デフォルト)。 0: 重心のディテールは戻されません。
`histogram`	このパラメータには次の値を使用できます。 1: ヒストグラムのディテールが戻されます(デフォルト)。 0: ヒストグラムのディテールは戻されません。
`rules`	このパラメータには次の値を使用できます。 2: ルールのディテールが戻されます(デフォルト)。 1: ルールの要約が戻されます。 0: ルールに関する情報は戻されません。
`attribute_subname`	ネストした属性の名前。ネストした属性のフルネームの形式は、次のとおりです。 `attribute_name.attribute_subname` ここで、`attribute_name`は列の名前、`attribute_subname`はその列にネストした属性の名前になります。属性がネストしていない場合、`attribute_subname`はNULLです。
`topn_attributes`	セントロイド、ヒストグラムおよびルール・オブジェクトで戻される属性数を制限します。ルール内で最も高い信頼度の値を持つ`n`個の属性のみが戻されます。ルールに含まれる属性の数が`topn`より少ない場合、追加の属性が最大`n`個までアルファベット順に戻されます。 `attribute`と`topn_attributes`の両方のパラメータを指定した場合、`topn_attributes`は無視されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

使用上のノート

このテーブル・ファンクションは、DM_CLUSTERSタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのクラスタリング・アルゴリズムの戻り値のパイプ出力については、「データ型」を参照してください。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の例では、k-meansクラスタリグ・モデルKM_SH_Clus_sampleのモデル詳細が返されます。

SELECT T.id           clu_id,
       T.record_count rec_cnt,
       T.parent       parent,
       T.tree_level   tree_level,
       T.dispersion   dispersion
  FROM (SELECT *
          FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_KM(
                     'KM_SH_Clus_sample'))
        ORDER BY id) T
 WHERE ROWNUM < 6;  
 
    CLU_ID    REC_CNT     PARENT TREE_LEVEL DISPERSION
---------- ---------- ---------- ---------- ----------
         1       1500                     1  5.9152211
         2        638          1          2 3.98458982
         3        862          1          2 5.83732097
         4        376          3          3 5.05192137
         5        486          3          3 5.42901522

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.30 GET_MODEL_DETAILS_NBファンクション

GET_MODEL_DETAILS_NBファンクションは、Naive Bayesモデルの詳細を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_nb(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_NB_Details PIPELINED;

パラメータ

表42-98 GET_MODEL_DETAILS_NBファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-99 GET_MODEL_DETAILS_NBファンクションの戻り値

戻り値説明

DM_NB_DETAILS

DM_NB_DETAILタイプの行の集合。この行には、次の列があります。

(target_attribute_name             VARCHAR2(30),
 target_attribute_str_value     VARCHAR2(4000),
 target_attribute_num_value     NUMBER,
 prior_probability                   NUMBER,
 conditionals                          DM_CONDITIONALS)

DM_NB_DETAILのconditionals列は、DM_CONDITIONALSタイプのネストした表を戻します。その行(DM_CONDITIONALタイプ)には、次の列があります。

   (attribute_name                  VARCHAR2(4000),
    attribute_subname        VARCHAR2(4000),
    attribute_str_value          VARCHAR2(4000),
    attribute_num_value          NUMBER,
    conditional_probability    NUMBER)

使用上のノート

このテーブル・ファンクションは、DM_NB_DETAILSタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の問合せは、サンプル・プログラムdmnbdemo.sqlからのものです。モデルNB_SH_Clas_sampleに関するモデルのディテールを戻します。サンプル・プログラムの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。

この問合せは、トレーニング・データをビンに区分するために使用されたビン境界表からラベルを作成します。属性値をラベルに置き換えます。量的ビンの場合、ラベルは(lower_boundary,upper_boundary]で、質的ビンの場合、ラベルはそのラベルが表す値に一致します。(この質的ラベル表現の方法は、1つの値が1つのビンに対応する場合にのみ有効です。)ターゲットはビンに区分されませんでした。

WITH
    bin_label_view AS (
    SELECT col, bin, (DECODE(bin,'1','[','(') || lv || ',' || val || ']') label
      FROM (SELECT col,
                   bin,
                   LAST_VALUE(val) OVER (
                   PARTITION BY col ORDER BY val
                   ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING) lv,
                   val
             FROM nb_sh_sample_num)
   UNION ALL
   SELECT col, bin, val label
     FROM nb_sh_sample_cat
   ),
   model_details AS (
   SELECT T.target_attribute_name                                        tname,
          NVL(TO_CHAR(T.target_attribute_num_value,T.target_attribute_str_value)) tval,
          C.attribute_name                                               pname,
          NVL(L.label, NVL(C.attribute_str_value, C.attribute_num_value)) pval,
          T.prior_probability                                           priorp,
          C.conditional_probability                                      condp
     FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_NB('NB_SH_Clas_sample')) T,
          TABLE(T.conditionals) C,
          bin_label_view L
    WHERE C.attribute_name = L.col (+) AND
          (NVL(C.attribute_str_value,C.attribute_num_value) = L.bin(+))
   ORDER BY 1,2,3,4,5,6
   )
   SELECT tname, tval, pname, pval, priorp, condp
     FROM model_details
    WHERE ROWNUM < 11;

TNAME          TVAL PNAME                     PVAL           PRIORP   CONDP
-------------- ---- ------------------------- ------------- ------- -------
AFFINITY_CARD  0    AGE                       (24,30]         .6500   .1714
AFFINITY_CARD  0    AGE                       (30,35]         .6500   .1509
AFFINITY_CARD  0    AGE                       (35,40]         .6500   .1125
AFFINITY_CARD  0    AGE                       (40,46]         .6500   .1134
AFFINITY_CARD  0    AGE                       (46,53]         .6500   .1071
AFFINITY_CARD  0    AGE                       (53,90]         .6500   .1312
AFFINITY_CARD  0    AGE                       [17,24]         .6500   .2134
AFFINITY_CARD  0    BOOKKEEPING_APPLICATION   0               .6500   .1500
AFFINITY_CARD  0    BOOKKEEPING_APPLICATION   1               .6500   .8500
AFFINITY_CARD  0    BULK_PACK_DISKETTES       0               .6500   .3670

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.31 GET_MODEL_DETAILS_NMFファンクション

GET_MODEL_DETAILS_NMFファンクションは、Non-Negative Matrix Factorizationモデルの詳細を示す行のセットを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_nmf(
      model_name IN VARCHAR2,
      partition_name VARCHAR2 DEFAULT NULL)
   RETURN DM_NMF_Feature_Set PIPELINED;

パラメータ

表42-100 GET_MODEL_DETAILS_NMFファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-101 GET_MODEL_DETAILS_NMFファンクションの戻り値

戻り値説明

DM_NMF_FEATURE_SET

DM_NMF_FEATUREタイプの行の集合。この行には、次の列があります。

(feature_id          NUMBER,
 mapped_feature_id   VARCHAR2(4000),
 attribute_set       DM_NMF_ATTRIBUTE_SET)

DM_NMF_FEATUREのattribute_set列は、DM_NMF_ATTRIBUTE_SETタイプのネストした表を戻します。その行(DM_NMF_ATTRIBUTEタイプ)には、次の列があります。

     (attribute_name    VARCHAR2(4000),
      attribute_subname  VARCHAR2(4000),
      attribute_value    VARCHAR2(4000),
      coefficient        NUMBER)

使用上のノート

このテーブル・ファンクションは、DM_NMF_FEATURE_SETタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の例では、特徴抽出モデルNMF_SH_Sampleのモデル詳細が返されます。

SELECT * FROM (
SELECT F.feature_id,
       A.attribute_name,
       A.attribute_value,
       A.coefficient
  FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_NMF('NMF_SH_Sample')) F,
       TABLE(F.attribute_set) A
ORDER BY feature_id,attribute_name,attribute_value
) WHERE ROWNUM < 11; 
 
FEATURE_ID ATTRIBUTE_NAME          ATTRIBUTE_VALUE          COEFFICIENT
--------- -----------------------  ---------------- -------------------
        1 AFFINITY_CARD                                 .051208078859308
        1 AGE                                          .0390513260041573
        1 BOOKKEEPING_APPLICATION                      .0512734004239326
        1 BULK_PACK_DISKETTES                           .232471260895683
        1 COUNTRY_NAME             Argentina          .00766817464479959
        1 COUNTRY_NAME             Australia         .000157637881096675
        1 COUNTRY_NAME             Brazil              .0031409632415604
        1 COUNTRY_NAME             Canada             .00144213099311427
        1 COUNTRY_NAME             China             .000102279310968754
        1 COUNTRY_NAME             Denmark           .000242424084307513

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.32 GET_MODEL_DETAILS_OCファンクション

GET_MODEL_DETAILS_OCファンクションは、O-clusterクラスタリング・モデルの詳細を示す行のセットを返します。これらの行は、モデルの作成時に生成されたクラスタリングのパターンを列挙したものです。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

モデルに関する特定の情報を要求するようにGET_MODEL_DETAILS_OCの入力を指定すると、問合せのパフォーマンスが向上します。フィルタ・パラメータを指定しない場合、GET_MODEL_DETAILS_OCはモデルに関するすべての情報を戻します。

構文

DBMS_DATA_MINING.get_model_details_oc(
      model_name VARCHAR2,
      cluster_id NUMBER   DEFAULT NULL,
      attribute  VARCHAR2 DEFAULT NULL,
      centroid   NUMBER   DEFAULT 1,
      histogram  NUMBER   DEFAULT 1,
      rules      NUMBER   DEFAULT 2,
      topn_attributes NUMBER DEFAULT NULL,
      partition_name VARCHAR2 DEFAULT NULL)
  RETURN dm_clusters PIPELINED;

パラメータ

表42-102 GET_MODEL_DETAILS_OCファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`cluster_id`	モデル内のクラスタのID。指定したクラスタIDが有効な場合、そのクラスタのディテールのみが戻されます。そうでない場合は、すべてのクラスタのディテールが戻されます。
`attribute`	属性の名前。指定した属性名が有効な場合、その属性のディテールのみが戻されます。そうでない場合は、すべての属性のディテールが戻されます。
`centroid`	このパラメータには次の値を使用できます。 1: 重心のディテールが戻されます(デフォルト)。 0: 重心のディテールは戻されません。
`histogram`	このパラメータには次の値を使用できます。 1: ヒストグラムのディテールが戻されます(デフォルト)。 0: ヒストグラムのディテールは戻されません。
`rules`	このパラメータには次の値を使用できます。 2: ルールのディテールが戻されます(デフォルト)。 1: ルールの要約が戻されます。 0: ルールに関する情報は戻されません。
`topn_attributes`	セントロイド、ヒストグラムおよびルール・オブジェクトで戻される属性数を制限します。ルール内で最も高い信頼度の値を持つ`n`個の属性のみが戻されます。ルールに含まれる属性の数が`topn`より少ない場合、追加の属性が最大`n`個までアルファベット順に戻されます。 `attribute`と`topn_attributes`の両方のパラメータを指定した場合、`topn_attributes`は無視されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

使用上のノート

機械学習のデータ型とテーブル・ファンクションからのクラスタリング・アルゴリズムのパイプ出力については、「データ型」を参照してください。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の例では、クラスタリグ・モデルOC_SH_Clus_sampleのモデル詳細が返されます。

この例の各クラスタの分割述語は、モデル作成時にクラスタの子にレコードを割り当てるために使用される属性および条件を示します。クラスタ内に移入されたデータをより小さい2つのクラスタに分割する方法に関する重要な情報を提供します。

SELECT clu_id, attribute_name, op, s_value
     FROM (SELECT a.id clu_id, sp.attribute_name, sp.conditional_operator op,
                  sp.attribute_str_value s_value
             FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_OC(
                    'OC_SH_Clus_sample')) a,
                  TABLE(a.split_predicate) sp
           ORDER BY a.id, op, s_value)
     WHERE ROWNUM < 11;
 
     CLU_ID ATTRIBUTE_NAME       OP S_VALUE
----------- -------------------- ---------------------------------
          1 OCCUPATION           IN ?
          1 OCCUPATION           IN Armed-F
          1 OCCUPATION           IN Cleric.
          1 OCCUPATION           IN Crafts
          2 OCCUPATION           IN ?
          2 OCCUPATION           IN Armed-F
          2 OCCUPATION           IN Cleric.
          3 OCCUPATION           IN Exec.
          3 OCCUPATION           IN Farming
          3 OCCUPATION           IN Handler

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.33 GET_MODEL_SETTINGSファンクション

GET_MODEL_SETTINGSファンクションは、指定のモデルの作成に使用された設定を戻します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。『Oracle Databaseリファレンス』の静的データ・ディクショナリ・ビュー: ALL_ALL_TABLESからALL_OUTLINESに関する項を参照してください。

構文

FUNCTION get_model_settings(model_name IN VARCHAR2)
  RETURN DM_Model_Settings PIPELINED;

パラメータ

表42-103 GET_MODEL_SETTINGSファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

戻り値

表42-104 GET_MODEL_SETTINGSファンクションの戻り値

戻り値説明

DM_MODEL_SETTINGS

DM_MODEL_SETTINGSタイプの行の集合。この行には、次の列があります。

DM_MODEL_SETTINGS TABLE OF SYS.DM_MODEL_SETTING
         Name                   Type
     ---------------------- --------------------
       SETTING_NAME           VARCHAR2(30)
       SETTING_VALUE          VARCHAR2(4000)

使用上のノート

このテーブル・ファンクションは、DM_MODEL_SETTINGSタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「DBMS_DATA_MININGデータ型」を参照してください。
設定名と設定値には、ユーザーが指定したものと作成プロセスで割り当てられたデフォルトの両方が含まれます。

例

次の例では、Naive Bayesモデルの例のモデル設定が返されます。

SETTING_NAME                   SETTING_VALUE
------------------------------ ------------------------------
ALGO_NAME                       ALGO_NAIVE_BAYES
PREP_AUTO                       ON
ODMS_MAX_PARTITIONS             1000
NABS_SINGLETON_THRESHOLD       0
CLAS_WEIGHTS_BALANCED          OFF
NABS_PAIRWISE_THRESHOLD        0
ODMS_PARTITION_COLUMNS         GENDER,Y_BOX_GAMES
ODMS_MISSING_VALUE_TREATMENT   ODMS_MISSING_VALUE_AUTO
ODMS_SAMPLING                  ODMS_SAMPLING_DISABLE

9 rows selected.

関連トピック

『Oracle Databaseリファレンス』

42.1.8.34 GET_MODEL_SIGNATUREファンクション

GET_MODEL_SIGNATUREファンクションは、モデルのトレーニングのために作成プロセスで使用された作成用の入力表の列のリストを戻します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。『Oracle Databaseリファレンス』の静的データ・ディクショナリ・ビュー: ALL_ALL_TABLESからALL_OUTLINESに関する項を参照してください。

構文

FUNCTION get_model_signature (model_name IN VARCHAR2)
RETURN DM_Model_Signature PIPELINED;

パラメータ

表42-105 GET_MODEL_SIGNATUREファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

戻り値

表42-106 GET_MODEL_SIGNATUREファンクションの戻り値

戻り値説明

DM_MODEL_SIGNATURE

DM_MODEL_SIGNATUREタイプの行の集合。この行には、次の列があります。

 DM_MODEL_SIGNATURE TABLE OF SYS.DM_MODEL_SIGNATURE_ATTRIBUTE
      Name                    Type
      ------------------     -------------------
      ATTRIBUTE_NAME          VARCHAR2(130)
      ATTRIBUTE_TYPE          VARCHAR2(106)

使用上のノート

このテーブル・ファンクションは、DM_MODEL_SIGNATUREタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「DBMS_DATA_MININGデータ型」を参照してください。
署名の名前またはタイプには、作成プロセスで使用されたその属性のみが含まれます。

例

次の例では、Naive Bayesモデルの例のモデル設定が返されます。

ATTRIBUTE_NAME                 ATTRIBUTE_TYPE
------------------------------ ------------------
AGE                            NUMBER
ANNUAL_INCOME                  NUMBER
AVERAGE___ITEMS_PURCHASED      NUMBER
BOOKKEEPING_APPLICATION        NUMBER
BULK_PACK_DISKETTES            NUMBER
BULK_PURCH_AVE_AMT             NUMBER
DISABLE_COOKIES                NUMBER
EDUCATION                      VARCHAR2
FLAT_PANEL_MONITOR             NUMBER
GENDER                         VARCHAR2
HOME_THEATER_PACKAGE           NUMBER
HOUSEHOLD_SIZE                 VARCHAR2
MAILING_LIST                   NUMBER
MARITAL_STATUS                 VARCHAR2
NO_DIFFERENT_KIND_ITEMS        NUMBER
OCCUPATION                     VARCHAR2
OS_DOC_SET_KANJI               NUMBER
PETS                           NUMBER
PRINTER_SUPPLIES               NUMBER
PROMO_RESPOND                  NUMBER
SHIPPING_ADDRESS_COUNTRY       VARCHAR2
SR_CITIZEN                     NUMBER
TOP_REASON_FOR_SHOPPING        VARCHAR2
WKS_SINCE_LAST_PURCH           NUMBER
WORKCLASS                      VARCHAR2
YRS_RESIDENCE                  NUMBER
Y_BOX_GAMES                    NUMBER

27 rows selected.

関連トピック

『Oracle Databaseリファレンス』

42.1.8.35 GET_MODEL_DETAILS_SVDファンクション

GET_MODEL_DETAILS_SVDファンクションは、特異値分解モデルの詳細を示す行のセットを返します。モデル・ディテール・ビュー設定を使用することをお薦めします。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

特異値分解のモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_svd(
      model_name IN VARCHAR2,
      matrix_type IN VARCHAR2 DEFAULT NULL,
      partition_name VARCHAR2 DEFAULT NULL)
   RETURN DM_SVD_MATRIX_Set PIPELINED;

パラメータ

表42-107 GET_MODEL_DETAILS_SVDファンクションのパラメータ

パラメータ説明

model_name

[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

matrix_type

3つのSVDマトリックス・タイプのどれを戻すかを指定します。値は、U、S、VおよびNULLです。matrix_typeがNULL(デフォルト)の場合、すべてのマトリックスが戻されます。

Uマトリックスは、SVDS_U_MATRIX_OUTPUT設定が有効な場合にのみ計算されます。デフォルトでは計算されません。モデルにUマトリックスがないときにmatrix_typeをUに設定すると、空白行の集合が戻されます。表42-27を参照してください。

partition_name

パーティション化されたモデルのパーティション。

戻り値

表42-108 GET_MODEL_DETAILS_SVDファンクションの戻り値

戻り値説明

DM_SVD_MATRIX_SET

DM_SVD_MATRIXタイプの行の集合。この行には、次の列があります。

(matrix_type         CHAR(1),
 feature_id          NUMBER,
 mapped_feature_id   VARCHAR2(4000),
 attribute_name      VARCHAR2(4000),
 attribute_subname   VARCHAR2(4000),
 case_id             VARCHAR2(4000),
 value               NUMBER,
 variance            NUMBER,
 pct_cum_variance    NUMBER)

詳細は、「使用上のノート」を参照してください。

使用上のノート

このテーブル・ファンクションは、DM_SVD_MATRIXタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。

GET_MODEL_DETAILS_SVDによって戻された各行の列は次のとおりです。

DM_SVD_MATRIX_SETの列	説明
`matrix_type`	マトリックスのタイプ。指定可能な値は、S、VおよびUです。このフィールドはNULLにはなりません。
`feature_id`	マトリックスが参照する機能。
`mapped_feature_id`	機能の説明的な名前。
`attribute_name`	Vマトリックスのコンポーネント・ベースにおける列名。このフィールドは、SマトリックスとUマトリックスではNULLになります。
`attribute_subname`	Vマトリックスのコンポーネント・ベースにおけるサブ名。ネストした列にのみ適用されます。このフィールドは、SマトリックスとUマトリックスではNULLになります。
`case_id`	Uマトリックス予測によって記述される作成データ内にある、一意の行識別子。このフィールドは、SマトリックスとVマトリックスではNULLになります。
`value`	マトリックスの入力値。
`variance`	コンポーネントに記述された分散値。Sマトリックスの入力値でのみNULLではありません。この列は、Sマトリックスの入力値と、設定`dbms_data_mining.svds_scoring_mode`が`dbms_data_mining.svds_scoring_pca`に設定されたSVDモデルでのみNULLではなく、手動で、または設定`dbms_data_mining.prep_auto`が`dbms_data_mining.prep_auto_on`に設定されるため、作成データがセンタリングされます。
`pct_cum_variance`	コンポーネントに記述された分散の累積率。コンポーネントは、記述した分散値に従って降順でランク付けされます。この列は、Sマトリックスの入力値と、設定`dbms_data_mining.svds_scoring_mode`が`dbms_data_mining.svds_scoring_pca`に設定されたSVDモデルでのみNULLではなく、手動で、または設定`dbms_data_mining.prep_auto`が`dbms_data_mining.prep_auto_on`に設定されるため、作成データがセンタリングされます。

GET_MODEL_DETAILSでは、離散した値が出力されます。ゼロの値は戻されません。Sマトリックスの対角要素、Vマトリックス・ベースのゼロ以外の係数、およびゼロ以外のUマトリックス予測のみが戻されます。

例外は、データ行によってゼロ以外のUマトリックス予測が生成されなかった場合です。この場合、その行のケースIDが戻されますが、feature_idとvalueはNULLになります。これは、元のデータのレコードが失われないようにするためです。
GET_MODEL_DETAILSファンクションは、作成プロセス中に適用された変換を自動的に元に戻すことによって、モデル透過性を保持します。このため、モデルのディテールに戻される属性は、モデル作成に使用された元の属性(または元の属性の近似値)となります。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、適切なパーティション名が含まれる必要があります。

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.36 GET_MODEL_DETAILS_SVMファンクション

GET_MODEL_DETAILS_SVMファンクションは、線形サポート・ベクター・マシン(SVM)モデルの詳細を示す行のセットを返します。非線形SVMに対して起動された場合は、ORA-40215を戻します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のモデル・ディテール・ビューに関する項を参照してください。

線形SVMモデルでは、ゼロ以外の係数のみが格納されます。これにより記憶域が削減され、モデルをロードする速度が上がります。その結果、GET_MODEL_DETAILS_SVMで戻される係数のリストに属性がない場合、この属性の係数はゼロとして解釈されます。

構文

DBMS_DATA_MINING.get_model_details_svm(
      model_name   VARCHAR2,
      reverse_coef NUMBER DEFAULT 0,
      partition_name VARCHAR2 DEFAULT NULL)
  RETURN DM_SVM_Linear_Coeff_Set PIPELINED;

パラメータ

表42-109 GET_MODEL_DETAILS_SVMファンクションのパラメータ

パラメータ説明

model_name

[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

reverse_coef

GET_MODEL_DETAILS_SVMが、元の属性変換を使用して属性の係数を変換するかどうか。

reverse_coefが0(デフォルト)に設定されている場合、GET_MODEL_DETAILS_SVMは変換を適用せずにモデルから直接係数を戻します。

reverse_coefが1に設定されている場合、GET_MODEL_DETAILS_SVMは自動データ準備を使用して生成された正規化シフトおよびスケールを適用して、係数およびバイアスを変換します。

詳細は、「使用上のノート」の4を参照してください。

partition_name

パーティション化されたモデルのパーティションを指定します。

戻り値

表42-110 GET_MODEL_DETAILS_SVMファンクションの戻り値

戻り値説明

DM_SVM_LINEAR_COEFF_SET

DM_SVM_LINEAR_COEFFタイプの行の集合。この行には、次の列があります。

(class           VARCHAR2(4000),
 attribute_set    DM_SVM_ATTRIBUTE_SET)

attribute_set列は、DM_SVM_ATTRIBUTE_SETタイプのネストした表を戻します。その行(DM_SVM_ATTRIBUTEタイプ)には、次の列があります。

     (attribute_name        VARCHAR2(4000),
      attribute_subname  VARCHAR2(4000),
      attribute_value      VARCHAR2(4000),
      coefficient            NUMBER)

「使用上のノート」を参照してください。

使用上のノート

このテーブル・ファンクションは、DM_SVM_LINEAR_COEFFタイプの行をパイプライン出力します。機械学習のデータ型とテーブル・ファンクションからのパイプ出力については、「データ型」を参照してください。
DM_SVM_LINEAR_COEFFのclass列には、分類ターゲット値が格納されています。SVM回帰モデルの場合、classはNULLです。分類ターゲット値ごとに、係数のセットが返されます。2項分類モデル、1クラス分類モデルおよび回帰モデルの場合は、係数の単一のセットのみが返されます。
DM_SVM_ATTRIBUTE_SETのattribute_value列は、質的属性で使用されます。
GET_MODEL_DETAILSファンクションは、作成プロセス中に適用された変換を自動的に元に戻すことによって、モデル透過性を保持します。このため、モデルのディテールに戻される属性は、モデル作成に使用された元の属性(または元の属性の近似値)となります。

係数は元の属性ではなく、変換された属性に関連します。係数は、モデルのディテールに直接戻された場合、意味のある情報を表しません。係数が元の属性に関連するようにGET_MODEL_DETAILS_SVMで変換する場合は、reverse_coefパラメータを1に設定します。
パーティション化されたモデルで値がNULLの場合、例外がスローされます。値がNULLでない場合、目的のパーティション名が含まれる必要があります。

例

次の例では、サンプル・プログラムdmsvcdem.sqlで作成されたSVM分類モデルSVMC_SH_Clas_sampleに関するモデルのディテールが戻されます。サンプル・プログラムの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください。

WITH
  mod_dtls AS (
  SELECT *
    FROM TABLE(DBMS_DATA_MINING.GET_MODEL_DETAILS_SVM('SVMC_SH_Clas_sample'))
  ),
  model_details AS (
  SELECT D.class, A.attribute_name, A.attribute_value, A.coefficient
    FROM mod_dtls D,
  	    TABLE(D.attribute_set) A
    ORDER BY D.class, ABS(A.coefficient) DESC
  )
  SELECT class, attribute_name aname, attribute_value aval, coefficient coeff
    FROM model_details
    WHERE ROWNUM < 11;
 
CLASS      ANAME                     AVAL                      COEFF
---------- ------------------------- ------------------------- -----
1                                                              -2.85
1          BOOKKEEPING_APPLICATION                              1.11
1          OCCUPATION                Other                      -.94
1          HOUSEHOLD_SIZE            4-5                         .88
1          CUST_MARITAL_STATUS       Married                     .82
1          YRS_RESIDENCE                                         .76
1          HOUSEHOLD_SIZE            6-8                        -.74
1          OCCUPATION                Exec.                       .71
1          EDUCATION                 11th                       -.71
1          EDUCATION                 Masters                     .63

関連トピック

『Oracle Machine Learning for SQLユーザーズ・ガイド』

42.1.8.37 GET_MODEL_DETAILS_XMLファンクション

このファンクションは、デシジョン・ツリー・モデルのディテールを示すXMLオブジェクトを返します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。かわりに、モデル・ディテール・ビューを使用してください。

『Oracle Machine Learning for SQLユーザーズ・ガイド』のデシジョン・ツリーのモデル・ディテール・ビューに関する項を参照してください。

構文

DBMS_DATA_MINING.get_model_details_xml(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN XMLType;

パラメータ

表42-111 GET_MODEL_DETAILS_XMLファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-112 GET_MODEL_DETAILS_XMLファンクションの戻り値

戻り値説明

XMLTYPE

デシジョン・ツリー・モデルのXML定義。詳細は、「XMLTYPE」を参照してください。

XML定義は、Data Mining Group Predictive Model Markup Language (PMML)バージョン2.1の仕様に準拠しています。この仕様については、https://dmg.orgを参照してください。

field="<column_name>"としてドキュメントに表示されるネストしていない属性とは対照的に、ネストした属性が分岐として使用される場合、属性がfield="'<column_name>'.<subname>"としてXMLドキュメントに表示されます。

ノート:

列名は一重引用符で囲まれて、ピリオドでcolumn_nameとsubnameが区切られます。

その他のドキュメント・スタイルは変更されません。

使用上のノート

Oracle XMLで表示できない特殊文字は「#」に変換されます。

例

次のSQL*Plusの文は、デシジョン・ツリー・モデルdt_sh_clas_sampleの詳細を返します。

ノート: XML出力に表示される「&quot」文字は、SQL*Plusの動作の結果です。適切な形式でXMLを表示するには、ファイルに切り取って貼り付け、ファイルをブラウザで開きます。

column dt_details format a320
SELECT 
 dbms_data_mining.get_model_details_xml('dt_sh_clas_sample') 
 AS DT_DETAILS
FROM dual;


DT_DETAILS
--------------------------------------------------------------------------------
<PMML version="2.1">
  <Header copyright="Copyright (c) 2004, Oracle Corporation. All rights
      reserved."/>
  <DataDictionary numberOfFields="9">
    <DataField name="AFFINITY_CARD" optype="categorical"/> 
    <DataField name="AGE" optype="continuous"/> 
    <DataField name="BOOKKEEPING_APPLICATION" optype="continuous"/>
    <DataField name="CUST_MARITAL_STATUS" optype="categorical"/>
    <DataField name="EDUCATION" optype="categorical"/> 
    <DataField name="HOUSEHOLD_SIZE" optype="categorical"/>
    <DataField name="OCCUPATION" optype="categorical"/>
    <DataField name="YRS_RESIDENCE" optype="continuous"/>
    <DataField name="Y_BOX_GAMES" optype="continuous"/>
  </DataDictionary>
  <TreeModel modelName="DT_SH_CLAS_SAMPLE" functionName="classification"
      splitCharacteristic="binarySplit">
    <Extension name="buildSettings">
      <Setting name="TREE_IMPURITY_METRIC" value="TREE_IMPURITY_GINI"/>
      <Setting name="TREE_TERM_MAX_DEPTH" value="7"/>
      <Setting name="TREE_TERM_MINPCT_NODE" value=".05"/>
      <Setting name="TREE_TERM_MINPCT_SPLIT" value=".1"/> 
      <Setting name="TREE_TERM_MINREC_NODE" value="10"/>
      <Setting name="TREE_TERM_MINREC_SPLIT" value="20"/>
      <costMatrix>
        <costElement>
          <actualValue>0</actualValue>
          <predictedValue>0</predictedValue>
          <cost>0</cost>
        </costElement>
        <costElement>
          <actualValue>0</actualValue>
          <predictedValue>1</predictedValue>
          <cost>1</cost>
        </costElement>
        <costElement>
          <actualValue>1</actualValue>
          <predictedValue>0</predictedValue>
          <cost>8</cost> 
        </costElement>
        <costElement> 
          <actualValue>1</actualValue>
          <predictedValue>1</predictedValue> 
          <cost>0</cost> 
        </costElement>
      </costMatrix>
    </Extension>
    <MiningSchema>
      .
      .
      .
      .
      .
      . 
      </Node>
    </Node>
  </TreeModel>
</PMML>

関連トピック

Oracle Database PL/SQLパッケージおよびタイプ・リファレンス

42.1.8.38 GET_MODEL_TRANSFORMATIONSファンクション

このファンクションは、指定したモデルに埋め込まれた変換式を戻します。Oracle Database 12cリリース2以降、このファンクションは非推奨になりました。『Oracle Databaseリファレンス』の静的データ・ディクショナリ・ビュー: ALL_ALL_TABLESからALL_OUTLINESに関する項を参照してください。

すべてのGET_*インタフェースはモデル・ビューに置き換えられるため、モデル・ビューを参照して関連する情報を取得することをお薦めします。GET_MODEL_TRANSFORMATIONSファンクションは次のものに置き換えられます。

USER(/DBA/ALL)_MINING_MODEL_XFORMS: ユーザーが埋め込んだ変換を提供します。
DM$VXの接頭辞付きモデル・ビュー: テキストの特徴抽出情報を提供します。
D$VNの接頭辞付きモデル・ビュー: 正規化および欠損値の情報を提供します。
DM$VB: ビニングの情報を提供します。

参照:

「DBMS_DATA_MINING_TRANSFORMの操作上のノート」の「変換リストについて」

GET_TRANSFORM_LISTプロシージャ

「CREATE_MODELプロシージャ」

『Oracle Databaseリファレンス』のALL_MINING_MODEL_XFORMSに関する項

『Oracle Databaseリファレンス』のDBA_MINING_MODEL_XFORMSに関する項

『Oracle Databaseリファレンス』のUSER_MINING_MODEL_XFORMSに関する項

ビニングのモデル・ディテール・ビューに関する項

正規化および欠損値の処理に関する項

テキストの特徴のデータ準備に関する項

構文

DBMS_DATA_MINING.get_model_transformations(
      model_name IN VARCHAR2,
      partition_name IN VARCHAR2 DEFAULT NULL)
  RETURN DM_Transforms PIPELINED;

パラメータ

表42-113 GET_MODEL_TRANSFORMATIONSファンクションのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名を示します。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`partition_name`	パーティション化されたモデルのパーティションを指定します。

戻り値

表42-114 GET_MODEL_TRANSFORMATIONSファンクションの戻り値

戻り値説明

DM_TRANSFORMS

model_nameに埋め込まれた変換式。

DM_TRANSFORMSタイプはDM_TRANSFORMオブジェクトの表です。各DM_TRANSFORMには次のフィールドがあります。

attribute_name       VARCHAR2(4000)
attribute_subname    VARCHAR2(4000)
expression           CLOB
reverse_expression   CLOB

使用上のノート

自動データ準備(ADP)が有効になっている場合、自動変換とユーザー定義の変換の両方を属性に関連付けることができます。この場合、ユーザー定義の変換は自動変換の前に評価されます。

パーティション化されたモデルに対して起動される場合は、partition_nameパラメータが指定される必要があります。

例

この例では、SH.CUSTOMERS表の複数の列を使用して、Naive Bayesモデルを作成します。それらの列のいずれかに変換式が指定されています。このモデルではADPは使用されません。

CREATE OR REPLACE VIEW mining_data AS
   SELECT cust_id, cust_year_of_birth, cust_income_level,cust_credit_limit
   FROM sh.customers;

describe mining_data
 Name                                   Null?    Type
 -------------------------------------- -------- --------------------------
 CUST_ID                                NOT NULL NUMBER
 CUST_YEAR_OF_BIRTH                     NOT NULL NUMBER(4)
 CUST_INCOME_LEVEL                               VARCHAR2(30)
 CUST_CREDIT_LIMIT                               NUMBER
 
CREATE TABLE settings_nb(
      setting_name  VARCHAR2(30),
      setting_value VARCHAR2(30));
BEGIN
     INSERT INTO settings_nb (setting_name, setting_value) VALUES
           (dbms_data_mining.algo_name, dbms_data_mining.algo_naive_bayes);
     INSERT INTO settings_nb (setting_name, setting_value) VALUES
           (dbms_data_mining.prep_auto, dbms_data_mining.prep_auto_off);
     COMMIT;
END;
/
DECLARE
    mining_data_xforms   dbms_data_mining_transform.TRANSFORM_LIST;
  BEGIN
    dbms_data_mining_transform.SET_TRANSFORM (
         xform_list           =>  mining_data_xforms,
         attribute_name       => 'cust_year_of_birth',
         attribute_subname    =>  null,
         expression           => 'cust_year_of_birth + 10',
         reverse_expression   => 'cust_year_of_birth - 10');
    dbms_data_mining.CREATE_MODEL (
        model_name           =>  'new_model',
        mining_function      =>   dbms_data_mining.classification,
        data_table_name      =>  'mining_data',
        case_id_column_name  =>  'cust_id',
        target_column_name   =>  'cust_income_level',
        settings_table_name  =>  'settings_nb',
        data_schema_name     =>   nulL,
        settings_schema_name =>   null,
        xform_list           =>   mining_data_xforms );
  END;
 /
SELECT attribute_name, TO_CHAR(expression), TO_CHAR(reverse_expression)
      FROM TABLE (dbms_data_mining.GET_MODEL_TRANSFORMATIONS('new_model'));

ATTRIBUTE_NAME      TO_CHAR(EXPRESSION)       TO_CHAR(REVERSE_EXPRESSION)
------------------  ------------------------  ----------------------------- 
CUST_YEAR_OF_BIRTH  cust_year_of_birth + 10   cust_year_of_birth - 10

関連トピック

『Oracle Databaseリファレンス』

42.1.8.39 GET_TRANSFORM_LISTプロシージャ

このプロシージャは、DM_TRANSFORMSと指定された変換式を、モデルの作成時に使用できる変換リスト(TRANSFORM_LIST)に変換します。DM_TRANSFORMSはGET_MODEL_TRANSFORMATIONSファンクションによって戻されます。

DBMS_DATA_MINING_TRANSFORMパッケージのルーチンを使用して変換リストを作成することもできます。

参照:

「DBMS_DATA_MINING_TRANSFORM」の「変換リストについて」

GET_MODEL_TRANSFORMATIONSファンクション

「CREATE_MODELプロシージャ」

構文

DBMS_DATA_MINING.GET_TRANSFORM_LIST (
      xform_list           OUT NOCOPY TRANSFORM_LIST,
      model_xforms         IN  DM_TRANSFORMS);

パラメータ

表42-115 GET_TRANSFORM_LISTプロシージャのパラメータ

パラメータ説明

xform_list

モデルに埋め込むことができる変換の仕様のリスト。CREATE_MODELプロシージャでパラメータとして使用されます。

TRANSFORM_LISTタイプはTRANSFORM_RECオブジェクトのテーブルです。各TRANSFORM_RECには次のフィールドがあります。

attribute_name      VARCHAR2(30)
attribute_subname   VARCHAR2(4000)
expression          EXPRESSION_REC
reverse_expression  EXPRESSION_REC
attribute_spec      VARCHAR2(4000)

TRANSFORM_LISTコレクション・タイプの詳細は、表42-123を参照してください。

model_xforms

特定のモデルに対してGET_MODEL_TRANSFORMATIONSファンクションで戻される埋め込まれた変換式のリスト。

DM_TRANSFORMSタイプはDM_TRANSFORMオブジェクトの表です。各DM_TRANSFORMには次のフィールドがあります。

attribute_name       VARCHAR2(4000)
attribute_subname    VARCHAR2(4000)
expression           CLOB
reverse_expression   CLOB

例

この例では、SH.CUSTOMERSテーブルのいくつかの列を使用してモデルmod1を調整します。このモデルでは、いずれかの列を自動的にビンに区分するADPが使用されます。

2つ目のモデルmod2では、ADPを使用せずに同じデータを調整しますが、mod1から取得した変換リストは使用します。結果として、mod1とmod2の両方に同じ変換式が埋め込まれます。

CREATE OR REPLACE VIEW mining_data AS
     SELECT cust_id, cust_year_of_birth, cust_income_level, cust_credit_limit
     FROM sh.customers;
 
describe mining_data
 Name                                      Null?    Type
 ----------------------------------------- -------- ----------------------------
 CUST_ID                                   NOT NULL NUMBER
 CUST_YEAR_OF_BIRTH                        NOT NULL NUMBER(4)
 CUST_INCOME_LEVEL                                  VARCHAR2(30)
 CUST_CREDIT_LIMIT                                  NUMBER

CREATE TABLE setmod1(setting_name  VARCHAR2(30),setting_value VARCHAR2(30));
BEGIN
   INSERT INTO setmod1 VALUES (dbms_data_mining.algo_name, dbms_data_mining.algo_naive_bayes);
   INSERT INTO setmod1 VALUES (dbms_data_mining.prep_auto,dbms_data_mining.prep_auto_on);
   dbms_data_mining.CREATE_MODEL (
               model_name            => 'mod1',
               mining_function       => dbms_data_mining.classification,
               data_table_name       => 'mining_data',
               case_id_column_name   => 'cust_id',
               target_column_name    => 'cust_income_level',
               settings_table_name   => 'setmod1');
    COMMIT;
END;
/
CREATE TABLE setmod2(setting_name  VARCHAR2(30),setting_value VARCHAR2(30));
BEGIN
  INSERT INTO setmod2
      VALUES (dbms_data_mining.algo_name, dbms_data_mining.algo_naive_bayes);
  COMMIT;
END;
/
DECLARE
  v_xform_list       dbms_data_mining_transform.TRANSFORM_LIST;
  dmxf               DM_TRANSFORMS;
BEGIN
   EXECUTE IMMEDIATE
    'SELECT dm_transform(attribute_name, attribute_subname,expression, reverse_expression)
     FROM TABLE(dbms_data_mining.GET_MODEL_TRANSFORMATIONS (''mod1''))'
     BULK COLLECT INTO dmxf;
   dbms_data_mining.GET_TRANSFORM_LIST (
        xform_list             =>  v_xform_list,
        model_xforms           =>  dmxf);
   dbms_data_mining.CREATE_MODEL(
         model_name            => 'mod2',
         mining_function       =>  dbms_data_mining.classification,
         data_table_name       => 'mining_data',
         case_id_column_name   => 'cust_id',
         target_column_name    => 'cust_income_level',
         settings_table_name   => 'setmod2',
         xform_list            =>  v_xform_list);
END;
/

-- Transformation expression embedded in mod1
SELECT TO_CHAR(expression) FROM TABLE (dbms_data_mining.GET_MODEL_TRANSFORMATIONS('mod1'));

TO_CHAR(EXPRESSION)
--------------------------------------------------------------------------------
CASE WHEN "CUST_YEAR_OF_BIRTH"<1915 THEN 0 WHEN "CUST_YEAR_OF_BIRTH"<=1915 THEN 0
WHEN "CUST_YEAR_OF_BIRTH"<=1920.5 THEN 1 WHEN "CUST_YEAR_OF_BIRTH"<=1924.5 THEN 2
.
.
.
.5 THEN 29 WHEN "CUST_YEAR_OF_BIRTH" IS NOT NULL THEN 30 END

-- Transformation expression embedded in mod2
SELECT TO_CHAR(expression) FROM TABLE (dbms_data_mining.GET_MODEL_TRANSFORMATIONS('mod2'));

TO_CHAR(EXPRESSION)
--------------------------------------------------------------------------------
CASE WHEN "CUST_YEAR_OF_BIRTH"<1915 THEN 0 WHEN "CUST_YEAR_OF_BIRTH"<=1915 THEN 0
WHEN "CUST_YEAR_OF_BIRTH"<=1920.5 THEN 1 WHEN "CUST_YEAR_OF_BIRTH"<=1924.5 THEN 2
.
.
.
.5 THEN 29 WHEN "CUST_YEAR_OF_BIRTH" IS NOT NULL THEN 30 END

-- Reverse transformation expression embedded in mod1
SELECT TO_CHAR(reverse_expression)FROM TABLE (dbms_data_mining.GET_MODEL_TRANSFORMATIONS('mod1'));

TO_CHAR(REVERSE_EXPRESSION)
--------------------------------------------------------------------------------
DECODE("CUST_YEAR_OF_BIRTH",0,'( ; 1915), [1915; 1915]',1,'(1915; 1920.5]',2,'(1
920.5; 1924.5]',3,'(1924.5; 1928.5]',4,'(1928.5; 1932.5]',5,'(1932.5; 1936.5]',6
.
.
.
8,'(1987.5; 1988.5]',29,'(1988.5; 1989.5]',30,'(1989.5;  )',NULL,'NULL')
 
-- Reverse transformation expression embedded in mod2
SELECT TO_CHAR(reverse_expression) FROM TABLE (dbms_data_mining.GET_MODEL_TRANSFORMATIONS('mod2'));
      
TO_CHAR(REVERSE_EXPRESSION)
--------------------------------------------------------------------------------
DECODE("CUST_YEAR_OF_BIRTH",0,'( ; 1915), [1915; 1915]',1,'(1915; 1920.5]',2,'(1
920.5; 1924.5]',3,'(1924.5; 1928.5]',4,'(1928.5; 1932.5]',5,'(1932.5; 1936.5]',6
.
.
.
8,'(1987.5; 1988.5]',29,'(1988.5; 1989.5]',30,'(1989.5;  )',NULL,'NULL')

42.1.8.40 IMPORT_MODELプロシージャ

このプロシージャは、1つ以上の機械学習のモデルをインポートします。このプロシージャはオーバーロードされています。ダンプ・ファイル・セットから複数の機械学習モデルをインポートするために呼び出すことも、PMML文書から単一の機械学習モデルをインポートするために呼び出すこともできます。

ダンプ・ファイル・セットからのインポート

EXPORT_MODELプロシージャで作成したダンプ・ファイル・セットから機械学習モデルをインポートできます。IMPORT_MODELおよびEXPORT_MODELでは、ダンプ・ファイル・セットへのエクスポートとダンプ・ファイル・セットからのインポートにOracle Data Pumpテクノロジが使用されています。

Oracle Data Pumpを直接使用してスキーマ全体またはデータベース全体をエクスポートまたはインポートすると、そのスキーマまたはデータベースの機械学習モデルが含められます。EXPORT_MODELおよびIMPORT_MODELでは、機械学習モデルのみがエクスポートおよびインポートされます。

PMMLからのインポート

Predictive Model Markup Language(PMML)で表現された機械学習モデルをインポートできます。モデルのタイプは、RegressionModel(線形回帰またはバイナリ・ロジスティック回帰)である必要があります。

PMMLは、Data Mining Group (https://dmg.org)によって策定されたXMLベースの規格です。PMMLに準拠しているアプリケーションは、任意のベンダーによって作成されたPMML準拠のモデルを配置できます。Oracle Machine Learning for SQLは、回帰のモデルに対してPMML 3.1のコア機能をサポートしています。

参照:

機械学習のモデルのインポートおよびエクスポートの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

Oracle Data Pumpの詳細は、『Oracle Databaseユーティリティ』を参照してください。

PMMLの詳細は、https://dmg.org/dmg-faq.htmlを参照してください。

構文

ダンプ・ファイル・セットからの機械学習モデルのインポート:

DBMS_DATA_MINING.IMPORT_MODEL (
      filename          IN  VARCHAR2,
      directory         IN  VARCHAR2,
      model_filter      IN  VARCHAR2 DEFAULT NULL,
      operation         IN  VARCHAR2 DEFAULT NULL,
      remote_link       IN  VARCHAR2 DEFAULT NULL,
      jobname           IN  VARCHAR2 DEFAULT NULL,
      schema_remap      IN  VARCHAR2 DEFAULT NULL,
      tablespace_remap  IN  VARCHAR2 DEFAULT NULL);

PMML文書からの機械学習モデルのインポート:

DBMS_DATA_MINING.IMPORT_MODEL (
      model_name        IN  VARCHAR2,
      pmmldoc           IN  XMLTYPE
      strict_check      IN  BOOLEAN DEFAULT FALSE);

パラメータ

表42-116 IMPORT_MODELプロシージャのパラメータ

パラメータ	説明
`filename`	モデルのインポート元のダンプ・ファイル・セットの名前。ダンプ・ファイル・セットは、`EXPORT_MODEL`プロシージャまたはOracle Data Pumpの`expdp`エクスポート・ユーティリティで作成されている必要があります。ダンプ・ファイル・セットには1つ以上のファイルを保存できます。(詳細は、「EXPORT_MODELプロシージャ」を参照)ダンプ・ファイル・セット内に複数のダンプ・ファイルが存在する場合は、ファイルを列挙するかわりに`'filename%U'`を指定できます。たとえば、ダンプ・ファイル・セット内に`archive01.dmp`、`archive02.dmp`、`archive03.dmp`という3つのダンプ・ファイルが存在する場合は、`'archive%U'`と指定してそれらのファイルをインポートできます。
`directory`	ダンプ・ファイル・セットの場所を指定する、事前定義済のディレクトリ・オブジェクトの名前。エクスポートするユーザーとインポートするユーザーには、このディレクトリ・オブジェクト、およびこのディレクトリ・オブジェクトによって指定されるファイル・システム・ディレクトリに対する読取り/書込みアクセス権が必要です。ノート: ターゲット・データベースにも、このファイル・システム・ディレクトリに対する読取り/書込みアクセス権が必要です。
`model_filter`	インポートする1つ以上のモデルを指定するパラメータ。`model_filter`の値を指定しない場合は、ダンプ・ファイル・セット内のすべてのモデルがインポートされます。また、`NULL`(デフォルト)または'ALL'を指定しても、すべてのモデルをインポートできます。 `model_filter`の値には、1つ以上のモデル名を指定できます。有効なフィルタは次のとおりです。 'mymodel1' 'name IN (''mymodel2'',''mymodel3'')' 1行目では、`IMPORT_MODEL`によって`mymodel1`という名前の1つのモデルがインポートされます。2行目では、`IMPORT_MODEL`によって2つのモデル(`mymodel2`および`mymodel3`)がインポートされます。
`operation`	モデルをインポートするか、モデルを作成するSQL文をインポートするかを指定するパラメータ(オプション)。デフォルトでは、モデルがインポートされます。 `operation`には、次のいずれかの値を指定できます。 `'IMPORT'`—モデルをインポートします(デフォルト)。 `'SQL_FILE'`— モデルを作成するSQL DDLをテキスト・ファイルに書き出します。テキスト・ファイルは、`job_name.sql`という名前が付けられ、ダンプ・セット・ディレクトリに保存されます。
`remote_link`	リモート・システムへのデータベース・リンクの名前を指定するオプション・パラメータ。デフォルト値は`NULL`です。データベース・リンクはローカル・データベースのスキーマ・オブジェクトであり、これを使用すると、リモート・データベース上のオブジェクトにアクセスできます。`remote_link`の値を指定することで、リモート・データベースからローカル・データベースへモデルをインポートできます。インポートはファイルなしで実行されます。つまり、ダンプ・ファイルの処理はありません。リモート・モデルのインポートには、`IMP_FULL_DATABASE`ロールが必要です。また、`EXP_FULL_DATABASE`権限、`CREATE DATABASE LINK`権限およびその他の権限が必要になることもあります。(例2を参照してください。)
`jobname`	インポート・ジョブの名前を指定するパラメータ(オプション)。デフォルトでは、`username_imp_nnnn`という形式の名前になります(`nnnn`は数字です)。たとえば、`SCOTT`スキーマ内のジョブ名は、`SCOTT_imp_134`のようになります。ジョブ名を指定する場合は、スキーマ内で一意の名前を指定する必要があります。ジョブ名の最大長は30文字です。インポート・ジョブのログ・ファイルが、`jobname.log`という名前で、ダンプ・ファイル・セットと同じディレクトリに作成されます。
`schema_remap`	別のスキーマにインポートするためのパラメータ(オプション)。デフォルトでは、モデルのエクスポートとインポートは同じスキーマ内で行われます。ダンプ・ファイル・セットが別のスキーマに属している場合は、`export_user`:`import_user`の形式でスキーマ・マッピングを指定する必要があります。たとえば、`SCOTT`によって`MARY`スキーマにエクスポートされたモデルをインポートする場合は、`'SCOTT:MARY'`と指定します。ノート: 別のスキーマからモデルをインポートする際に、`IMP_FULL_DATABASE`権限または`SYS`ロールが必要な場合があります。
`tablespace_remap`	別の表領域にインポートするためのパラメータ(オプション)。デフォルトでは、モデルのエクスポートとインポートは同じ表領域内で行われます。ダンプ・ファイル・セットが別の表領域に属している場合は、`export_tablespace`:`import_tablespace`の形式で表領域マッピングを指定する必要があります。たとえば、表領域`TBLSPC01`から表領域`TBLSPC02`にエクスポートされたモデルをインポートする場合は、`'TBLSPC01:TBLSPC02'`と指定します。ノート: 別の表領域からモデルをインポートする際に、`IMP_FULL_DATABASE`権限または`SYS`ロールが必要な場合があります。
`model_name`	PMMLからのインポートの結果としてデータベースに作成される新規モデルの名前。この名前は、ユーザーのスキーマ内で一意である必要があります。
`pmmldoc`	インポート対象のモデルを表現したPMML文書。PMML文書には、`XMLTYPE`オブジェクト・タイプが含まれます。詳細は、「XMLTYPE」を参照してください。
`strict_check`	PMML文書にコアPMMLの一部ではないセクション(たとえば、出力またはターゲット)が含まれる場合、エラーが発生するかどうか。OML4SQLは、コアPMMLのみをサポートしています。コア以外の機能は、スコアリング表現に影響する可能性があります。 PMMLがコアPMMLに厳密に準拠していないのに`strict_check`が`TRUE`に設定される場合、`IMPORT_MODEL`はエラーを戻します。strict_checkが`FALSE`(デフォルト)の場合、エラーは抑制されます。モデルをインポートしてスコアリングすることができます。

例

この例では、oml_user2スキーマ内でモデルのエクスポートとインポートを実行します。その後で、同じモデルをoml_user3スキーマにインポートします。oml_user3ユーザーには、IMP_FULL_DATABASE権限があります。oml_user2ユーザーにはUSER2表領域が割り当てられていて、oml_user3にはUSER3表領域が割り当てられています。

SQL> connect oml_user2
Enter password: oml_user2_password
Connected.
SQL> select model_name from user_mining_models;
 
MODEL_NAME
------------------------------
NMF_SH_SAMPLE
SVMO_SH_CLAS_SAMPLE
SVMR_SH_REGR_SAMPLE

-- export the model called NMF_SH_SAMPLE to a dump file in same schema
SQL>EXECUTE DBMS_DATA_MINING.EXPORT_MODEL (
            filename =>'NMF_SH_SAMPLE_out', 
            directory =>'DATA_PUMP_DIR', 
            model_filter => 'name = ''NMF_SH_SAMPLE''');

-- import the model back into the same schema
SQL>EXECUTE DBMS_DATA_MINING.IMPORT_MODEL (
            filename => 'NMF_SH_SAMPLE_out01.dmp',
            directory => 'DATA_PUMP_DIR', 
            model_filter => 'name = ''NMF_SH_SAMPLE''');

-- connect as different user
-- import same model into that schema
SQL> connect oml_user3
Enter password: oml_user3_password
Connected.
SQL>EXECUTE DBMS_DATA_MINING.IMPORT_MODEL (
            filename => 'NMF_SH_SAMPLE_out01.dmp', 
            directory => 'DATA_PUMP_DIR', 
            model_filter => 'name = ''NMF_SH_SAMPLE''',
            operation =>'IMPORT',  
            remote_link => NULL,
            jobname => 'nmf_imp_job',
            schema_remap => 'oml_user2:oml_user3',
            tablespace_remap => 'USER2:USER3');

この例では、ユーザーSCOTTが作成したダンプ・ファイルmodel_exp_001.dmpから、ユーザーMARYがすべてのモデルをインポートします。ユーザーMARYにはUSER2表領域が割り当てられており、ユーザーSCOTTには、モデルがダンプ・ファイルmodel_exp_001.dmpにエクスポートされたときに、USERS表領域が割り当てられました。ダンプ・ファイルはディレクトリ・オブジェクトDM_DUMPにマッピングされたファイル・システム・ディレクトリにあります。ユーザーMARYがIMP_FULL_DATABASE権限を持っていない場合は、IMPORT_MODELからエラーが戻されます。

-- import all models
DECLARE
  file_name  VARCHAR2(40);
BEGIN
  file_name := 'model_exp_001.dmp';
  DBMS_DATA_MINING.IMPORT_MODEL(
            filename=> 'file_name',
            directory=>'DM_DUMP',
            schema_remap=>'SCOTT:MARY', 
            tablespace_remap=>'USERS:USER2');
  DBMS_OUTPUT.PUT_LINE(
           'DBMS_DATA_MINING.IMPORT_MODEL of all models from SCOTT done!');
END;
/

この例は、ユーザーxuserが、リモート・データベースからモデルoml_user.r1modをインポートする方法を示しています。リモート・データベースのSQL*Net接続別名はR1DBです。ユーザーxuserにはSYSAUX表領域が割り当てられ、ユーザーoml_userにはTBS_1表領域が割り当てられます。

CONNECT / AS SYSDBA;
GRANT CREATE DATABASE LINK TO xuser; 
GRANT imp_full_database TO xuser;
CONNECT xuser/xuserpassword 
CREATE DATABASE LINK oml_user_link 
         CONNECT TO oml_user IDENTIFIED BY oml_userpassword USING 'R1DB';
EXEC dbms_data_mining.import_model (
    NULL, 
   'oml_user_DIR', 
   'R1MOD',
    remote_link => 'oml_user_LINK', schema_remap => 'oml_user:XUSER', 
                    tablespace_remap => 'TBS_1:SYSAUX' );
SELECT name FROM dm_user_models;
 
NAME
-----------------------------------------------------------------------------
R1MOD

この例では、ディレクトリ・オブジェクトPMMLDIRによって参照される場所から、現行ユーザーのスキーマにSamplePMML1.xmlというPMML文書をインポートする方法を示します。インポートされるモデルの名前は、PMMLMODEL1になります。
```
BEGIN    
    dbms_data_mining.import_model ('PMMLMODEL1',
        XMLType (bfilename ('PMMLDIR', 'SamplePMML1.xml'),
          nls_charset_id ('AL32UTF8')
        ));
END;
```

関連トピック

Oracle Database PL/SQLパッケージおよびタイプ・リファレンス

42.1.8.41 IMPORT_SERMODELプロシージャ

このプロシージャは、シリアライズされた形式のモデルをデータベースにインポートします。

インポート・ルーチンは、BLOBでシリアライズされたコンテンツと、そのコンテンツで作成するモデルの名前を受け取ります。このインポートでは、モデル詳細の問合せに必要なモデルのビューや表は作成されません。インポート・プロシージャには、モデルをスコアリングする機能のみが用意されています。

構文

DBMS_DATA_MINING.IMPORT_SERMODEL (
      model_data     IN BLOB,
      model_name     IN VARCHAR2,);

パラメータ

表42-117 IMPORT_SERMODELプロシージャのパラメータ

パラメータ	説明
`model_data`	`BLOB`形式のモデル・データを指定します。
`model_name`	機械学習モデルの名前(名前の形式は、[schema_name.]model_nameです)。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。

例

次の文は、シリアライズされた形式のモデルをインポートします。

declare
 v_blob blob;
BEGIN
 dbms_lob.createtemporary(v_blob, FALSE);
-- fill in v_blob from somewhere (e.g., bfile, etc.)
 dbms_data_mining.import_sermodel(v_blob, 'MY_MODEL');
 dbms_lob.freetemporary(v_blob);
END;
/

関連トピック

EXPORT_SERMODELプロシージャ

参照:

機械学習のモデルのインポートおよびエクスポートの詳細は、『Oracle Machine Learning for SQLユーザーズ・ガイド』を参照してください

42.1.8.42 IMPORT_ONNX_MODELプロシージャ

この手順を使用すると、ONNXモデルをデータベースにインポートできます。

構文

DBMS_DATA_MINING.IMPORT_ONNX_MODEL(
model_name  IN  VARCHAR2,
model_data  IN  BLOB,
metadata    IN  JSON);

パラメータ

表42-118 IMPORT_ONNX_MODELプロシージャのパラメータ

パラメータ	説明
`model_name`	`[schema_name.]model_name`の形式のモデル名。スキーマを指定しない場合は、ユーザー独自のスキーマが使用されます。
`model_data`	これはモデルのONNX表現を保持する`BLOB`です。この`BLOB`には、ONNXファイルに格納されているものと同じバイト・シーケンスが含まれています。
`metadata`	モデルを記述するメタデータのJSONによる記述。このメタデータには、モデルでサポートされている機械学習関数を少なくとも記述する必要があります。モデルのメタデータ・パラメータの詳細は、ONNXモデルのJSONメタデータ・パラメータを参照してください。

例

次の例は、DBMS_DATA_MINING.IMPORT_ONNX_MODELプロシージャを使用するコード・スニペットを示しています。ステップバイステップの完全な例は、「ONNXモデルのインポートおよび埋込みの生成」と「ONNXモデルをインポートするための代替方法」で示されています。

DBMS_DATA_MINING.IMPORT_ONNX_MODEL('my_embedding_model.onnx',
                                             :blob_bind_variable, 
                                              JSON('{"function" : "embedding", 
                                                     "embeddingOutput" : "embedding" ,
                                                      "input":{"input": ["DATA"]}}'));

BLOB変数を定義しそれをIMPORT_ONNX_MODELプロシージャで使用する方法を示す完全な例を次に示します:

CREATE OR REPLACE MY_LOAD_EMBEDDING_MODEL(embedding_model_name VARCHAR2, onnx_blob BLOB) IS 
BEGIN
DBMS_DATA_MINING.IMPORT_ONNX_MODEL(embedding_model_name,
                            onnx_blob, 
                            JSON('{"function" : "embedding", 
                                   "embeddingOutput" : "embedding" ,
                                   "input":{"input": ["DATA"]}}'));
END;
/

使用上のノート

モデルの名前は、次のような他の機械学習モデルで使用されるものと同じ制限に従います。

スキーマ名を指定する場合は、128文字に制限されます。
モデル名は123文字に制限されており、引用符なしの識別子のルールに従う必要があります。名前に使用できるのは、英数字、アンダースコア(_)、ドル記号($)およびシャープ記号(#)のみです。最初の文字は、英字にする必要があります。
モデルのサイズは1GBに制限されます。
モデルは外部イニシャライザに依存しないようにします。イニシャライザおよびその他のONNXの概念の詳細は、https://onnx.ai/onnx/intro/concepts.htmlを参照してください。

42.1.8.43 R拡張アルゴリズムのJSONスキーマ

このトピックは、Oracleオンプレミスにのみ適用されます。

このプロシージャは、R拡張性の柔軟性を提供するJSONスキーマに従ったJSONオブジェクトの作成に役立ちます。

使用上のノート

新しいJSONオブジェクトの作成時には、次のような柔軟性があります。

部分登録が可能です。たとえば、ディテール・ファンクションが欠落していてもかまいません。
様々な順序が可能です。たとえば、ビルド・ファンクションの前後にディテール・ファンクションを記述できます。

例42-1 JSONスキーマ

R拡張アルゴリズムのJSONスキーマ1.1は次のとおりです。

{
    "type": "object",
    "properties": {
        "algo_name_display": { "type" : "object",
                                               "properties" : {
                                               "language" : { "type" : "string",
                                                                       "enum" : ["English", "Spanish", "French"],
                                                                       "default" : "English"},
                                               "name" : { "type" : "string"}}
                                             },

        "function_language": {"type": "string" },
        "mining_function": {
                 "type" : "array",
                 "items" : [
                     { "type" : "object",
                        "properties" : {
                           "mining_function_name"  : { "type" : "string"},
                           "build_function": {  
                                   "type": "object",
                                   "properties": {
                                        "function_body": { "type": "CLOB" }
                                                        }
                                    },

        "detail_function": {  
                 "type" : "array",
                  "items" : [
                      {"type": "object",
                        "properties": {
                             "function_body": { "type": "CLOB" },
                             "view_columns": { "type" : "array",
                                                                   "items" : {
                                                                           "type" : "object",
                                                                           "properties" : {
                                                                               "name" : { "type" : "string"},
                                                                               "type" : { "type" : "string",
                                                                                               "enum" : ["VARCHAR2",
                                                                                                                "NUMBER",
                                                                                                                "DATE",
                                                                                                                "BOOLEAN"]
                                                                                             }
                                                                            }
                                                          }
                                            }
                                 }
                     ]
        },

       "score_function": {  
                 "type": "object",
                 "properties": {
                       "function_body": { "type": "CLOB" }
                        }
                 },
        "weight_function": {
                        "type": "object",
                        "properties": {
                            "function_body": { "type": "CLOB" },
                        }
                 }
                               }
           }]
        },  

       "algo_setting": {
                "type" : "array",
                "items" : [
                    { "type" : "object",
                       "properties" : {
                          "name"              : { "type" : "string"},
                          "name_display": { "type" : "object",
                                                         "properties" : {
                                                         "language" : { "type" : "string",
                                                                                 "enum" : ["English", "Spanish", "French"],
                                                                                 "default" : "English"},
                                                         "name" : { "type" : "string"}}
                                                      },
                          "type" : { "type" : "string",
                                          "enum" : ["string", "integer", "number", "boolean"]},

                          "optional": {"type" : "BOOLEAN",
                                               "default" : "FALSE"},
   
                          "value" : { "type" :  "string"},  

                          "min_value" : { "type": "object",
                                                      "properties": {
                                                            "min_value": {"type": "number"},
                                                             "inclusive": { "type": "boolean",
                                                                                   "default" : TRUE},
                                                       }
                                                  },
                           "max_value" : {"type": "object",
                                                     "properties": {
                                                          "max_value": {"type": "number"},
                                                          "inclusive": { "type": "boolean",
                                                                                 "default" : TRUE},
                                                            }
                                                    },

                          "categorical choices" : { "type": "array",
                                                                  "items": {
                                                                      "type": "string"
                                                                   }
                                                               },

                          "description_display": { "type" : "object",
                                                                  "properties" : {
                                                                  "language" : { "type" : "string",
                                                                                          "enum" : ["English", "Spanish", "French"],
                                                                                          "default" : "English"},
                                                                  "name" : { "type" : "string"}}
                                                               }
                        }
                    }
                 ]
          }    
    }
}

例42-2 JSONオブジェクトの例

次に、登録プロシージャに渡す必要があるJSONオブジェクトの例を示します。

{  "algo_name_display"   :     {"English", "t1"},
                         "function_language"    :      "R",
                         "mining_function" : {
  "mining_function_name" : "CLASSIFICATION",
                         "build_function" : {"function_body": "function(dat, formula, family) {																							                                          set.seed(1234);
                                          mod <- glm(formula = formula, data=dat,
                                                      family= eval(parse(text=family))); mod}"},                                        
           "score_function" :  { "function_body": "function(mod, dat) {
                                             res <- predict(mod, newdata = dat, type=''response																										'');
                                             res2=data.frame(1-res, res); res2}"}}
                          },
                          "algo_setting" :   [{"name"                : "dbms_data_mining.odms_m																																																																	issing_value_treatment",
                            "name_display"   : {"English", "dbms_data_mining.odms_missing_value									_treatment"},
                            "type"                  : "string",
                            "optional"            :  "TRUE",
                            "value"                : "dbms_data_mining.odms_missing_value_mean_mode",
                            "categorical choices"   : [    "dbms_data_mining.odms_missing_value_mean_mode",
                                                                         "dbms_data_mining.odms_missing_value_auto",
                                                                         "dbms_data_mining.odms_missing_value_delete_row"],
                            "description"                : {"English",
                                                                     "how to treat missing values"}
                         },
                                                       {"name"                : "RALG_PARAMETER_FAMILY",
                            "name_display"   : {"English", "RALG_PARAMETER_FAMILY"},
                            "type"                  : "string",
                            "optional"            :  "TRUE",
                            "value"                :  "",
                            "description"       : {"English", "R family parameter in build function"}
                         }
],
                        }

42.1.8.44 REGISTER_ALGORITHMプロシージャ

このトピックは、Oracleオンプレミスにのみ適用されます。

このファンクションは、アルゴリズム名や機械学習ファンクションなどアルゴリズム・メタデータを指定することで新しいアルゴリズムを登録するために使用します。

構文

 DBMS_DATA_MINING.REGISTER_ALGORITHM (
                     algorithm_name           IN VARCHAR2,
                     algorithm_metadata       IN CLOB,
                     algorithm_description    IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-119 REGISTER_ALGORITHMプロシージャのパラメータ

パラメータ	説明
`algorithm_name`	アルゴリズムの名前。
`algorithm_metadata`	アルゴリズムのメタデータ。
`algorithm_description`	アルゴリズムの説明

使用上のノート

登録プロシージャの実行内容は次のとおりです。

algorithm_metadataが正しいJSON構文かどうかを確認します。
入力JSONオブジェクトが事前定義済のJSONスキーマに準拠しているかどうかを確認します。
現行ユーザーにRQADMIN権限があるかどうかを確認します。
同じアルゴリズムが2回登録されないように、アルゴリズムの重複を確認します。
欠落しているエントリがないか確認します。たとえば、アルゴリズム名、アルゴリズム・タイプ、メタデータおよびビルド・ファンクションなど。

JSONオブジェクト作成後のアルゴリズムの登録

SQLユーザーは、JSONスキーマに従ってJSONオブジェクトを作成して、そのオブジェクトをREGISTER_ALGORITHMプロシージャに渡すことで新しいアルゴリズムを登録できます。

BEGIN
  DBMS_DATA_MINING.register_algorithm(
    algorithm_name                 =>   't1',
    algorithm_metadata            =>
    '{"function_language" : "R",
      "mining_function" :
        { "mining_function_name" : "CLASSIFICATION",
           "build_function" : {"function_body": "function(dat, formula, family) { set.seed(1234);
                                          mod <- glm(formula = formula, data=dat,  
                                                              family=eval(parse(text=family))); mod}"},                                        
           "score_function" :  {"function_body": "function(mod, dat) {
                                             res <- predict(mod, newdata = dat, type=''response'');
                                             res2=data.frame(1-res, res); res2}"}}
    }',
    algorithm_description  => 't1');
END;
/

42.1.8.45 RANK_APPLYプロシージャ

このプロシージャは、予測モデルまたは記述モデルをデータに適用した結果(APPLY結果)を上位N番までのフィルタに基づいてランク付けします。

分類モデルの場合は、このプロシージャへの入力パラメータとしてコスト・マトリックスを指定すると、予測のコストを反映したランク付けされた結果が得られます。

構文

DBMS_DATA_MINING.RANK_APPLY (
      apply_result_table_name        IN VARCHAR2,
      case_id_column_name            IN VARCHAR2,
      score_column_name              IN VARCHAR2,
      score_criterion_column_name    IN VARCHAR2,
      ranked_apply_table_name        IN VARCHAR2,
      top_N                          IN NUMBER (38) DEFAULT 1,
      cost_matrix_table_name         IN VARCHAR2    DEFAULT NULL,
      apply_result_schema_name       IN VARCHAR2    DEFAULT NULL,
      cost_matrix_schema_name        IN VARCHAR2    DEFAULT NULL);

パラメータ

表42-120 RANK_APPLYプロシージャのパラメータ

パラメータ	説明
`apply_result_table_name`	テスト・データ・セットに対する`APPLY`操作の結果を保存した表またはビューの名前(「使用上のノート」を参照)。
`case_id_column_name`	ケースID列の名前。これは適用(`APPLY`)結果の作成時に使用したものと同じである必要があります。
`score_column_name`	適用結果表の予測列の名前。
`score_criterion_column_name`	適用結果表の確率列の名前。
`ranked_apply_result_tab_name`	ランク付けされた適用結果が保存される表の名前。
`top_N`	上位N番までが、精密なリコール計算の`APPLY`結果によって予測されます。
`cost_matrix_table_name`	コスト・マトリックス表の名前。
`apply_result_schema_name`	`APPLY`の適用結果表に適用されるスキーマの名前。
`cost_matrix_schema_name`	コスト・マトリックス表に適用されるスキーマの名前。

使用上のノート

RANK_APPLYを使用すると、上位N番までのフィルタに基づいてランク付けされた適用結果を作成できます。また、モデルがコスト付きで作成されている場合は、予測のコストを反映した結果が得られます。

CREATE_MODEL、DROP_MODEL、RENAME_MODELなどの他のDDL操作の観点から見ると、RANK_APPLYの動作はAPPLYの動作と似ています。このプロシージャはモデルには依存しませんが、ここで重要となる入力パラメータは、APPLYによって固定スキーマ表に出力される適用結果のみです。

RANK_APPLYの主な使用目的は、本番環境においてモデルをスコアリング・データに適用(APPLY)して、最終的な適用結果を作成することです。APPLYを使用してテスト・データにモデルを適用し、様々なコスト・マトリックス表に対するテスト指標値を計算した後、最適なコスト・マトリックスをRANK_APPLYへの入力として指定できます。

以降の項では、サポートされる個々のアルゴリズムにおいて、適用結果が保存される表のスキーマを示します。case_id列の値は、適用結果のケースID列と同じ値になります。

分類モデル — NBおよびSVM

量的ターゲットの場合、ランク付けされた適用結果は次の定義を持つ表に保存されます。

(case_id       VARCHAR2/NUMBER,
prediction     NUMBER,
probability    NUMBER,
cost           NUMBER,
rank           INTEGER)

質的ターゲットの場合、ランク付けされた適用結果は次の定義を持つ表に保存されます。

(case_id       VARCHAR2/NUMBER,
prediction     VARCHAR2,
probability    NUMBER,
cost           NUMBER,
rank           INTEGER)

k-MeansまたはO-Clusterを使用するクラスタリング

クラスタリングは教師なしの機械学習ファンクションであるため、ターゲットは存在しません。APPLY操作の結果は、単にケースに対応するクラスタ識別子と、ケースの確率のみです。コスト・マトリックスはここでは考慮されません。ランク付けされた適用結果は次の定義を持つ表に保存され、この表には、top-Nによってランク付けされたクラスタ識別子が含まれます。

(case_id       VARCHAR2/NUMBER,
cluster_id     NUMBER,
probability    NUMBER,
rank           INTEGER)

NMFを使用する特徴抽出

特徴抽出も教師なしの機械学習ファンクションです。そのため、ターゲットは存在しません。APPLY操作の結果は、単にケースに対応する機能識別子と、ケースの一致率のみです。コスト・マトリックスはここでは考慮されません。ランク付けされた適用結果は次の定義を持つ表に保存され、この表には、top-Nによってランク付けされた機能識別子が含まれます。

(case_id        VARCHAR2/NUMBER,
feature_id      NUMBER,
match_quality   NUMBER,
rank            INTEGER)

例

BEGIN
/* build a model with name census_model.
 * (See example under CREATE_MODEL)
 */ 

/* if training data was pre-processed in any manner,
 * perform the same pre-processing steps on apply
 * data also.
 * (See examples in the section on DBMS_DATA_MINING_TRANSFORM)
 */

/* apply the model to data to be scored */
DBMS_DATA_MINING.RANK_APPLY(
  apply_result_table_name       => 'census_apply_result',
  case_id_column_name           => 'person_id',
  score_column_name             => 'prediction',
  score_criterion_column_name   => 'probability
  ranked_apply_result_tab_name  => 'census_ranked_apply_result',
  top_N                         => 3,
  cost_matrix_table_name        => 'census_cost_matrix');
END;
/

-- View Ranked Apply Results
SELECT *
  FROM census_ranked_apply_result;

42.1.8.46 REMOVE_COST_MATRIXプロシージャ

REMOVE_COST_MATRIXは、分類モデルからデフォルトのスコアリング・マトリックスを削除します。

参照:

構文

DBMS_DATA_MINING.REMOVE_COST_MATRIX (
      model_name   IN  VARCHAR2);

パラメータ

表42-121 Remove_Cost_Matrixプロシージャのパラメータ

パラメータ	説明
`model_name`	[schema_name.]model_nameの形式のモデル名。スキーマを指定しない場合は、独自のスキーマが使用されます。

使用上のノート

モデルが自分のスキーマ内にない場合、REMOVE_COST_MATRIXには、ALTER ANY MINING MODELシステム権限か、その機械学習モデルに対するALTERオブジェクト権限が必要になります。

例

Naive BayesモデルのNB_SH_CLAS_SAMPLEには、モデルのスコアリングに使用できるコスト・マトリックスが関連付けられています。

SQL>SELECT *
      FROM TABLE(dbms_data_mining.get_model_cost_matrix('nb_sh_clas_sample'))
      ORDER BY predicted, actual;
 
ACTUAL     PREDICTED        COST
---------- ---------- ----------
0          0                   0
1          0                 .75
0          1                 .25
1          1                   0

REMOVE_COST_MATRIXを使用すると、コスト・マトリックスを削除できます。

SQL>EXECUTE dbms_data_mining.remove_cost_matrix('nb_sh_clas_sample');

SQL>SELECT *
      FROM TABLE(dbms_data_mining.get_model_cost_matrix('nb_sh_clas_sample'))
      ORDER BY predicted, actual;

no rows selected

42.1.8.47 RENAME_MODELプロシージャ

このプロシージャは、model_nameで指定した機械学習モデルの名前をnew_model_nameで指定した名前に変更します。

new_model_nameという名前のモデルがすでに存在する場合、プロシージャは、オプションでnew_model_nameをversioned_model_nameに変更してから、model_nameをnew_model_nameに変更します。

モデル名は、[schema_name.]model_nameの形式です。スキーマを指定しない場合は、独自のスキーマが使用されます。機械学習モデルのネーミングの制限は、「CREATE_MODELプロシージャ」の「使用上のノート」を参照してください。

構文

DBMS_DATA_MINING.RENAME_MODEL (
     model_name            IN VARCHAR2,
     new_model_name        IN VARCHAR2,
     versioned_model_name  IN VARCHAR2 DEFAULT NULL);

パラメータ

表42-122 RENAME_MODELプロシージャのパラメータ

パラメータ	説明
`model_name`	名前を変更するモデル
`new_model_name`	モデル`model_name`の新規の名前
`versioned_model_name`	モデル`new_model_name`がすでに存在する場合の新規の名前

使用上のノート

モデルの適用中にそのモデルの名前を変更しようとした場合、名前は変更されますが、適用操作からは不確定な結果が戻されます。

例

次の例では、census_modelというモデルの名前がcensus_model_2012に変更されます。

BEGIN
  DBMS_DATA_MINING.RENAME_MODEL(
    model_name      => 'census_model',
    new_model_name  => 'census_model_2012');
END;
/

次の例には、ユーザーのスキーマに作業モデルclas_modとテスト・モデルclas_mod_tstの2つの分類モデルがあります。RENAME_MODELプロシージャは、clas_modをclas_mod_oldとして保持し、テスト・モデルを新しい作業モデルにします。

SELECT model_name FROM user_mining_models;
MODEL_NAME
-------------------------------------------------------------------
CLAS_MOD
CLAS_MOD_TST

BEGIN
  DBMS_DATA_MINING.RENAME_MODEL(
    model_name            => 'clas_mod_tst',
    new_model_name        => 'clas_mod',
    versioned_model_name  => 'clas_mod_old');
END;
/

SELECT model_name FROM user_mining_models;
MODEL_NAME
-------------------------------------------------------------------
CLAS_MOD
CLAS_MOD_OLD