4.4 モデルへの変換の組込み
モデルに適用される変換の例。
独自の変換を指定してモデルに組み込むには、変換リストを作成してDBMS_DATA_MINING.CREATE_MODELに渡します。
PROCEDURE create_model(
model_name IN VARCHAR2,
mining_function IN VARCHAR2,
data_table_name IN VARCHAR2,
case_id_column_name IN VARCHAR2,
target_column_name IN VARCHAR2 DEFAULT NULL,
settings_table_name IN VARCHAR2 DEFAULT NULL,
data_schema_name IN VARCHAR2 DEFAULT NULL,
settings_schema_name IN VARCHAR2 DEFAULT NULL,
xform_list IN TRANSFORM_LIST DEFAULT NULL);4.4.1 属性の変換指示の指定
属性の変換指示とは何か、および変換レコード内のフィールドについて説明します。
変換リストは、変換レコードの表として定義されます。各レコード(transform_rec)は、属性の変換指示を指定します。
TYPE transform_rec IS RECORD (
attribute_name VARCHAR2(30),
attribute_subname VARCHAR2(4000),
expression EXPRESSION_REC,
reverse_expression EXPRESSION_REC,
attribute_spec VARCHAR2(4000));
変換レコードのフィールドについては、この表で説明します。
表4-2 属性の変換レコードのフィールド
関連トピック
4.4.1.1 式のレコード
変換レコードの例。
変換レコードの変換式は、expression_recオブジェクトです。
TYPE expression_rec IS RECORD (
lstmt DBMS_SQL.VARCHAR2A,
lb BINARY_INTEGER DEFAULT 1,
ub BINARY_INTEGER DEFAULT 0);
TYPE varchar2a IS TABLE OF VARCHAR2(32767)
INDEX BY BINARY_INTEGER;
lstmtフィールドには、VARCHAR2A (変換式をVARCHAR2の複数の行に分割できるため、非常に長い変換式を使用可能)が格納されます。expression_recを作成するには、DBMS_DATA_MINING_TRANSFORM.SET_EXPRESSIONを使用します。
4.4.1.2 属性指定
属性指定を通じて属性に固有の特性を定義する方法を説明します。
変換レコードの属性指定は、この属性に固有の特性を定義します。NULLである場合を除き、属性指定にはFORCE_IN、NOPREPまたはTEXTの値を含めることができます(表4-2を参照)。
例4-1 複数のキーワードを使用した属性指定
複数の属性指定キーワードが適用可能な場合、カンマ区切りリストで指定できます。次の式は、GLMモデルでの属性の指定です。ftr_selection_enable設定が有効な場合、この式によって、属性がモデルに強制的に含まれます。ADPが有効な場合、属性の自動変換は実行されません。
"FORCE_IN,NOPREP"
例4-2 テキスト属性指定
テキスト属性の場合、必要に応じてPOLICY_NAME、TOKEN_TYPEおよびMAX_FEATURESのサブ設定を指定できます。サブ設定は、テキスト変換に固有の構成情報を提供します。次の例では、テキスト内容に対する変換指示がmy_policyというテキスト・ポリシーで定義され、トークン・タイプとしてTHEMEが指定されます。抽出した特徴の最大数は3000です。
"TEXT(POLICY_NAME:my_policy)(TOKEN_TYPE:THEME)(MAX_FEATURES:3000)"
関連トピック
4.4.2 変換リストの作成
変換リストを作成する方法をリストします。
変換リストは、変換レコードの集合です。新しい変換レコードを追加すると、変換リストの一番上に追加されます。変換リストを作成する場合は、次の手法のいずれかを使用できます。
-
DBMS_DATA_MINING_TRANSFORMのSET_TRANFORMプロシージャ -
DBMS_DATA_MINING_TRANSFORMのSTACKインタフェース -
DBMS_DATA_MININGのGET_MODEL_TRANSFORMATIONSファンクションおよびGET_TRANSFORM_LISTファンクション
4.4.2.1 SET_TRANSFORM
SET_TRASFORMプロシージャについて説明します。
SET_TRANSFORMプロシージャは、1つの変換レコードを変換リストに追加します。
DBMS_DATA_MINING_TRANSFORM.SET_TRANSFORM (
xform_list IN OUT NOCOPY TRANSFORM_LIST,
attribute_name VARCHAR2,
attribute_subname VARCHAR2,
expression VARCHAR2,
reverse_expression VARCHAR2,
attribute_spec VARCHAR2 DEFAULT NULL);
SET_TRANSFORMを使用して指定するSQL式は、VARCHAR2に収まる必要があります。より長い式を指定するには、VARCHAR2配列に行を追加することにより式を作成するSET_EXPRESSIONを使用します。
4.4.2.2 STACKインタフェース
STACKインタフェースの役割について理解します。
STACKインタフェースは、変換指示の表から変換レコードを作成し、変換リストに追加します。
STACKインタフェースは、指定したタイプの属性のすべてまたは一部を同じ方法で変換する必要があることを指定します。たとえば、STACK_BIN_CATは、質的属性のビニング指示を変換リストに追加します。STACKインタフェースは、次の3つのステップで構成されます。
-
CREATEプロシージャにより、変換定義表を作成します。たとえば、CREATE_BIN_CATは、質的ビニングの指示を保持する表を作成します。この表には、属性の名前、属性の値および値のビン割当てを格納するための列があります。 -
INSERTプロシージャにより、1つ以上の属性のビン境界を計算し、定義表を移入します。たとえば、INSERT_BIN_CAT_FREQは、データ・ソースの一部またはすべての質的属性に対して頻度ベースのビニングを実行し、CREATE_BIN_CATにより作成された表を移入します。 -
STACKプロシージャにより、定義表の情報から変換レコードを作成し、その変換レコードを変換リストに追加します。たとえば、STACK_BIN_CATは、質的ビニングの定義表に格納されている情報に対する変換レコードを作成し、その変換レコードを変換リストに追加します。
4.4.2.3 GET_MODEL_TRANSFORMATIONSおよびGET_TRANSFORM_LIST
ファンクションを使用して、新しい変換リストを作成します。
これら2つのファンクションは、既存のモデルに組み込まれている変換から新しい変換リストを作成する場合に使用できます。
GET_MODEL_TRANSFORMATIONSファンクションは、組み込まれた変換のリストを戻します。
DBMS_DATA_MINING.GET_MODEL_TRANSFORMATIONS (
model_name IN VARCHAR2)
RETURN DM_TRANSFORMS PIPELINED;
GET_MODEL_TRANSFORMATIONSは、dm_transformオブジェクトの表を戻します。各dm_transformは、次のフィールドを持ちます。
attribute_name VARCHAR2(4000) attribute_subname VARCHAR2(4000) expression CLOB reverse_expression CLOB
変換リストの構成要素は、dm_transformではなく、transform_recです。transform_recのフィールドについては、表4-2で説明しています。GET_MODEL_TRANSFORMATIONSをコールして、dm_transformオブジェクトのリストをtransform_recオブジェクトに変換し、各transform_recを変換リストに追加することができます。
DBMS_DATA_MINING.GET_TRANSFORM_LIST (
xform_list OUT NOCOPY TRANSFORM_LIST,
model_xforms IN DM_TRANSFORMS);関連項目:
『Oracle Database PL/SQLパッケージおよびタイプ・リファレンス』のDBMS_DATA_MINING_TRANSFORM操作上の注意点に関する項、SET_TRANSFORMプロシージャに関する項、CREATE_MODELプロシージャに関する項およびGET_MODEL_TRANSFORMATIONSファンクションに関する項
4.4.3 変換リストおよび自動データ準備
自動データ準備(ADP)を有効にして変換リストを指定した場合の動作について理解します。
ADPを有効化し、変換リストを指定すると、その変換リストがシステムによって生成された自動の変換とともに組み込まれます。変換リストは、自動変換の前に実行されます。
ADPを有効化し、変換リストを指定しないと、自動変換のみがモデルに組み込まれます。
ADPを無効化し(デフォルト)、変換リストを指定すると、カスタム変換がモデルに組み込まれます。自動変換は実行されません。
ADPを無効化し(デフォルト)、変換リストを指定しないと、モデルには変換が組み込まれません。この場合、必要に応じてトレーニング・データセット、テスト・データセットおよびスコアリング・データセットを独自に変換する必要があります。各データセットには同じ変換を適用してください。
4.4.4 Oracle Machine Learning for SQLの変換ルーチン
変換ルーチンについて説明します。
OML4SQLには、DBMS_DATA_MINING_TRANSFORMパッケージの様々な変換手法を実装するルーチンが用意されています。
関連トピック
4.4.4.1 ビニング・ルーチン
OML4SQLにおけるビニング手法について説明します。
ビニング計画の決定には、多数の要因が関与します。通常、値の数を少なくするとモデルがコンパクトになり、短時間でモデルを作成できるようになりますが、精度が低下する可能性もあります。
ビンの境界を適切に選択すると、モデルの質が大幅に向上する場合があります。たとえば、年齢をビンに分ける適切な手段としては、0から13は子供、13から19は10代、19から24は青年、24から35は社会人、などのように、対象とするグループに分割する方法があります。
次の表に、OML4SQLで提供されているビニングの手法を示します。
表4-3 DBMS_DATA_MINING_TRANSFORMのビニング手法
関連トピック
4.4.4.2 正規化ルーチン
Oracle Machine Learning for SQLにおける正規化ルーチンについて説明します。
正規化のほとんどの手法では、1つの属性の範囲を別の範囲(通常は0から1または-1から+1)にマップします。
正規化は外れ値に対して非常に敏感です。外れ値の処理をしない場合、値の多くがきわめて小さな範囲にマップされ、情報の多くが失われてしまいます。
関連トピック
4.4.4.3 外れ値の処理のルーチン
外れ値の処理に使用される変換について理解します。
外れ値は極端な値であり、通常は平均値から標準偏差の数倍離れた値のことを指します。外れ値の影響を最小限に抑えるには、データをウィンザライズするかトリミングします。
ウィンザライズでは、属性の両端の値を特定の指定値に設定します。たとえば、ウィンザライズを90%とする場合、値の下位5%は5パーセンタイルの最小値と同じ値に設定され、値の上位5%は95パーセンタイルの最大値に一致する値に設定されます。
トリミングでは、末端値をNULLに設定します。これらの値はアルゴリズムで欠損値として処理されます。
外れ値が及ぼす影響はアルゴリズムによって異なります。通常、外れ値は、等幅ビニングおよびmin-max正規化において歪みを生じさせます。