データ要件

3.1 データ要件

Oracle Machine Learningのデータを格納および表示する方法について理解します。

機械学習操作では、1つの表またはビュー内で定義されたデータが必要です。各レコードの情報は別個の行に格納する必要があります。このデータ・レコードは一般的にケースと呼ばれます。各ケースは、必要に応じて一意のケースIDで識別されます。表またはビュー自体は、ケース表と呼ばれます。

機械学習に使用できる表の例として、SHスキーマのCUSTOMERS表があります。各顧客のすべての情報は、1つの行に格納されています。CUST_ID列にケースIDが格納されます。次の例に示されている行は、SH.CUSTOMERSから選択されています。

ノート:

Oracle Machine Learningでは、ネイティブ・トランザクショナル・データで構築できる相関モデルを除き、すべての種類のモデルに単一レコード・ケースのデータが必要です。

例3-1 ケース表の例

select cust_id, cust_gender, cust_year_of_birth, 
           cust_main_phone_number from sh.customers where cust_id < 11;

出力内容は次のようになります。


CUST_ID CUST_GENDER CUST_YEAR_OF_BIRTH CUST_MAIN_PHONE_NUMBER
------- ----------- ---- ------------- -------------------------
1        M               1946          127-379-8954
2        F               1957          680-327-1419
3        M               1939          115-509-3391
4        M               1934          577-104-2792
5        M               1969          563-667-7731
6        F               1925          682-732-7260
7        F               1986          648-272-6181
8        F               1964          234-693-8728
9        F               1936          697-702-2618
10       F               1947          601-207-4099

列のデータ型
ケース表の列データの様々なタイプについて理解しましょう。
ベクトル・データ型
VECTORデータをOracle Machine Learningのデータベース内アルゴリズムへの入力として指定し、他の構造化データを補完したり、単独で使用することができます。ベクトル・データ型は、クラスタリング、分類、異常検出および特徴抽出でサポートされています。
分類および回帰用のデータセット
モデルのトレーニングおよびテストの場合のデータセットの使用方法を理解しましょう。
スコアリング要件
Oracle Machine Learning for SQLでのスコアリングの実行方法を学習します。

関連トピック

マーケット・バスケット・データの使用

親トピック: データの準備

3.1.1 列のデータ型

ケース表の列データの様々なタイプについて理解します。

ケース表の列には、各ケースを説明する属性が含まれます。例3-1で、属性はCUST_GENDER、CUST_YEAR_OF_BIRTHおよびCUST_MAIN_PHONE_NUMBERです。属性は、教師ありモデルの予測子または教師なしモデルの記述子です。ケースIDのCUST_IDは、特別な属性として表示できます(これは予測子または記述子ではありません)。

OML4SQLでは、DATE、TIMESTAMP、RAWおよびLONGを除く、標準のOracleデータ型がサポートされています。Oracle Machine Learningでは、テキスト列として解釈されるcase_id、CLOB/BLOB/FILEの日付型(日時、日付、タイムスタンプ)と、次のコレクション型もサポートされています。

DM_NESTED_CATEGORICALS
DM_NESTED_NUMERICALS
DM_NESTED_BINARY_DOUBLES
DM_NESTED_BINARY_FLOATS

ノート:

データ型がBOOLEANの属性は、次の値を持つ数値として処理されます。TRUEは1、FALSEは0を意味し、NULLは不明な値として解釈されます。CASE_ID_COLUMN_NAME属性では、BOOLEANデータ型はサポートされていません。

関連トピック

親トピック: データ要件

3.1.2 ベクトル・データ型

VECTORデータをOracle Machine Learningのデータベース内アルゴリズムへの入力として指定し、他の構造化データを補完したり、単独で使用することができます。ベクトル・データ型は、クラスタリング、分類、異常検出および特徴抽出でサポートされています。

任意の精度および次元を持つ密ベクトルはサポートされますが、フレックス・ベクトル列では精度が異なる場合があり、単一のベクトル列内の次元は一貫性が保たれている必要があります。次元が一致しない場合は、エラーが発生します。

パーティション・モデルでは、パーティション統計とともにベクトルの次元を追跡します。パーティションごとに異なるベクトルの次元を持つことができますが、次元は単一のパーティション内で一貫性が保たれている必要があります。単一のパーティション内で次元が一致しない場合は、エラーが発生します。

システムでは、データ型としてFLOAT32、FLOAT64およびINT8がサポートされています。FLEX次元および精度を持つベクトルがサポートされています。これらの機能は、OMLでサポートされている他のデータ型(数値、カテゴリ、ネストおよびテキスト)と組み合せて使用できます。

ベクトルによるスコアリング

システムは各ベクトルの次元を個々の予測子として扱い、DM$$VECxxxというラベルが付いたベクトル・コンポーネント・レベルでモデル詳細を提供します。ここで、xxxはコンポーネントの位置を表します。たとえば、DM$$VEC1です。スコアリング中のコンパイル時または実行時にモデルと入力データの間のベクトルの次元が照合され、不一致が発生するとエラーになります。ベクトルをターゲットまたはcase_id列にすることはできません。ベクトルをターゲットまたはcase_idとして設定すると、エラーが発生します。

次のものはシステムでサポートされません:

ベクトルを使用した分析スコアリング。分析スコアリング演算子では、エラーが表示されずにベクトル入力がスキップされます。
スパース・ベクトル。スパース・ベクトルが識別されると、形式がサポートされないというエラーが発生します。スパース・ベクトルの詳細は、VECTORデータ型を使用した表の作成を参照してください。
バイナリ・ベクトルの精度。フォーマットがサポートされていないというエラーが発生します

OMLでは、次のアルゴリズムおよびスコアリング演算子でベクトル・データ型がサポートされます:

手法	アルゴリズム	スコアリング演算子
分類または回帰	SVM、ニューラル・ネットワーク、GLM	`PREDICTION`、`PREDICTION_PROBABILITY`、`PREDICTION_SET`、`PREDICTION_BOUNDS`
異常検出	1クラスSVM、期待値の最大化	`PREDICTION`、`PREDICTION_PROBABILITY`、`PREDICTION_SET`
クラスタリング	k-Means、期待値の最大化	`CLUSTER_ID`、`CLUSTER_PROBABILITY`、`CLUSTER_SET`、`CLUSTER_DISTANCE`
特徴抽出	SVD、PCA	`FEATURE_ID`、`FEATURE_VALUE`、`FEATURE_SET`、`VECTOR_EMBEDDING`

詳細は、「例: ベクトル・データを使用した次元の削減およびクラスタリング」を参照してください。

親トピック: データ要件

3.1.3 分類および回帰用のデータ・セット

モデルのトレーニングおよびテストに対するデータセットの使用方法について理解します。

分類モデルと回帰モデルを作成して検証するには、ケース表が2つ必要です。1つの行セットはモデルのトレーニング用、もう1つの行セットはモデルのテスト用に使用されます。作成データおよびテスト・データは多くの場合、同じデータ・セットから導出すると便利です。たとえば、モデルのトレーニング用に行の60%をランダムに選択し、残りの40%をモデルのテストに使用できます。

その他の機械学習機能を実装するモデル(属性評価、クラスタリング、相関または特徴抽出)では、別個のテスト・データは使用しません。

親トピック: データ要件

3.1.4 スコアリング要件

Oracle Machine Learning for SQLでスコアリングを実行する方法を学習します。

機械学習モデルの多くは、スコアリングと呼ばれるプロセスで別個のデータに適用できます。Oracle Machine Learning for SQLでは、分類、回帰、異常検出、クラスタリングおよび特徴抽出のスコアリング操作をサポートします。

スコアリング・プロセスでは、スコアリング・データ内の列名と、モデルの作成に使用された列の名前とがマッチングされます。スコアリング・プロセスでは、スコアリング・データ内にすべての列が存在している必要はありません。データ型が一致しない場合、OML4SQLでは型の強制が試行されます。たとえば、PRODUCT_RATINGという列がトレーニング・データ内ではVARCHAR2型であるのに対し、スコアリング・データ内ではNUMBER型である場合、OML4SQLでは実際にはTO_CHAR()関数が適用され、スコアリング・データ内の列の型が変換されます。

テスト・データまたはスコアリング・データ内の列には、作成データ内の対応する列と同じ変換を行う必要があります。たとえば、作成データ内のAGE列が数値から値CHILD、ADULTおよびSENIORに変換された場合、スコアリング・データ内のAGE列にも同じ変換を実行して、モデルが適切に評価できるようにする必要があります。

ノート:

OML4SQLでは、ユーザーが指定した変換指示をモデルに組み込んで、モデルの適用時は常にその変換指示が再適用されるようにすることが可能です。変換指示がモデルに組み込まれているときは、テスト・データセットまたはスコアリング・データセットに対してその変換指示を指定する必要はありません。

OML4SQLは、自動データ準備(ADP)もサポートしています。ADPを有効にすると、アルゴリズムで必要とされる変換が自動的に実行され、ユーザーが指定した変換とともにモデル内に組み込まれます。