自動データ準備

4.4 自動データ準備

ほとんどのアルゴリズムでは、なんらかの形のデータ変換が必要となります。Oracle Machine Learning for SQLは、モデルの作成プロセス時にアルゴリズムで必要とされる変換を自動的に実行できます。

ユーザーは、この自動変換に独自の変換を追加したり、すべての変換を独自に管理できます。

自動変換を計算する際、OML4SQLでは、ヒューリスティックを使用して特定のアルゴリズムの一般的な要件に対処します。多くの場合、このプロセスによってモデルの質がある程度確保されます。

ビニングおよび正規化は、機械学習アルゴリズムで一般的に必要とされる変換です。

ビニング
ビニングは、離散化とも呼ばれ、連続データおよび離散データのカーディナリティを減らすための手法です。ビニングでは、関連する複数の値をビンにグループ化して、個別値の数を減らします。
正規化
正規化について学習します。
ADPによるデータの変換方法
次の表では、各アルゴリズムについてADPでどのようにデータが準備されるかを示します。

関連トピック

Oracle Database PL/SQLパッケージおよびタイプ・リファレンス

親トピック: モデルの作成

4.4.1 ビニング

ビニングは離散化とも呼ばれ、連続データおよび離散データのカーディナリティを減らすための手法です。ビニングでは、関連する複数の値をビンにグループ化して、個別値の数を減らします。

ビニングを行うと、モデルの質をほとんど落とすことなく、リソースの使用率やモデル作成の応答時間を大幅に向上させることが可能です。ビニングを行うと、属性間の関係が補強され、モデルの質が向上する場合があります。

教師ありビニングは、データの重要な特性を使用してビン境界を判断する高い知能を備える形式のビニングです。教師ありビニングでは、ターゲットとの結合分布を考慮した単一予測子のデシジョン・ツリーによってビン境界が特定されます。教師ありビニングは、量的属性と質的属性の両方に使用できます。

親トピック: 自動データ準備

4.4.2 正規化

正規化について学習します。

正規化は、数値データの範囲を狭くする最も一般的な手法です。ほとんどの正規化手法では、1つの変数の範囲が別の範囲(通常は0から1)にマップされます。

親トピック: 自動データ準備

4.4.3 ADPによるデータの変換方法

各アルゴリズムに対してADPがどのようにデータを準備するかを、次の表に示します。

表4-4 Oracle Machine LearningのアルゴリズムとADP

アルゴリズム	機械学習機能	ADPによる処理
Apriori	相関ルール	ADPは相関ルールに対して効果がない。
CUR行列分解	機能選択	ADPはCUR行列分解には影響しません
デシジョン・ツリー	分類	ADPはデシジョン・ツリーに対して効果がない。データ準備はアルゴリズムによって処理される。
期待値の最大化	クラスタリング	ガウス分布を使用してモデル化された単一列の(ネストしていない)数値列が正規化される。ADPは他の種類の列に対して効果がない。
GLM	分類と回帰	量的属性が正規化される。
k-Means	クラスタリング	量的属性が正規化される。
MDL	属性評価	教師ありビニングによってすべての属性がビニングされる。
MSET-SPRT	分類(異常検出用)	Zスコアによる正規化が実行されます。
Naive Bayes	分類	教師ありビニングによってすべての属性がビニングされる。
ニューラル・ネットワーク	分類と回帰	量的属性が正規化される。
NMF	特徴抽出	量的属性が正規化される。
O-Cluster	クラスタリング	属性ごとのビン数を自動的に計算する特別な形式の等幅ビニングによって量的属性がビニングされる。すべてNULLまたは単一の値を持つ数値列は除外されます。
ランダム・フォレスト	分類	ADPはランダム・フォレストに影響を与えません。データ準備はアルゴリズムによって処理される。
SVD	特徴抽出	PCAが選択されている場合、数値属性は中央に配置されます。
SVM	分類、異常検出および回帰	量的属性が正規化される。
XG Boost	分類と回帰	ADPはXG Boostに影響を与えません。