4.4 自動データ準備
ほとんどのアルゴリズムでは、なんらかの形のデータ変換が必要となります。Oracle Machine Learning for SQLは、モデルの作成プロセス時にアルゴリズムで必要とされる変換を自動的に実行できます。
ユーザーは、この自動変換に独自の変換を追加したり、すべての変換を独自に管理できます。
自動変換を計算する際、OML4SQLでは、ヒューリスティックを使用して特定のアルゴリズムの一般的な要件に対処します。多くの場合、このプロセスによってモデルの質がある程度確保されます。
ビニングおよび正規化は、機械学習アルゴリズムで一般的に必要とされる変換です。
- ビニング
ビニングは、離散化とも呼ばれ、連続データおよび離散データのカーディナリティを減らすための手法です。ビニングでは、関連する複数の値をビンにグループ化して、個別値の数を減らします。 - 正規化
正規化について学習します。 - ADPによるデータの変換方法
次の表では、各アルゴリズムについてADPでどのようにデータが準備されるかを示します。
親トピック: モデルの作成
4.4.1 ビニング
ビニングは離散化とも呼ばれ、連続データおよび離散データのカーディナリティを減らすための手法です。ビニングでは、関連する複数の値をビンにグループ化して、個別値の数を減らします。
ビニングを行うと、モデルの質をほとんど落とすことなく、リソースの使用率やモデル作成の応答時間を大幅に向上させることが可能です。ビニングを行うと、属性間の関係が補強され、モデルの質が向上する場合があります。
教師ありビニングは、データの重要な特性を使用してビン境界を判断する高い知能を備える形式のビニングです。教師ありビニングでは、ターゲットとの結合分布を考慮した単一予測子のデシジョン・ツリーによってビン境界が特定されます。教師ありビニングは、量的属性と質的属性の両方に使用できます。
親トピック: 自動データ準備
4.4.3 ADPによるデータの変換方法
各アルゴリズムに対してADPがどのようにデータを準備するかを、次の表に示します。
表4-4 Oracle Machine LearningのアルゴリズムとADP