プライマリ・コンテンツに移動
Oracle® Data Miningユーザーズ・ガイド
12c リリース1 (12.1)
B72967-05
目次へ移動
目次
索引へ移動
索引

前
次

ビニング・ルーチン

ビニング計画の決定には、多数の要因が関与します。通常、値の数を少なくするとモデルがコンパクトになり、短時間でモデルを作成できるようになりますが、精度が低下する可能性もあります。

ビンの境界を適切に選択すると、モデルの質が大幅に向上する場合があります。たとえば、年齢をビンに分ける適切な手段としては、0から13は子供、13から19は10代、19から24は青年、24から35は社会人というように、対象とするグループに分割する方法があります。

次の表には、Oracle Data Miningで利用できるビニングの手法をリストで示します。

表4-3 DBMS_DATA_MINING_TRANSFORMのビニング手法

ビニング方法 説明

上位N個の最頻出項目

この手法は、質的属性のビニングに使用できます。ユーザーはビンの数を指定します。発生頻度が最も高い値が最初のビンとしてラベル付けされ、発生頻度が2番目に高い値が2番目のビンとしてラベル付けされる、などとなります。残りの値はすべて追加のビンに含まれます。

監視ありビニング

監視ありビニングは高い知能を備える形式のビニングであり、ビンの境界はデータの重要な特性から導かれる。監視ありビニングでは、単一予測子のディシジョン・ツリーが作成され、ターゲットに関して特徴的なビンの境界が検出される。これは、量的属性または質的属性に使用できる。

等幅ビニング

等幅ビニングは、量的属性に使用できます。最大値から最小値を差し引いて値の範囲を計算し、その値の範囲が等間隔に分割されます。ビンの数は、ユーザーが指定することも、自動的に計算することもできます。等幅ビニングは通常、外れ値の処理とともに使用する必要があります。

分位ビニング

分位ビニングは量的なビニングの手法です。分位の計算には、SQL分析関数のNTILEが使用されます。ビンの境界は、各分位の最小値に基づいて計算されます。左右の境界が等しいビンはビンとして形成されないため、必要な数よりも少ないビン数となる可能性があります。