8.5 自動データ準備

Oracle Machine Learning for Pythonでは、自動データ準備(ADP)とユーザーが指示する一般的なデータ準備がサポートされます。

PREP_*設定により、完全自動データ準備(ADP)または手動データ準備を要求できます。デフォルトでは、ADPは有効化されています(PREP_AUTO_ON)。手動で実行する場合、各アルゴリズムのデータ準備要件に対処する必要があります

ADPを有効にすると、モデルでは、経験則を使用し、アルゴリズムの要件に応じて作成データを変換します。ADPのかわりに、PREP_SCALE_*PREP_SHIFT_*の設定を使用したデータのシフトまたはスケール(あるいはその両方)を要求できます。変換命令は、モデルに格納され、モデルが適用されるたびに再利用されます。モデル設定は、USER_MINING_MODEL_SETTINGSで表示できます。

PREP_*設定

次の表に、PREP_*設定の値を示します。

表8-2 タイトル

設定名 設定値 説明
PREP_AUTO

PREP_AUTO_ON

PREP_AUTO_OFF

この設定により、完全自動データ準備が有効になります。

デフォルトはPREP_AUTO_ONです。

PREP_SCALE_2DNUM

PREP_SCALE_STDDEV

PREP_SCALE_RANGE

この設定により、2次元数値列のスケーリングのデータ準備が有効になります。この変更を有効にするには、PREP_AUTOOFFにする必要があります。有効な値は次のとおりです。

PREP_SCALE_STDDEV: 列の値を列の標準偏差で割る要求であり、多くの場合PREP_SHIFT_MEANとともに指定されてz-スコアによる正規化が行われます。

PREP_SCALE_RANGE: 列の値を値の範囲で割る要求であり、多くの場合PREP_SHIFT_MINとともに指定されて[0,1]の範囲が得られます。

PREP_SCALE_NNUM

PREP_SCALE_MAXABS

この設定により、ネストした数値列のスケーリングのデータ準備が有効になります。この変更を有効にするには、PREP_AUTOOFFにする必要があります。指定した場合、この設定の有効な値はPREP_SCALE_MAXABSで、これによって[-1,1]の範囲のデータが得られます。

PREP_SHIFT_2DNUM

PREP_SHIFT_MEAN

PREP_SHIFT_MIN

この設定により、2次元数値列のセンタリングのデータ準備が有効になります。この変更を有効にするには、PREP_AUTOOFFにする必要があります。次は、返される値です。

PREP_SHIFT_MEAN: 各値から列の平均が差し引かれます。

PREP_SHIFT_MIN: 各値から列の最小値が差し引かれます。