1.2.4 データの準備
準備フェーズでは、データをファイナライズし、モデルの作成に使用できる形式でデータを作成するために必要なタスクをすべて実行します。
データ準備のタスクは複数回にわたって繰り返し実行される可能性が高く、所定の順序には従いません。 タスクには、列(属性)の選択および表内の行の選択を含めることができます。 特にデータが様々なソースから収集される場合は、必要に応じてビューを作成してデータを結合したり、データをマテリアライズできます。 データを整備するには、無効な値、他の表に存在しない外部キー値、欠落している値および外れ値を探します。 データを改善するには、機械学習の問題に対処するために必要な集計、正規化、一般化、属性構築などの変換を適用できます。 たとえば、DATE_OF_BIRTH
列をAGE
に変換できます。INCOME
列がnullの場合は、収入の中央値を挿入できます。データ内の外れ値を表す行を除外したり、欠損値や同一値が多すぎる列を除外できます。
さらに、データの表層に近い情報を得るために、新しく計算した属性を追加できます。 このプロセスは、特徴エンジニアリングと呼ばれます。 たとえば、購入金額を使用するかわりに、「12か月のうちで購入金額が500ドルを超えた回数」といった新しい属性を作成できます。 大きい買い物を頻繁に行う顧客も、値引きに反応する顧客または反応しない顧客と関連がある場合があります。
十分に考慮してデータを準備し、特定分野の知識を獲得する新しい機能エンジニアリングを作成すると、機械学習で発見されるパターンの質を大幅に高めることができます。 Oracle Database内で、データ専門家がデータ・アセンブリ、データ準備、データ変換および機能エンジニアリングを実行できるようにすることがOracleの重要な特徴です。
ノート:
Oracle Machine Learningでは、データ準備プロセスを大幅に単純化する自動データ準備(ADP)がサポートされます。
要約すると、このフェーズでは次のことを行います。
- データの消去、結合および選択
- データの変換
- 新機能のエンジニアリング
親トピック: 機械学習プロセス