機械翻訳について

1.2.4 データの準備

準備フェーズでは、データをファイナライズし、モデルの作成に使用できる形式でデータを作成するために必要なタスクをすべて実行します。

データ準備のタスクは複数回にわたって繰り返し実行される可能性が高く、所定の順序には従いません。 タスクには、列(属性)の選択および表内の行の選択を含めることができます。 特にデータが様々なソースから収集される場合は、必要に応じてビューを作成してデータを結合したり、データをマテリアライズできます。 データをクレンジングするには、無効な値、他の表に存在しない外部キー値、および「なし」「外れ値」の値を検索します。 データを絞り込むには、機械学習の問題に対処するために必要な「集計」「正規化」、一般化、属性構造などの変換を適用できます。 たとえば、DATE_OF_BIRTH列をAGEに変換できます。INCOME列がNULLの場合、中央所得を挿入できます。データ内の「外れ値」を表す行をフィルタで除外したり、欠落または同一の値が多すぎる列をフィルタで除外できます。

さらに、データの表層に近い情報を得るために、新しく計算した属性を追加できます。 このプロセスは、特徴エンジニアリングと呼ばれます。 たとえば、購入金額を使用するかわりに、「12か月のうちで購入金額が500ドルを超えた回数」といった新しい属性を作成できます。 大きい買い物を頻繁に行う顧客も、値引きに反応する顧客または反応しない顧客と関連がある場合があります。

十分に考慮してデータを準備し、特定分野の知識を獲得する新しい機能エンジニアリングを作成すると、機械学習で発見されるパターンの質を大幅に高めることができます。 Oracle Database内で、データ専門家がデータ・アセンブリ、データ準備、データ変換および機能エンジニアリングを実行できるようにすることがOracleの重要な特徴です。

ノート:

Oracle Machine Learningでは、データ準備プロセスを大幅に単純化する自動データ準備(ADP)がサポートされます。

要約すると、このフェーズでは次のことを行います。
  • データの消去、結合および選択
  • データの変換
  • 新機能のエンジニアリング