自動データ準備

機械学習モデルは、多くの場合、トレーニング前にデータ変換が必要になります。Oracle Machine Learning (OML)では、自動データ準備(ADP)を使用してこのプロセスが自動化されます。ADPは、OML4SQL、OML4PyおよびOML4Rのデータベース内モデルに適用され、それにより、データ変換が容易になります。

ADPが有効になっている場合は、Oracle Machine Learningによって、アルゴリズムのニーズに基づいて変換が適用されます。次のような変換があります:

ADPでは、これらの変換が、ユーザーが指定した変換命令とともにモデルに埋め込まれて、新しいデータが処理されるたびにそれらが適用されるようになります。Oracle Machine Learningは、アルゴリズムに最適な変換を決定するために、一貫した経験則に従います。ほとんどの場合は、この手法が、合理的なモデル品質を達成するために役立ちます。

次のことができます:

  • ADPによって提供される自動変換を使用します。
  • データのニーズに合わせてカスタム変換を定義します。
  • データベース関数を使用して変換を手動で処理します。

次のものに対してデータ準備をカスタマイズできます:

  • OML4SQL: DBMS_DATA_MINING_TRANSFORM PL/SQLパッケージを使用します。
  • OML4Py: モデル設定リスト(params)を使用して変換を指定します。
  • OML4R: odm.settingsリストを使用するか、ADPを直接有効にします(auto.data.prep=TRUE)。

OMLでは、データ準備プロセスを大幅に単純化するいくつかの機能が提供されています。

  • 組込みのデータ準備: モデルのトレーニングに使用される変換は、モデルに組み込まれ、モデルが新しいデータに適用されるたびに自動的に実行されます。モデルの変換を指定する場合、1回指定すれば済みます。

  • 欠損値とスパース・データの自動管理: Oracle Machine Learningでは、すべての機械学習アルゴリズムにわたり一貫した方法論を使用して、スパース性と欠損値が処理されます。

  • 透明性: Oracle Machine Learningでは、モデル内部の属性のビューである、モデル詳細が提供されます。ユーザーが解釈可能な形式に変換済属性値をマップする逆変換によって、モデル内部の詳細を調べることができます。可能である場合、属性値は元の列値に逆変換されます。逆変換は、教師ありモデルのターゲットにも適用されるため、スコアリングの結果は、元のターゲットの単位と同じ単位になります。

  • カスタム・データ準備用のツール: Oracle Machine Learningでは、一般的な多数の変換ルーチンが(たとえば、OML4SQLにおいて)DBMS_DATA_MINING_TRANSFORM PL/SQLパッケージで提供されています。こられのルーチンを使用することも、SQLで独自のルーチンを開発することもできます(両方行うことも可能)。ADPではなくカスタム変換指示を使用することも、ADPとそれを併用することもできます。