モデルの開発

このフェーズでは、様々なモデリング手法を選択して適用し、ハイパーパラメータと呼ばれるアルゴリズム・パラメータを目的の値に調整します。

アルゴリズムでデータの変換が必要な場合、前のフェーズに戻って、その変換を行う必要があります。たとえば、一部のアルゴリズムでは、数値列のみが許可されているため、モデリングの前にワンホット・エンコーディングを使用して文字列の質的データを展開する必要があります。予備的なモデル構築では、完全なデータセットに数百万または数十億の行が含まれている可能性があるため、データのサンプルから始めるのが理にかなっていることがよくあります。特定のアルゴリズムがデータのサブセットに対してどのように実行されるかを把握することで、データ品質の問題とアルゴリズム設定の問題をプロセスの早い段階で特定し、初期結果までの時間と計算コストを削減できます。教師あり学習の問題の場合、通常は、データは80-20%または60-40%の分布を使用してトレーニング(作成)データセットとテスト・データセットに分割されます。データを分割した後、目的のモデル設定でモデルを構築します。デフォルト設定を使用するか、モデル設定値を変更してカスタマイズします。設定は、OMLのPL/SQL、RおよびPython APIを使用して指定できます。手法に適したメトリックを使用してモデルの品質を評価します。たとえば、分類モデルには混同マトリックス精度およびリコールを、回帰モデルにはRMSEを、クラスタリング・モデルにはクラスタ類似度メトリックを使用するなどです。

自動機械学習(AutoML)の機能を使用して、アルゴリズムの選択、属性(特徴)の選択、モデルのチューニングと選択など、反復的なモデリング・プロセスを合理化することもできます。

要約すると、このフェーズでは次のことを行います。
  • 様々なアルゴリズムの調査
  • モデルの構築、評価およびチューニング