1.2.5 モデルの開発
このフェーズでは、様々なモデリング手法を選択して適用し、ハイパーパラメータと呼ばれるアルゴリズム・パラメータを目的の値に調整します。
アルゴリズムでデータの変換が必要な場合、前のフェーズに戻って、その変換を行う必要があります。 たとえば、一部のアルゴリズムでは、モデル化の前に1ホット・エンコーディングを使用して文字列「カテゴリ」データを"「爆発」"にする必要があるなど、数値列のみを使用できます。 予備的なモデル構築では、完全なデータセットに数百万または数十億の行が含まれている可能性があるため、データのサンプルから始めるのが理にかなっていることがよくあります。 特定のアルゴリズムがデータのサブセットに対してどのように実行されるかを把握することで、データ品質の問題とアルゴリズム設定の問題をプロセスの早い段階で特定し、初期結果までの時間と計算コストを削減できます。 「教師あり学習」の問題の場合、データは通常、80-20%または60-40%の分散を使用してトレイン(ビルド)およびテスト・データセットに分割されます。 データを分割した後、目的のモデル設定でモデルを構築します。 デフォルト設定を使用するか、モデル設定値を変更してカスタマイズします。 設定は、OMLのPL/SQL、RおよびPython APIを使用して指定できます。 手法に適したメトリックを使用してモデルの品質を評価します。 たとえば、分類モデルには「混同行列」、「適合度」および「リコール」、回帰モデルにはRMSE、クラスタリング・モデルにはクラスタ類似度メトリックなどを使用します。
自動機械学習(AutoML)機能を使用すると、アルゴリズムの選択、属性(機能)の選択、「モデル・チューニング」および選択など、反復モデリング・プロセスを合理化することもできます。
- 様々なアルゴリズムの調査
- モデルの構築、評価およびチューニング
親トピック: 機械学習プロセス