機械翻訳について

データ・フローのトレイン・モデルの作成

高度なアナリストとして、スクリプトを使用してデータ・モデルをトレーニングし、そのデータ・モデルを他のデータ・セットに追加してデータの傾向とパターンを予測できます。

スクリプトは機械学習タスクのインタフェースとロジック(コード)を定義します。 トレーニング・タスク(分類または数値予測)を使用して、たとえば既知の(ラベル付けされた)データに基づいてモデルをトレーニングできます。 モデルが作成されたら、その同じものを使用して、未知の(つまりラベル付けされていない)データをスコアリングしてデータ・フロー内でデータ・セットを生成したり、ビジュアライゼーション内で動的に予測を行うことができます。 機械学習タスクは、個々のステップ・タイプとして使用できます(たとえばトレイン・バイナリ、モデルの適用)。

たとえば、従業員の給与情報を含むデータのセット上でモデルをトレーニングし、このモデルを給与情報を含まない従業員データのセットに適用できます。 このモデルは特定のファクタに基づいていて67%正確であるため、データ・セット内のどの従業員が毎年$50kを超える可能性が高いかを正確に予測できます。

  1. データ・タブで、データ・フローで使用するデータ・セットを選択します。
  2. 「データ・フロー」タブで、「作成」をクリックし、「データ・フロー」を選択します。
  3. トレイン・モデルの作成に使用するデータ・セットを選択し、「追加」をクリックします。
  4. データ・フローで、「プラス」 (+)記号をクリックします。
    ここには、トレイニング・モデル・タイプ(トレイン数値予測、トレイン複数分類子など)を含む、使用可能なすべてのデータ・フロー・ステップ・オプションが表示されます。
  5. データ・セットに適用するトレイン・モデル・タイプをクリックします。
    たとえば、トレイン・バイナリ分類は、バイナリの選択を予測するのに役立つバイナリ・トレイン・モデル(統計計算)です。
  6. 選択したモデル・タイプに使用可能なスクリプト(2項分類など)から適切なスクリプトを選択し、確認のためにOKをクリックします。
    たとえば、CART for modelを選択して2項分類トレイン・モデルをビルドします。
    表示されるパラメータは、選択したスクリプトに固有です。
  7. 必要に応じて、モデルのフィールドの詳細を調整します:
    1. スクリプトを変更する場合は、「モデル・トレーニング・スクリプト」をクリックします。
    2. 「ターゲット」をクリックして、トレイン・モデルを適用するデータ・セット列を選択します。
      たとえば、所得レベル列をモデル化して、個人収入を予測できます。 ここで、$50000を超える融資のみを提案する融資エージェントを考えてみます。
    3. 残りのフィールドを、選択したスクリプトに適した値に更新します。
  8. 「保存」をクリックし、名前と摘要を入力してOKをクリックし、データ・フローを現在のトレイン・モデル・スクリプトのために選択したパラメータ値とともに保存します。
  9. 「モデルの保存」をクリックして名前と説明を入力し、「保存」をクリックしてモデルを保存します。
    これで、他のデータ・フローと同様にモデル・スクリプトを実行できるようになりました。