データ・フローを使用したトレイン・モデルの作成

上級アナリストとして、データ・フローを使用してデータのトレンドとパターンを予測するためのトレイン・モデルを作成します。

たとえば、データに対して二項分類を実行するには、Naive Bayesスクリプトを使用し、サンプル・データ・セットを使用してモデルをトレーニングします。モデルに問題がなければ、それをフル・データ・セットに適用できます。

スクリプトでは機械学習タスクのインタフェースおよび論理(コード)が定義されます。トレーニング・タスク(分類または数値予測)を使用して、たとえば既知の(ラベル付けされた)データに基づいてモデルをトレーニングできます。モデルをトレーニングしたら、そのモデルを使用して、未知の(つまりラベル付けされていない)データをスコアリングしてデータ・フロー内でデータ・セットを生成したり、ビジュアライゼーション内で動的に予測を行うことができます。機械学習タスクは個別のステップ・タイプとして利用できます(たとえばトレイン二項、モデルの適用など)。

たとえば、従業員の給与情報を含むデータのセットでモデルをトレーニングし、このモデルを給与情報が含まれない従業員データのセットに適用できます。このモデルは特定のファクタに基づいていて67%正確であるため、データ・セット内の何人のおよびどの従業員が年収$50,000を上回りそうかを正確に予測できます。

  1. 「ホーム」ページで、「作成」をクリックし、「データ・フロー」を選択して「データ・セットの追加」ペインを表示します。
  2. トレイン・モデルを作成するために使用するデータ・セットを選択し、「追加」をクリックします。
    通常、予測しようとしているデータを含むサンプル・データ・セットを使用します。
  3. データ・フローで、プラス(+)記号をクリックします。
    これにより、使用可能なすべてのデータ・フロー・ステップ・オプションが、トレイン・モデル・タイプ(たとえば、トレイン数値予測やトレイン多項分類など)を含めて表示されます。
  4. データ・セットに適用するトレイン・モデル・タイプをクリックします。
    たとえば、トレイン二項分類は、二項選択の予測に役立つ二項トレイン・モデル(統計計算)です。
  5. 選択されたモデル・タイプ(たとえば二項分類)に対して使用可能なスクリプトから適切なスクリプトを選択し、「OK」をクリックします。
    たとえば、二項分類トレイン・モデルを作成するには、CART for modelを選択します。
    下に表示される、選択したスクリプトに固有のパラメータとともに、データ・フロー・エディタに新しいステップが強調表示されます。
  6. 単一の値を予測するモデル(二項分類など)を作成している場合は、「ターゲット」をクリックして、トレイン・モデルを適用するデータ・セット列を選択します。
    たとえば、所得レベル列をモデル化して個人の所得を予測できます。ローン担当者はこの情報を使用して、給与が$50,000を超える人にのみローンを提供できます。
  7. モデルのデフォルト設定を変更する場合:
    1. スクリプトを変更するには、「モデル・トレーニング・スクリプト」の横にあるスクリプト名をクリックし、「ターゲット」をクリックして、トレイン・モデルを適用するデータ・セット列を選択します。
    2. 「ターゲット」をクリックして、トレイン・モデルを適用するデータ・セット列を再度選択します。
    3. モデルを微調整するには、選択したスクリプトに表示されるパラメータを調整します。
  8. 「モデルの保存」ステップをクリックして、名前と説明を指定します。
  9. 「保存」をクリックし、名前と説明を入力して「OK」をクリックし、データ・フローを現在のトレイン・モデル・スクリプトのために選択したパラメータ値とともに保存します。
    機械学習モデルをトレーニングしたため、このモデルをフル・データ・セットに適用できます。データ・フローを使用したモデルの適用を参照してください。