データ・フローを使用したトレイン・モデルの作成
上級アナリストとして、データ・フローを使用してデータのトレンドとパターンを予測するためのトレイン・モデルを作成します。
たとえば、データに対して二項分類を実行するには、Naive Bayesスクリプトを使用し、サンプル・データ・セットを使用してモデルをトレーニングします。モデルに問題がなければ、それをフル・データ・セットに適用できます。
スクリプトでは機械学習タスクのインタフェースおよび論理(コード)が定義されます。トレーニング・タスク(分類または数値予測)を使用して、たとえば既知の(ラベル付けされた)データに基づいてモデルをトレーニングできます。モデルをトレーニングしたら、そのモデルを使用して、未知の(つまりラベル付けされていない)データをスコアリングしてデータ・フロー内でデータ・セットを生成したり、ビジュアライゼーション内で動的に予測を行うことができます。機械学習タスクは個別のステップ・タイプとして利用できます(たとえばトレイン二項、モデルの適用など)。
たとえば、従業員の給与情報を含むデータのセットでモデルをトレーニングし、このモデルを給与情報が含まれない従業員データのセットに適用できます。このモデルは特定のファクタに基づいていて67%正確であるため、データ・セット内の何人のおよびどの従業員が年収$50,000を上回りそうかを正確に予測できます。