ステップの使用
データをキュレートするステップを使用して、データ・フローを構築します。ステップは、特定の方法でデータを変更する機能です。たとえば、ステップは、値を集計したり、時系列分析を実行したり、機械学習アルゴリズムを実行できます。
| ステップ | このステップの使用目的 | 詳細情報 |
|---|---|---|
| 列の追加 | 様々な関数、条件式およびSQL演算子を使用して、新しい出力データ列をデータ・フローに追加します。 | データ・フロー内の列の追加 |
| データの追加 | データ・ソースをデータ・フローに追加します。 | データ・フロー内のデータの追加 |
| 集計 | データ・フロー内のデータをグループ化するには、集計関数を適用します。 | データ・フローへの集計の追加 |
| センチメントの分析 | データ・フローにセンチメント分析を適用することで、テキスト列に対するセンチメントを検出します。 | データ・フローへのセンチメント分析の追加 |
| モデルの適用 | 機械学習モデルをデータに適用します(データ・モデルのスコアリングとも呼ばれます)。 | データ・セットへの予測モデルの適用 |
| Bin | データ値を高、中、低などのカテゴリに割り当てます。 | データ・フローでのビン化列の作成 |
| 分岐 | 分岐を使用して、データ・フローから複数の出力を作成します。 | 分岐を使用したデータ・フローでの複数のパイプラインの作成 |
| 累積値 | データ・フロー内で累積集計関数を適用することでデータをグループ化します。 | データ・フローへの累積値の追加 |
| フィルタ | データ・フロー出力でのデータを制限するには、フィルタを使用します。 | データ・フロー内のデータのフィルタ処理 |
| グループ | データ・セット内の属性値のグループ列を作成します。 | データ・フローでのグループの作成 |
| 結合 | 複数の表またはデータ・セットを結合します。 | データ・フロー内の結合の追加 |
| 列のマージ | データ・フローの2つ以上の列を結合します。 | |
| 行のマージ | データ・フローの2つ以上の行を結合します。 | |
| 列の名前変更 | データ列の名前をよりわかりやすいものに変更します。 | データ・フロー内の列の名前変更 |
| データの保存 | データ・フローを実行する前に、出力データ・セットの各列のデータベース名、属性またはメジャー、および集計ルールを変更または選択します。 | データ・フローからの出力データの保存 |
| モデルの保存 | デフォルトのモデル名(無題)を変更し、説明を指定します。 | モデルの保存 |
| 列の選択 | データ・フローに含めるデータ列を指定します。 | データ・フローに含める列の選択 |
| 列の分割 | データ列内から有益なデータを抽出します。 | データ・フロー内の列の分割 |
| 時系列予測 | 時系列予測計算をデータ・セットに適用して行を追加作成します。 | データ・フローへの時系列予測の追加 |
| 二項分類子のトレーニング | 機械学習モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類します。 | データ・フロー内の二項分類子モデルのトレーニング |
| カスタム・モデルのトレーニング | 自分で作成したカスタム機械学習モデルをトレーニングします。 | カスタム・モデルのトレーニング・ステップ |
| クラスタリングのトレーニング | 機械学習モデルをトレーニングして、似たような特質を持つグループを分離し、それらをクラスタに割り当てます。 | データ・フロー内のクラスタリング・モデルのトレーニング |
| 多項分類子のトレーニング | 機械学習モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類します。 | データ・フロー内の多項分類子モデルのトレーニング |
| 数値予測のトレーニング | 機械学習モデルをトレーニングして、既知のデータ値に基づいて数値を予測します。 | データ・フロー内の数値予測モデルのトレーニング |
| 列の変換 | 様々な関数、条件式およびSQL演算子を使用して、列のデータを変更します。 | データ・フロー内のデータの変換 |