ステップの使用
データをキュレートするステップを使用して、データ・フローを構築します。ステップは、特定の方法でデータを変更する機能です。たとえば、ステップは、値を集計したり、時系列分析を実行したり、機械学習アルゴリズムを実行できます。
ステップ | このステップの使用目的 | 詳細情報 |
---|---|---|
列の追加 | 様々な関数、条件式およびSQL演算子を使用して、新しい出力データ列をデータ・フローに追加します。 | データ・フロー内の列の追加 |
データの追加 | データ・ソースをデータ・フローに追加します。 | データ・フロー内のデータの追加 |
集計 | データ・フロー内のデータをグループ化するには、集計関数を適用します。 | データ・フローへの集計の追加 |
センチメントの分析 | データ・フローにセンチメント分析を適用することで、テキスト列に対するセンチメントを検出します。 | データ・フローへのセンチメント分析の追加 |
モデルの適用 | 機械学習モデルをデータに適用します(データ・モデルのスコアリングとも呼ばれます)。 | データ・セットへの予測モデルの適用 |
Bin | データ値を高、中、低などのカテゴリに割り当てます。 | データ・フローでのビン化列の作成 |
分岐 | 分岐を使用して、データ・フローから複数の出力を作成します。 | 分岐を使用したデータ・フローでの複数のパイプラインの作成 |
累積値 | データ・フロー内で累積集計関数を適用することでデータをグループ化します。 | データ・フローへの累積値の追加 |
フィルタ | データ・フロー出力でのデータを制限するには、フィルタを使用します。 | データ・フロー内のデータのフィルタ処理 |
グループ | データ・セット内の属性値のグループ列を作成します。 | データ・フローでのグループの作成 |
結合 | 複数の表またはデータ・セットを結合します。 | データ・フロー内の結合の追加 |
列のマージ | データ・フローの2つ以上の列を結合します。 | |
行のマージ | データ・フローの2つ以上の行を結合します。 | |
列の名前変更 | データ列の名前をよりわかりやすいものに変更します。 | データ・フロー内の列の名前変更 |
データの保存 | データ・フローを実行する前に、出力データ・セットの各列のデータベース名、属性またはメジャー、および集計ルールを変更または選択します。 | データ・フローからの出力データの保存 |
モデルの保存 | デフォルトのモデル名(無題)を変更し、説明を指定します。 | モデルの保存 |
列の選択 | データ・フローに含めるデータ列を指定します。 | データ・フローに含める列の選択 |
列の分割 | データ列内から有益なデータを抽出します。 | データ・フロー内の列の分割 |
時系列予測 | 時系列予測計算をデータ・セットに適用して行を追加作成します。 | データ・フローへの時系列予測の追加 |
二項分類子のトレーニング | 機械学習モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類します。 | データ・フロー内の二項分類子モデルのトレーニング |
カスタム・モデルのトレーニング | 自分で作成したカスタム機械学習モデルをトレーニングします。 | カスタム・モデルのトレーニング・ステップ |
クラスタリングのトレーニング | 機械学習モデルをトレーニングして、似たような特質を持つグループを分離し、それらをクラスタに割り当てます。 | データ・フロー内のクラスタリング・モデルのトレーニング |
多項分類子のトレーニング | 機械学習モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類します。 | データ・フロー内の多項分類子モデルのトレーニング |
数値予測のトレーニング | 機械学習モデルをトレーニングして、既知のデータ値に基づいて数値を予測します。 | データ・フロー内の数値予測モデルのトレーニング |
列の変換 | 様々な関数、条件式およびSQL演算子を使用して、列のデータを変更します。 | データ・フロー内のデータの変換 |