ステップの使用

データをキュレートするステップを使用して、データ・フローを構築します。ステップは、特定の方法でデータを変更する機能です。たとえば、ステップは、値を集計したり、時系列分析を実行したり、機械学習アルゴリズムを実行できます。

ステップ このステップの使用目的 詳細情報
列の追加 様々な関数、条件式およびSQL演算子を使用して、新しい出力データ列をデータ・フローに追加します。 データ・フロー内の列の追加
データの追加 データ・ソースをデータ・フローに追加します。 データ・フロー内のデータの追加
集計 データ・フロー内のデータをグループ化するには、集計関数を適用します。 データ・フローへの集計の追加
センチメントの分析 データ・フローにセンチメント分析を適用することで、テキスト列に対するセンチメントを検出します。 データ・フローへのセンチメント分析の追加
モデルの適用 機械学習モデルをデータに適用します(データ・モデルのスコアリングとも呼ばれます)。 データ・セットへの予測モデルまたは登録されているOracle機械学習モデルの適用
Bin データ値を高、中、低などのカテゴリに割り当てます。 データ・フローでのビン化列の作成
分岐 分岐を使用して、データ・フローから複数の出力を作成します。 分岐を使用したデータ・フローでの複数のパイプラインの作成
累積値 データ・フロー内で累積集計関数を適用することでデータをグループ化します。 データ・フローへの累積値の追加
データベース・アナリティクス 異常検出やアンピボット、サンプリング、高度なクラスタリングなど、高度な分析機能を使用します(OracleデータベースまたはOracle Autonomous Data Warehouseが必要です)。 データ・フローへのデータベース・アナリティクスの追加
フィルタ データ・フロー出力でのデータを制限するには、フィルタを使用します。 データ・フロー内のデータのフィルタ処理
グループ データ・セット内の属性値のグループ列を作成します。 データ・フローでのグループの作成
結合 複数の表またはデータ・セットを結合します。 データ・フロー内の結合の追加
列のマージ データ・フローの2つ以上の列を結合します。

データ・フロー内の列のマージ

行のマージ データ・フローの2つ以上の行を結合します。

データ・フローでの行のマージ

列の名前変更 データ列の名前をよりわかりやすいものに変更します。 データ・フロー内の列の名前変更
データの保存 データ・フローを実行する前に、出力データ・セットの各列のデータベース名、属性またはメジャー、および集計ルールを変更または選択します。 データ・フローからの出力データの保存
モデルの保存 デフォルトのモデル名(無題)を変更し、説明を指定します。 モデルの保存
列の選択 データ・フローに含めるデータ列を指定します。 データ・フローに含める列の選択
列の分割 データ列内から有益なデータを抽出します。 データ・フロー内の列の分割
時系列予測 時系列予測計算をデータ・セットに適用して行を追加作成します。 データ・フローへの時系列予測の追加
二項分類子のトレーニング 機械学習モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類します。 データ・フロー内の二項分類子モデルのトレーニング
クラスタリングのトレーニング 機械学習モデルをトレーニングして、似たような特質を持つグループを分離し、それらをクラスタに割り当てます。 データ・フロー内のクラスタリング・モデルのトレーニング
多項分類子のトレーニング 機械学習モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類します。 データ・フロー内の多項分類子モデルのトレーニング
数値予測のトレーニング 機械学習モデルをトレーニングして、既知のデータ値に基づいて数値を予測します。 データ・フロー内の数値予測モデルのトレーニング
列の変換 様々な関数、条件式およびSQL演算子を使用して、列のデータを変更します。 データ・フロー内のデータの変換

データ・フロー内の列の追加

ターゲット・データに列を追加し、書式をカスタマイズできます。たとえば、UNITS列の単位数にRETAIL_PRICE列の販売価格を掛けて、在庫の価額を計算できます。

データ・フロー・エディタの「列の追加」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「列の追加」を選択します。
  2. 「列の追加」ペインで、式ビルダーを使用して列を定義します。たとえば、在庫品目の価格を計算するには、UNITS * RETAIL_PRICEを指定します。
    式ピック・リストから、SQL演算子、関数および条件式を選択します。

データ・フロー内のデータの追加

新しいデータ・フローを作成してデータ・セットを選択すると、データ・セットの名前の付いたステップが表示されます。複数のデータ・ソースから追加のデータをデータ・フローに追加できます。

データ・フロー・エディタの「データの追加」ステップを使用します。新しいデータ・フロー・プロジェクトを作成すると、データ・セットが選択されます。
ノート: Oracle EssbaseおよびEPM Cloudデータ・セットを、「データの追加」ステップでデータ・フローへの入力として使用することはできません。
  1. 「データの追加」ペインのオプションを使用してデータ・セットを構成します。たとえば、デフォルト名を変更したり、列の組入れや除外を行います。
  2. フローに別のデータ・セットを追加するには、「ステップの追加」(+)をクリックして「データの追加」を選択します。
    一致する列がデータ・セット内に見つかった場合は、データ・セット間の関係を定義できるように「結合」ステップが自動的に追加されます。たとえば、最初のデータ・セットのCustomerIDが2番目のデータ・セットのCustomerIDと一致する2つのデータ・セットの行を結合できます。
  3. 「結合」ステップが自動的に表示されない場合は、「ステップの追加」(+)をクリックし、「結合」を選択します。
    結合を完了するには、データ・フロー・ダイアグラムで、データ・ソース・ステップと「結合」ステップの間の点線上の円をクリックします。その後、「結合」ペインを使用してデータ・セット間の関係を構成します
  4. データ・セット・ステップを再度クリックし、「データの追加」ペインのオプションを使用してデータ・セットを構成します。
    • 「データの追加 - <データ・ソース名>」を使用して、ステップ名および説明を編集します。
    • 「選択...」を使用して、データ・セットまたはデータソースを変更します。データ・セットまたはデータ・ソースを変更すると、フロー内の他のステップが破損する可能性があります。
    • 「実行時データ・セットを選択するためのプロンプトを表示」を使用して、データ・フローが実行されたときの出力データ・セットの名前を指定します。たとえば、フローが実行されるたびに出力データ・セットに異なる名前を指定できます。
    • 「重複の除去」を使用して、選択した列に基づいて重複する行を除去します。たとえば、市区町村ごとに1つの行のみが必要な場合は、「市区町村」でこのオプションを選択します。

データ・フローへの集計の追加

件数、合計、平均などの集計関数を適用して、グループの合計を作成します。

データ・フロー・エディタの「集計」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「集計」を選択します。
    「集計」ペインに、各数値列に対して推奨される集計列が表示されます。
  2. 「集計」ペインのオプションを使用して集計を構成します
    • 「集計」を使用して、集計する列を選択します。
    • 「関数」を使用して、選択した列に適用する合計、平均、最小、件数などの集計関数を選択します。
    • 「新規列名」を使用して、集計列のデフォルト名を変更します。
  3. 集計を追加または削除します。
    • 集計を削除するには、集計を選択して「X」をクリックします。
    • 「集計の追加」オプションを表示するには、「集計」ペインの一番下までスクロールします。

データ・フローへのセンチメント分析の追加

データ・フローにセンチメント分析を適用することで、指定されたテキスト列に対するセンチメントを検出できます。

センチメント分析では、正、中立または負の感情を示す単語やフレーズに基づいてテキストを評価します。分析の結果に基づいて、新しい列には正、中立または負という文字列タイプの結果が格納されます。
データ・フロー・エディタの「センチメントの分析」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「センチメントの分析」を選択します。
  2. 「センチメントの分析」ペインおよび「出力」セクションで、感情結果値の出力列を指定します。
  3. オプション: デフォルトの列名'emotion'を変更します。
  4. 「センチメントの分析」ペインおよび「パラメータ」セクションで、分析するテキストの値を指定します。
    分析する自然言語コンテンツが含まれるテキスト列を選択します。

機械学習モデルの適用

任意のデータ・セットに対して予測モデルをスコアリングする場合や、対応するデータベースのデータ・セットに対してOracle機械学習モデルをスコアリングする場合は、データ・フロー・エディタを使用します。

データ・フローでのビン化列の作成

ビンを使用すると、メジャーの値に基づいて新しい列を作成して、データを分類できます。たとえば、RISKの値を低、中、高の3つのビンに分類できます。

データ・フロー・エディタの「ビン」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「ビン」を選択します。
    「列の追加」ステップを使用して列を追加するときにビンを作成することもできます。
  2. 値を分類する列を選択します。
  3. 「ビン」ペインのオプションを使用してビンを構成します
    • 「ビン」オプションに、ステップ2で選択した列が表示されます。別の列に値を分類するには、列名をクリックして別の列を選択します。
    • ヒストグラム・ビューでは、選択した「方法」に基づいて、ビンのヒストグラム範囲(幅)およびヒストグラム数(高さ)が表示されます。
    • 「リスト・ビュー」を使用して、ビンの名前を変更し、各ビンの範囲を定義します(「手動」オプションを選択した場合)。
    • 「方法」を使用して、データ境界の計算方法を指定します。
      • 「手動」メソッドでは、範囲はビンの数で分割されます。
      • 「等幅」メソッドで、ヒストグラム範囲は同じサイズの間隔で分割されます。等幅のビン化の場合、列値が測定され、範囲が等しいサイズの間隔に分割されます。エッジのビンは列内の非常に低い値または高い値にあわせることができます。
      • 「等高」メソッドでは、各ビンの高さは同じまたはほんのわずかに異なりますが、ヒストグラム範囲は同じです。等高または頻度のビン化の場合、各ビンの間隔は、ほぼ等しい数の要素(レコード)を含む各間隔に基づいています。「等高」メソッドはスキュー・データの場合に特に優先されます。
変更に基づいて、データ・プレビュー(たとえば、ビン列名)が更新されます。

分岐を使用したデータ・フローでの複数のパイプラインの作成

分岐を使用して、データ・フローから複数の出力を作成します。たとえば、国に基づく販売トランザクション・データがある場合、第1分岐に米国のデータを、第2分岐にカナダのデータを保存できます。

データ・フロー・エディタの「分岐」ステップを使用します。
  1. 「ステップの追加」(+)をクリックして「分岐」を選択します。
    データ・フローに1つの「分岐」ステップと2つの「データの保存」ステップが追加されます。「分岐」ステップを選択し、「分岐先」オプションを使用して分岐を追加または除去します。分岐の最小数は2つで、最大数は5つです。
  2. 各分岐を構成するには、「分岐」ステップと「データの保存」ステップの間の接続線をクリックし、「ステップの追加」(+)をクリックして分岐を処理するステップ・タイプを選択します。
    たとえば、米国からのデータを保存する第1分岐に「フィルタ」を追加し、カナダからのデータを保存する第2分岐に「フィルタ」を追加します。または、「列の分割」ステップを使用して、第1分岐に一部の列を保存し、第2分岐にその他の列を保存できます。
  3. 「データの保存」ステップをクリックし、「データ・セットの保存」ペインで出力データ・セットを保存するためのプロパティを指定します。

データ・フローへの累積値の追加

移動集計や実行集計などの累積合計を計算できます。

データ・フロー・エディタの「累積値」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「累積値」を選択します。
  2. 「累積値」ペインのオプションを使用して集計を構成します。
    たとえば、「集計」オプションを使用して計算するデータ列を選択したり、「関数」オプションを使用して適用する累積関数を選択します。

データ・フロー内のデータのフィルタ処理

フィルタを使用して、データ・フロー出力に含まれるデータの量を制限します。たとえば、フィルタを作成すると、売上収益データを2017年から2019年までに制限できます。

データ・フロー・エディタの「フィルタ」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「フィルタ」を選択します。
  2. 「フィルタ」ペインで、フィルタ処理するデータ要素を選択します。
    • 「使用可能なデータ」ダイアログで、「フィルタの追加(+)」を使用して、フィルタ処理するデータ要素を選択します。あるいは、「データ・パネル」「データ要素」をクリックして、データ要素を「フィルタ」ペインにドラッグ・アンド・ドロップできます。
    • 「フィルタ・フィールド」を使用して、フィルタの値、データまたは選択を変更します(たとえば、最大範囲と最小範囲)。データ要素に基づいて、特定のフィルタ・フィールドが表示されます。複数のフィルタを1つのデータ要素に適用できます。
    • 「フィルタ」メニュー・アイコンを使用して、フィルタ選択項目のクリア、およびフィルタの無効化または削除を行う関数を選択します。
    • 「フィルタ」ペインのメニュー・アイコンを使用して、すべてのフィルタ選択項目のクリア、すべてのフィルタの除去、およびフィルタの自動適用を行う関数を選択します。式フィルタを追加するために選択できます。
    • 「式フィルタの追加」を使用して、式フィルタを選択して追加します。f(x)をクリックし、関数タイプを選択してからダブルクリックして「式」フィールドに関数を追加します。次に、「適用」をクリックします。
    • 「自動適用フィルタ」を使用して、「デフォルト(オン)」などのフィルタの自動適用オプションを選択します。

データ・フローでのグループの作成

定義したグループに数値以外のデータを分類できます。たとえば、CommunicationDigitalという部門に対するオーダーをTechnologyというグループに配置し、GamesStreamに対するオーダーをEntertainmentというグループに配置できます。

データ・フロー・エディタの「グループ」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「グループ」を選択します。
  2. 作成するグループごとに「グループ」ペインを使用します:
    1. 列のポップ・リストを使用して、分類する列を選択します。たとえば、部門ごとにオーダーを分類するには、LINE_OF_BUSINESSを選択します。
    2. オプション: グループ名をクリックしてデフォルト名のGroup 1を変更します。たとえば、Group 1Technologyに変更できます。
    3. オプション: 「名前」フィールドで、新しい列のデフォルト名をnew_name1からわかりやすい名前に変更します。
    4. 中央のボックスで、グループに追加する1つ以上のカテゴリを選択します。たとえば、部門を分析するには、CommunicationDigitalをTechnologyというグループに配置します。
      「データのプレビュー」ペインで、新しい列と定義したグループが各行の値として表示されます。たとえば、値はTechnologyまたはEntertainmentになります。
  3. 別のグループを追加するには、「グループ」(+)をクリックします。

データ・フロー内の結合の追加

複数のデータ・ソースからデータをデータ・フローに追加するとき、それらを共通の列に結合できます。たとえば、顧客IDフィールドを使用してOrdersデータ・セットをCustomer_ordersデータ・セットに結合できます。

「データの追加」ステップを使用して追加のデータ・ソースを追加すると、「結合」ステップが自動的にデータ・フローに追加されます。ただし、データ・フローに複数のデータ・ソースが定義されている場合は、手動で「結合」ステップを追加することもできます。
データ・フロー・エディタの「結合」ステップを使用します。
  1. 結合するデータ・ソースを追加します。
  2. データ・ソースを選択して「ステップの追加」をクリックし、「結合」をクリックします。
    推奨される接続が、接続線上のノードによって示されます。
    2つのデータ・ソースを接続するノード・アイコン。
  3. 接続線上のノードをクリックして、接続を完成します。
  4. 「結合」ペインのオプションを使用してステップを構成します。
    • 「行の保持」を使用して、データの結合方法を指定します。オプションをクリックすると、マージ後のデータがプレビューされます(「データ・プレビュー」ペインを表示している場合)。
    • 「列の照合」を使用して、データ・ソースを結合する共通フィールドを指定します。

データ・フロー内の列のマージ

複数の列を単一の列に結合できます。たとえば、番地、番地名、都道府県および郵便番号の列がビジュアライゼーションに1つの項目として表示されるように、これらの列をマージできます。

データ・フロー・エディタの「列のマージ」ステップを使用します。
  1. 「ステップの追加(+)」をクリックし、「列のマージ」を選択します。
  2. 「列のマージ」ペインのオプションを使用してマージを構成します:
    • (+)「列」フィールド: マージする列をさらに選択します。
    • 「デリミタ」フィールド: 列名を区切るデリミタを選択します(たとえば、空白、カンマ、ピリオドまたはカスタム・デリミタ)。

データ・フロー内の列の名前変更

列の名前を変更して、生成されたデータ・セットによりわかりやすいデータ列名を作成します。

データ・フロー・エディタの「列の名前変更」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「列の名前変更」を選択します。
  2. 「名前変更」フィールドを使用して、生成されたデータ・セットの列によりわかりやすい名前を指定します。

データ・フローからの出力データの保存

データ・フローで作成されたデータについて、デフォルト名および説明を変更したり、データの保存場所を指定したり、ランタイム・パラメータを指定できます。データ・フローからの出力をデータベースに保存する場合は、開始する前に、サポートされているデータベース・タイプの1つに対する接続を作成します。

データ・フロー・エディタの「データの保存」ステップを使用します。
  1. 「ステップの追加(+)」をクリックし、「データの保存」を選択します。または、すでにデータ・フローを保存している場合、「データの保存」ステップをクリックします。
  2. 「データ・セットの保存」ペインで、オプションでデフォルトの「名前」を変更し、「説明」を追加します。
    デフォルトの「名前」の値を変更しない場合は、'untitled'という名前のデータ・セットが生成されます。このデータ・フローを実行すると、「データ・セット」ページ(ホーム・ページのナビゲータで「データ」をクリックします)に、生成されたデータ・セットが表示されます。
  3. 「データ保存先」をクリックし、場所を選択します:
    • 「データ・セット記憶域」を選択すると、Oracle Analyticsのデータ・セットに出力データが保存されます。
    • 「データベース接続」を選択すると、サポートされるデータベース・タイプのいずれかに出力データが保存されます。
  4. 「データベース接続」を選択した場合は、データベース接続の詳細を指定します。
    開始する前に、サポートされているデータベース・タイプのいずれかへの接続を作成します。
    1. 「接続の選択」をクリックし、「データベース接続へのデータの保存」ダイアログを表示して接続を選択します。

      Oracle、Oracle Autonomous Data Warehouse、Apache Hive、Hortonworks Hive、Map R Hiveなどの様々なデータベースに保存できます。

    2. 「表」フィールドで、オプションでデフォルトの表名を変更します。
      表名は、選択したデータベースのネーミング規則に準拠している必要があります。たとえば、Oracleデータベースの表の名前を数字で始めることはできません。
    3. 「実行時」フィールドで、既存のデータを置換するか、既存のデータに新しいデータを追加するかを指定します。
  5. 実行時に出力データ・セットまたは表の名前を指定する場合、実行時、データ・セットを指定するためのプロンプト・オプションを選択します。
  6. 「列」表で、出力データ・セットの各列のデータベース名、属性またはメジャー、または集計ルールを変更または選択します。
データ・フローの実行時
  • データ・セット記憶域を選択した場合は、「データ」ページに移動し「データ・セット」を選択すると、出力データ・セットがリスト内に表示されています。

    • 「アクション・メニュー」をクリックするか、右クリックして「検査」を選択し、データ・セット・ダイアログを開きます。

    • データ・セット・ダイアログで「データ要素」をクリックし、「データの保存」ステップで各列に対して選択した「処理形式」および「集計」ルールを確認します。

  • 出力データをデータベースに保存した場合は、そのデータベースの表に移動して出力データを検査します。

モデルの保存

モデルのデフォルト名を変更して、説明を追加できます。

データ・フロー・エディタの「モデルの保存」ステップを使用します。「数値予測のトレーニング」や「二項分類子のトレーニング」など、モデルのトレーニング・ステップのいずれかを追加すると、データ・フロー・エディタにこのステップが自動的に追加されます。
  1. データ・フローにモデルのトレーニング・ステップのいずれかを追加します。たとえば、「数値予測のトレーニング」や「二項分類子のトレーニング」などです。
  2. 「モデルの保存」ステップをクリックします。
  3. オプション: 「モデルの保存」ペインで、デフォルトの「モデル名」を変更し、「モデルの説明」を指定して使用するモデル・タイプおよびスクリプトを特定します。
    「モデル名」のデフォルト値を変更しない場合、モデルは「無題」という名前で保存されます。このデータ・フローの実行後、新しいモデルが「機械学習」ページに表示されます。ホーム・ページのナビゲータで「機械学習」をクリックすると、保存したモデルがデータに適用されます。

データ・フローに含める列の選択

データ・フローに含める列を選択します。デフォルトでは、すべてのデータ列がデータ・フローに含まれます。

データ・フロー・エディタの「列の選択」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「列の選択」を選択します。
  2. 画面上のオプションを使用して、列を選択または削除します。

データ・フロー内の列の分割

連結データの列から有益なデータを取り出すことができます。たとえば、列に001011Blackが含まれる場合、このデータを001011Blackという2つの個別の列に分割できます。

データ・フロー・エディタ「列の分割」ステップを使用します。
開始する前に、分割の構成時に新規列が表示されるようデータ・プレビューを有効化します。データ・ソースに多くの列が含まれる場合、「列の選択」ステップを使用して最初に無関係な列を除去し、プレビューを見やすくします。
  1. 「ステップの追加」(+)をクリックして「列の分割」を選択します。
  2. 「列の分割」パネルのオプションを使用してデータ・フローを構成します。
    • 「列の分割」オプションで、「列の選択」をクリックし、分割するデータ列を指定します。列がすでに選択されている場合、列名をクリックすると別の列を選択できます。
    • 「オン」を使用して、列をデリミタで分割するか、位置で分割するかを指定します。列にカンマや空白などの区切り文字が含まれる場合、「デリミタ」を選択します。列に区切り文字が含まれない場合、「位置」を選択します。位置で分割した場合、2つの新しい列のみを作成できます。
    • (「オン」「デリミタ」に設定されている場合に表示されます)「デリミタ」を使用して、データ列で使用されるセパレータ(スペース、カンマ、カスタムなど)を指定します。
    • (「オン」「位置」に設定されている場合に表示されます)「位置」を使用して、2番目の列の開始位置を指定します。たとえば、列にAABBBCCCDDDが含まれる場合、6を指定すると、AABBBが最初の列に、CCCDDDが2番目の列に配置されます。
    • 「作成するパート数」を使用して、「オン」「デリミタ」に設定されている場合に作成する新規列の数を指定します(「オン」「位置」に設定されている場合、デフォルト値の2は変更できません)。たとえば、ソース・データ列にAA BBBBB CCC DDが含まれる場合、4を選択すると、各部分文字列が異なる列に配置されます。
    • 「発生」を使用して、新しい各列に含めるソース列の部分文字列の数を指定します。「デリミタ」「空白」に設定されている場合のデータAA BBBBB CCC DDに基づく例:
      • 「発生」1に、「作成するパート数」1に設定した場合、新規列にはAAが含まれます。「発生」2に設定した場合、新規列にはAA BBBBBが含まれます。
      • 「発生」1に、「作成するパート数」2に設定した場合、最初の新規列にはAAが、2番目の新規列にはBBBBB CCC DDが含まれます。
      • 「発生」1に、「作成するパート数」4に設定した場合、最初の新規列にはAAが、2番目の新規列にはBBBBBが、3番目の新規列にはCCCが、4番目の新規列にはDDが含まれます。
    • 「新規列< number>」名を使用して、新しい列のデフォルト名をよりわかりやすい名前に変更します。横のチェック・ボックスを使用して新規列の表示と非表示を切り替えます。

データ・フローへの時系列予測の追加

時系列予測計算を適用して、予測値を計算できます。

予測では、指定されたデータ・セットから時間列と対象列が取得され、ターゲット列の予測値が計算され、その値が新規列に配置されます。すべての追加列はグループを作成するのに使用されます。たとえば、値'Sales'、'Finance'および'ITがある追加列'Department'がある場合、ターゲット列の予測値は、指定されたグループの過去の値に基づきます。複数の列に多様な値があるとグループ数が多大になり、予測の精度に影響を与えます。予測のグループ化に関連する列のみを選択するようにしてください。
データ・フロー・エディタの「時系列予測」ステップを使用します。
  1. 「ステップの追加(+)」をクリックして「時系列予測」を選択します。
  2. 「時系列予測」ペインおよび「出力」セクションで、予測値の出力列を指定します。
  3. 「時系列予測」ペインで、予測計算を構成します
    • 「ターゲット」を使用して、履歴値を含むデータ列を選択します。
    • 「時間」を使用して、日付情報が含まれる列を選択します。予測値では日次グレインを使用します。
    • 「期間」を使用して、グループごとに予測される期間数(日数)を示す値を選択します。

データ・フロー内の二項分類子モデルのトレーニング

既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。

二項分類子モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類するときの正確性について評価します。たとえば、製品インスタンスが品質管理テストに合格するか失敗するかを予測できます。
データ・フロー・エディタの「二項分類子のトレーニング」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「二項分類子のトレーニング」を選択します。
  2. 「二項分類モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、Naive Bayesを選択します。
  3. 「列の選択」をクリックし、分析するデータ列を選択します。
  4. 画面上のオプションを使用して、スクリプト・パラメータを構成します。

データ・フロー内のクラスタリング・モデルのトレーニング

既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。

クラスタリング・モデルをトレーニングし、似たような特質を持つグループを分離してそれらをクラスタに割り当てる際の正確性を評価します。たとえば、顧客をその購入習慣に基づいてクラスタ(大量購入顧客や定期購入顧客など)に割り当てることができます。
データ・フロー・エディタの「クラスタリングのトレーニング」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「クラスタリングのトレーニング」を選択します。
  2. 「クラスタリング・モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、モデル・トレーニング用の階層的クラスタリングを選択します。
  3. 画面上のオプションを使用して、スクリプト・パラメータを構成します。

データ・フロー内の多項分類子モデルのトレーニング

既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。

多項分類子モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類するときの正確性について評価します。たとえば、果物がオレンジ、林檎、梨のどれであるかを予測できます。
データ・フロー・エディタの「多項分類子のトレーニング」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「多項分類子のトレーニング」を選択します。
  2. 「二項分類モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、Naive Bayesを選択します。
  3. 「列の選択」をクリックし、分析するデータ列を選択します。
  4. 画面上のオプションを使用して、スクリプト・パラメータを構成します。

データ・フロー内の数値予測モデルのトレーニング

既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。

数値予測モデルをトレーニングして、既知のデータ値に基づいて数値を予測するときの正確性について評価します。たとえば、面積、部屋数、郵便番号などに基づいて、物件の価値を予測できます。
データ・フロー・エディタの「数値予測のトレーニング」ステップを使用します。
  1. 「ステップの追加」(+)をクリックし、「数値予測のトレーニング」を選択します。
  2. 「数値予測モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、数値モデル・トレーニング用のRandom Forestを選択します。
  3. 「列の選択」をクリックし、分析するデータ列を選択します。
  4. 画面上のオプションを使用して、トレイン・モデルを構成します。

データ・フロー内のデータの変換

データ・フローを使用してデータを変換できます。たとえば、テキストを大文字に変換したり、データから先頭および末尾のスペースを削除できます。

データ・プレビューの「オプション」列メニューを使用して列内のデータを簡単に変換できます。たとえば、「数値に変換」「大文字」または「トリミング」を選択します。列の使用可能なメニュー・オプションのリストは、その列のデータのタイプによって異なります。変換オプションを使用して次のことを行います:
  • 列内のデータを更新または変更します。
  • データ・セットの複数の列をグループ化またはマージします。
  • データ・セットに対して列の追加または列の除去を行います。
データ・フロー・エディタの「列の変換」ステップを使用します。
  1. データ変換ステップを追加するには、次のいずれかを実行します。
    • 「ステップの追加」(+)をクリックし、「列の変換」を選択して列を選択します
    • 「列の変換」ステップを「データ・フロー・ステップ」パネルからワークフローのダイアグラム・パネルにドラッグ・アンド・ドロップし、列を選択します。
    • 「データのプレビュー」パネルで列を選択し、「オプション」をクリックしてから変換オプション(「大文字」「トリミング」など)を選択します。クイック・データ変換の列メニュー・オプションを参照してください。
  2. 「ステップ・エディタ」ペインで式を作成するか、フィールドを更新して変更を構成します。「データのプレビュー」パネルで変更を確認できます。
    式を作成する場合、次を実行します。
    • 「検証」をクリックして、構文が正しいかどうかを確認します。
    • 式が有効な場合、「適用」をクリックして列データを変換します。

データ・フローでの行のマージ

2つのデータ・ソースの行をマージできます(SQLの用語ではUNIONコマンドと呼ばれます)。

行をマージする前に、次を実行します。

  • 各データ・セットの列の数が同じであることを確認します。
  • データ・セットの対応する列のデータ型が一致することを確認します。たとえば、データ・セット1の列1はデータ・セット2の列1と同じデータ型である必要があります。
データ・フロー・エディタの「行の結合」ステップを使用します。
  1. データ・フローで、マージするデータ・ソースを追加します。
    たとえば、OrderとOrdersというデータ・セットを追加できます。
  2. いずれかのデータ・ソースで、「ステップの追加」(+)をクリックして「行の結合」を選択します。
    推奨される接続が、接続線上のノードによって示されます。
    2つのデータ・ソースを接続するノード・アイコン。
  3. 接続線上のノードをクリックして、接続を完成します。
  4. 「行の結合」ペインのオプションを使用してステップを構成します。
    フィールド 説明
    保持 次のオプションを使用して、データを結合する方法を指定します。オプションをクリックすると、説明図が表示され、マージ後のデータがプレビューされます(「データ・プレビュー」ペインを表示している場合)。