ステップの使用
データをキュレートするステップを使用して、データ・フローを構築します。ステップは、特定の方法でデータを変更する機能です。たとえば、ステップは、値を集計したり、時系列分析を実行したり、機械学習アルゴリズムを実行できます。
ステップ | このステップの使用目的 | 詳細情報 |
---|---|---|
列の追加 | 様々な関数、条件式およびSQL演算子を使用して、新しい出力データ列をデータ・フローに追加します。 | データ・フロー内の列の追加 |
データの追加 | データ・ソースをデータ・フローに追加します。 | データ・フロー内のデータの追加 |
集計 | データ・フロー内のデータをグループ化するには、集計関数を適用します。 | データ・フローへの集計の追加 |
センチメントの分析 | データ・フローにセンチメント分析を適用することで、テキスト列に対するセンチメントを検出します。 | データ・フローへのセンチメント分析の追加 |
モデルの適用 | 機械学習モデルをデータに適用します(データ・モデルのスコアリングとも呼ばれます)。 | データ・セットへの予測モデルまたは登録済Oracle機械学習モデルの適用 |
Bin | データ値を高、中、低などのカテゴリに割り当てます。 | データ・フローでのビン化列の作成 |
分岐 | 分岐を使用して、データ・フローから複数の出力を作成します。 | 分岐を使用したデータ・フローでの複数のパイプラインの作成 |
Essbaseキューブの作成 | データ・セットからEssbaseキューブを作成します。 | データ・フローでのEssbaseキューブの作成およびカスタマイズ |
累積値 | データ・フロー内で累積集計関数を適用することでデータをグループ化します。 | データ・フローへの累積値の追加 |
データベース・アナリティクス | 異常検出やアンピボット、サンプリング、高度なクラスタリングなど、高度な分析機能を使用します(OracleデータベースまたはOracle Autonomous Data Warehouseが必要です)。 | データ・フローへのデータベース・アナリティクスの追加 |
フィルタ | データ・フロー出力でのデータを制限するには、フィルタを使用します。 | データ・フロー内のデータのフィルタ処理 |
グラフ分析 | 距離や2つの頂点間のホップ数の計算など、地理空間分析を実行します。 | グラフ分析のデータ・フローへの追加 |
グループ | データ・セット内の属性値のグループ列を作成します。 | データ・フローでのグループの作成 |
結合 | 複数の表またはデータ・セットを結合します。 | データ・フロー内の結合の追加 |
列のマージ | データ・フローの2つ以上の列を結合します。 | |
行のマージ | データ・フローの2つ以上の行を結合します。 | |
列の名前変更 | データ列の名前をよりわかりやすいものに変更します。 | データ・フロー内の列の名前変更 |
データの保存 | データ・フローを実行する前に、出力データ・セットの各列のデータベース名、属性またはメジャー、および集計ルールを変更または選択します。 | データ・フローからの出力データの保存 |
モデルの保存 | デフォルトのモデル名(無題)を変更し、説明を指定します。 | モデルの保存 |
列の選択 | データ・フローに含めるデータ列を指定します。 | データ・フローに含める列の選択 |
列の分割 | データ列内から有益なデータを抽出します。 | データ・フロー内の列の分割 |
時系列予測 | 時系列予測計算をデータ・セットに適用して行を追加作成します。 | データ・フローへの時系列予測の追加 |
二項分類子のトレーニング | 機械学習モデルをトレーニングして、データを2つの事前定義済カテゴリのいずれかに分類します。 | データ・フロー内の二項分類子モデルのトレーニング |
クラスタリングのトレーニング | 機械学習モデルをトレーニングして、似たような特質を持つグループを分離し、それらをクラスタに割り当てます。 | データ・フロー内のクラスタリング・モデルのトレーニング |
多項分類子のトレーニング | 機械学習モデルをトレーニングして、データを3つ以上の事前定義済カテゴリに分類します。 | データ・フロー内の多項分類子モデルのトレーニング |
数値予測のトレーニング | 機械学習モデルをトレーニングして、既知のデータ値に基づいて数値を予測します。 | データ・フロー内の数値予測モデルのトレーニング |
列の変換 | 様々な関数、条件式およびSQL演算子を使用して、列のデータを変更します。 | データ・フロー内のデータの変換 |
データ・フロー内の列の追加
ターゲット・データに列を追加し、書式をカスタマイズできます。たとえば、UNITS
列の単位数にRETAIL_PRICE
列の販売価格を掛けて、在庫の価額を計算できます。
データ・フロー内のデータの追加
新しいデータ・フローを作成してデータ・セットを選択すると、データ・セットの名前の付いたステップが表示されます。複数のデータ・ソースから追加のデータをデータ・フローに追加できます。
データ・フローへのセンチメント分析の追加
データ・フローにセンチメント分析を適用することで、指定されたテキスト列に対するセンチメントを検出できます。
データ・フローでのビン化列の作成
ビンを使用すると、メジャーの値に基づいて新しい列を作成して、データを分類できます。たとえば、RISK
の値を低、中、高の3つのビンに分類できます。
分岐を使用したデータ・フローでの複数のパイプラインの作成
分岐を使用して、データ・フローから複数の出力を作成します。たとえば、国に基づく販売トランザクション・データがある場合、第1分岐に米国のデータを、第2分岐にカナダのデータを保存できます。
データ・フローでのEssbaseキューブの作成およびカスタマイズ
スプレッドシートまたはデータベースからEssbaseキューブを作成します。
- 「ステップの追加(+)」をクリックして「Essbaseキューブの作成」を選択します。
- 「Essbaseキューブの作成」ペインで、接続およびアプリケーション名など、キューブを作成する値を指定します。
- 入力列を構成するには、次を実行します。
- 実行時、データ・セットを指定するためのプロンプト・オプションを選択し、パラメータを適用してEssbaseキューブ作成時のデフォルト値を変更します。
切取り、貼付けおよびスキップのルール
各列に対して実行するアクションの切取り、貼付けおよびスキップは事前構成済のルールに従います。
- 列をスキップする場合、表の「スキップ」セクションに移動します。スキップ・ヘッダーの兄弟またはスキップ済の列の兄弟としてのみ、列を貼り付けることができます。
- メジャーとして貼り付けられている列は、貼付けコマンドのルールに従います。メジャー階層が許可されていますが、指定タイプは変更されません。
- ディメンション列の「子として貼付け」アクションは次のとおりです。
- ディメンション・ヘッダーの子として列が貼り付けられている場合、切り取られた列はディメンションとして貼り付けられます。
- ディメンション列の子として列が貼り付けられている場合、次のようになります。
- 切り取られた列は世代として貼り付けられます。
- すでにディメンション列に世代の子がある場合、既存の世代(およびその子)は新しい世代列の子になります。
- 世代列の子として列が貼り付けられている場合、次のようになります。
- 切り取られた列が別名、属性またはUDAである場合、切り取られた列は世代の子として貼り付けられます。
- 切り取られた列が別名、属性またはUDAではない場合、切り取られた列は世代として貼り付けられます。
- ターゲットが別名、属性またはUDAの場合、ディメンション列の「子として貼付け」は許可されません。
- ディメンション列の「兄弟として貼付け」アクションは次のとおりです。
- ディメンション列の兄弟として列が貼り付けられている場合、ディメンションとして貼り付けられます。
- 列が属性、別名またはUDAの子として貼り付けられていて、列が別名、属性またはUDAでない場合、列は属性として貼り付けられます。
- ターゲットが世代である場合、ディメンション列の兄弟として貼付けは許可されません。
データ・フロー内のデータのフィルタ処理
フィルタを使用して、データ・フロー出力に含まれるデータの量を制限します。たとえば、フィルタを作成すると、売上収益データを2017年から2019年までに制限できます。
- 「ステップの追加(+)」をクリックして「フィルタ」を選択します。
- 「フィルタ」ペインで、フィルタ処理するデータ要素を選択します。
- 「使用可能なデータ」ダイアログで、「フィルタの追加(+)」を使用して、フィルタ処理するデータ要素を選択します。あるいは、「データ・パネル」の「データ要素」をクリックして、データ要素を「フィルタ」ペインにドラッグ・アンド・ドロップできます。
- 「フィルタ・フィールド」を使用して、フィルタの値、データまたは選択を変更します(たとえば、最大範囲と最小範囲)。データ要素に基づいて、特定のフィルタ・フィールドが表示されます。複数のフィルタを1つのデータ要素に適用できます。
- 「フィルタ」メニュー・アイコンを使用して、フィルタ選択項目のクリア、およびフィルタの無効化または削除を行う関数を選択します。
- 「フィルタ」ペインのメニュー・アイコンを使用して、すべてのフィルタ選択項目のクリア、すべてのフィルタの除去、およびフィルタの自動適用を行う関数を選択します。式フィルタを追加するために選択できます。
- 「式フィルタの追加」を使用して、式フィルタを選択して追加します。f(x)をクリックし、関数タイプを選択してからダブルクリックして「式」フィールドに関数を追加します。次に、「適用」をクリックします。
- 「自動適用フィルタ」を使用して、「デフォルト(オン)」などのフィルタの自動適用オプションを選択します。
データ・フローでのグループの作成
定義したグループに数値以外のデータを分類できます。たとえば、Communication
やDigital
という部門に対するオーダーをTechnology
というグループに配置し、Games
やStream
に対するオーダーをEntertainment
というグループに配置できます。
- 「ステップの追加(+)」をクリックして「グループ」を選択します。
- 作成するグループごとに「グループ」ペインを使用します:
- 別のグループを追加するには、「グループ」(+)をクリックします。
データ・フロー内の結合の追加
複数のデータ・ソースからデータをデータ・フローに追加するとき、それらを共通の列に結合できます。たとえば、顧客IDフィールドを使用してOrders
データ・セットをCustomer_orders
データ・セットに結合できます。
データ・フロー内の列のマージ
複数の列を単一の列に結合できます。たとえば、番地、番地名、都道府県および郵便番号の列がビジュアライゼーションに1つの項目として表示されるように、これらの列をマージできます。
- 「ステップの追加(+)」をクリックし、「列のマージ」を選択します。
- 「列のマージ」ペインのオプションを使用してマージを構成します:
- (+)「列」フィールド: マージする列をさらに選択します。
- 「デリミタ」フィールド: 列名を区切るデリミタを選択します(たとえば、空白、カンマ、ピリオドまたはカスタム・デリミタ)。
データ・フロー内の列の名前変更
列の名前を変更して、生成されたデータ・セットによりわかりやすいデータ列名を作成します。
- 「ステップの追加」(+)をクリックし、「列の名前変更」を選択します。
- 「名前変更」フィールドを使用して、生成されたデータ・セットの列によりわかりやすい名前を指定します。
データ・フローからの出力データの保存
データ・フローで作成されたデータについて、デフォルト名および説明を変更したり、データの保存場所を指定したり、ランタイム・パラメータを指定できます。データ・フローからの出力をデータベースに保存する場合は、開始する前に、サポートされているデータベース・タイプのいずれかへの接続を作成します。
-
データ・セット記憶域を選択した場合は、「データ」ページに移動し「データ・セット」を選択すると、出力データ・セットがリスト内に表示されています。
-
「アクション・メニュー」をクリックするか、右クリックして「検査」を選択し、データ・セット・ダイアログを開きます。
-
データ・セット・ダイアログで「データ要素」をクリックし、「データの保存」ステップで各列に対して選択した「処理形式」および「集計」ルールを確認します。
-
-
出力データをデータベースに保存した場合は、そのデータベースの表に移動して出力データを検査します。
モデルの保存
モデルのデフォルト名を変更して、説明を追加できます。
データ・フローに含める列の選択
データ・フローに含める列を選択します。デフォルトでは、すべてのデータ列がデータ・フローに含まれます。
- 「ステップの追加」(+)をクリックし、「列の選択」を選択します。
- 画面上のオプションを使用して、列を選択または削除します。
データ・フロー内の列の分割
連結データの列から有益なデータを取り出すことができます。たとえば、列に001011Black
が含まれる場合、このデータを001011
とBlack
という2つの個別の列に分割できます。
- 「ステップの追加」(+)をクリックして「列の分割」を選択します。
- 「列の分割」パネルのオプションを使用してデータ・フローを構成します。
- 「列の分割」オプションで、「列の選択」をクリックし、分割するデータ列を指定します。列がすでに選択されている場合、列名をクリックすると別の列を選択できます。
- 「オン」を使用して、列をデリミタで分割するか、位置で分割するかを指定します。列にカンマや空白などの区切り文字が含まれる場合、「デリミタ」を選択します。列に区切り文字が含まれない場合、「位置」を選択します。位置で分割した場合、2つの新しい列のみを作成できます。
- (「オン」が「デリミタ」に設定されている場合に表示されます)「デリミタ」を使用して、データ列で使用されるセパレータ(スペース、カンマ、カスタムなど)を指定します。
- (「オン」が「位置」に設定されている場合に表示されます)「位置」を使用して、2番目の列の開始位置を指定します。たとえば、列に
AABBBCCCDDD
が含まれる場合、6を指定すると、AABBB
が最初の列に、CCCDDD
が2番目の列に配置されます。 - 「作成するパート数」を使用して、「オン」が「デリミタ」に設定されている場合に作成する新規列の数を指定します(「オン」が「位置」に設定されている場合、デフォルト値の2は変更できません)。たとえば、ソース・データ列に
AA BBBBB CCC DD
が含まれる場合、4を選択すると、各部分文字列が異なる列に配置されます。 - 「発生」を使用して、新しい各列に含めるソース列の部分文字列の数を指定します。「デリミタ」が「空白」に設定されている場合のデータ
AA BBBBB CCC DD
に基づく例: -
- 「発生」を1に、「作成するパート数」を1に設定した場合、新規列には
AA
が含まれます。「発生」を2に設定した場合、新規列にはAA BBBBB
が含まれます。 - 「発生」を1に、「作成するパート数」を2に設定した場合、最初の新規列には
AA
が、2番目の新規列にはBBBBB CCC DD
が含まれます。 - 「発生」を1に、「作成するパート数」を4に設定した場合、最初の新規列には
AA
が、2番目の新規列にはBBBBB
が、3番目の新規列にはCCC
が、4番目の新規列にはDD
が含まれます。
- 「発生」を1に、「作成するパート数」を1に設定した場合、新規列には
- 「新規列< number>」名を使用して、新しい列のデフォルト名をよりわかりやすい名前に変更します。横のチェック・ボックスを使用して新規列の表示と非表示を切り替えます。
データ・フローへの時系列予測の追加
時系列予測計算を適用して、予測値を計算できます。
- 「ステップの追加(+)」をクリックして「時系列予測」を選択します。
- 「時系列予測」ペインおよび「出力」セクションで、予測値の出力列を指定します。
- 「時系列予測」ペインで、予測計算を構成します
- 「ターゲット」を使用して、履歴値を含むデータ列を選択します。
- 「時間」を使用して、日付情報が含まれる列を選択します。予測値では日次グレインを使用します。
- 「期間」を使用して、グループごとに予測される期間数(日数)を示す値を選択します。
データ・フロー内の二項分類子モデルのトレーニング
既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。
- 「ステップの追加」(+)をクリックし、「二項分類子のトレーニング」を選択します。
- 「二項分類モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、Naive Bayesを選択します。
- 「列の選択」をクリックし、分析するデータ列を選択します。
- 画面上のオプションを使用して、スクリプト・パラメータを構成します。
データ・フロー内のクラスタリング・モデルのトレーニング
既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。
- 「ステップの追加」(+)をクリックし、「クラスタリングのトレーニング」を選択します。
- 「クラスタリング・モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、モデル・トレーニング用の階層的クラスタリングを選択します。
- 画面上のオプションを使用して、スクリプト・パラメータを構成します。
データ・フロー内の多項分類子モデルのトレーニング
既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。
- 「ステップの追加」(+)をクリックし、「多項分類子のトレーニング」を選択します。
- 「二項分類モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、Naive Bayesを選択します。
- 「列の選択」をクリックし、分析するデータ列を選択します。
- 画面上のオプションを使用して、スクリプト・パラメータを構成します。
データ・フロー内の数値予測モデルのトレーニング
既存のデータを使用して機械学習モデルをトレーニングし、モデルが既知の結果の予測においてどの程度正確であるかを評価します。
- 「ステップの追加」(+)をクリックし、「数値予測のトレーニング」を選択します。
- 「数値予測モデル・トレーニング・スクリプトの選択」ダイアログで、スクリプト・タイプを選択し、「OK」をクリックします。たとえば、数値モデル・トレーニング用のRandom Forestを選択します。
- 「列の選択」をクリックし、分析するデータ列を選択します。
- 画面上のオプションを使用して、トレイン・モデルを構成します。
データ・フロー内のデータの変換
データ・フローを使用してデータを変換できます。たとえば、テキストを大文字に変換したり、データの先頭および末尾のスペースをトリミングできます。
- 列内のデータを更新または変更します。
- データ・セットの複数の列をグループ化またはマージします。
- データ・セットに対して列の追加または列の除去を行います。