データ・フローについて

データ・フローでは、データを整理および統合して、ユーザーがビジュアル化できるキュレートされたデータセットを作成できます。

データ・フローを使用すると、手動コーディングのスキルがなくてもデータを視覚的に操作できます。

たとえば、データ・フローを使用して、次のことを実行できます:

  • データセットの作成。
  • ソースが異なるデータの結合。
  • データの集計。
  • 機械学習モデルのトレーニングまたはデータへの予測機械学習モデルの適用。
  • OCI Visionサービスによる人工知能を使用した、オブジェクト検出、イメージ分類またはテキスト検出の実行。

データ・フローは、データ・フロー・エディタで作成します。
データ・フロー・エディタ

データ・フローを構築するには、ステップを追加します。各ステップでは、データの追加、表の結合、列のマージ、データの変換、データの保存など、特定の機能を実行します。ステップを追加して構成するには、データ・フロー・エディタを使用します。各ステップは、追加または変更時に検証されます。データ・フローを構成したら、それを実行してデータセットを作成または更新します。

独自の列を追加したりデータを変換する際には、様々なSQL演算子(BETWEEN、LIKE、INなど)、条件式(CASEなど)、および関数(Avg、Median、Percentileなど)を使用できます。

データ・フローのデータベース・サポート

データ・フローを使用すると、データセット、サブジェクト領域またはデータベース接続からデータをキュレートできます。

データ・フローは、個別または順番に実行できます。データ・フローに複数のデータ・ソースを含め、それらの結合方法を指定できます。

データ・フローにデータを追加するには「データの追加」ステップを使用し、データ・フローの出力データを保存するには「データの保存」ステップを使用します。

データ・フローからの出力データは、データセットまたはサポートされるデータベース・タイプのいずれかに保存できます。データベースにデータを保存する場合、データ・フローのデータで上書きすることにより、データ・ソースを変換できます。データ・ソースおよびデータ・フローの各表は同一データベースに含まれ、同じ名前である必要があります。開始する前に、サポートされているデータベース・タイプの1つへの接続を作成します。

データ出力

データ・フローの出力データは、次のデータベース・タイプに保存できます:
  • Oracle Autonomous Data Warehouse
  • Oracle Autonomous Transaction Processing
  • Oracle Database
  • Apache Hive
  • Hortonworks Hive
  • MapR Hive
  • Spark

データ入力

データ・フローには、ほとんどのデータベース・タイプ(Oracle EssbaseおよびEPM Cloudを除く)からデータを入力できます。

データ・フロー・エディタでの作業

分析用のデータは、データ・フロー・エディタでデータ・フローを作成して準備します。たとえば、列の変換、列のマージ、またはビンへのデータのカテゴライズを行います。データの準備をすぐに始められるよう、データ・フロー・エディタの使用方法を確認しましょう。

データ・フロー・エディタでの作業:

名前 アイコン 処理の内容
データ

データ・ペイン・アイコン

データ・ペインを表示します。ここでデータ列をデータ・フロー・エディタにドラッグ・アンド・ドロップできます。

データ・フロー・ステップ 「データ・フロー・ステップ」ペイン・アイコン

ステップ・ペインを表示します。ここでステップをデータ・フロー・エディタにドラッグ・アンド・ドロップできます。

データ・プレビュー

「データ・プレビュー」アイコン

データ・フロー・エディタの右下隅にある「データ・プレビューの切替え」をクリックして、「データのプレビュー」列ペインの表示と非表示を切り替えます。このペインは、データ・フローに変更を加えると自動的に更新されます。「自動適用」をクリックすると、「データのプレビュー」ペインでステップ変更を自動的にリフレッシュするかどうかを指定できます。

データ・フローの実行 データ・フローの実行 データ・フローを実行します。
使用可能な関数の表示/関数の非表示

「使用可能な関数の表示」/「関数の非表示」アイコン

式ピック・リストの表示と非表示を切り替えます。このアイコンは、「列の追加」ステップや「列の変換」ステップなど、独自の式を作成できるステップに対してのみ表示されます。

ステップ・エディタ

「ステップ・エディタ」アイコン

データ・フロー・エディタの右下隅にある「ステップ・エディタの切替え」アイコンをクリックして、「ステップ・エディタ」ペインの表示と非表示を切り替えます。

自動リフレッシュの切替え データ・フローのデータの自動リフレッシュを切り替えます オンにすると、データ・フローで変更を行ってすぐに、データ・プレビューがリフレッシュされます。たとえば、テキストを小文字から大文字に変更する列の変換ステップがある場合、データ・プレビューには大文字のテキストが表示されます。オフにした場合、データ・プレビューがリフレッシュされるのは、「データ・プレビューのリフレッシュ」をクリックした場合のみです。