プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

ワークフローの概要

このトピックでは、データ処理ワークフローの概要について説明します。

データ処理コンポーネントが実行されると、一連のステップが実行されます。これらのステップは、「データ処理ワークフロー」と呼ばれます。 多くのワークフローは、初期データのロード、データの更新または未使用データ・セットのクリーン・アップ用です。

すべてのデータ処理ワークフローは、Studio (自動的に実行される)またはDP CLI (コマンド行インタフェース)ユーティリティから起動されます。

どちらの場合も、ワークフローが実行されると、「探索」やStudioの「変換」などのユーザー・インタフェースの様々な部分が明確になります。 たとえば、「探索」で新しいソース・データ・セットが検出に使用可能になります。 または、「変換」でプロジェクト・データ・セットを変更できます。 これらのすべてのアクションの背後に、Big Data Discovery内の「データ処理ワークフロー」と呼ばれるプロセスを適用します。 このガイドでは、これらのプロセスについて詳しく説明します。

たとえば、データをロードするためのデータ処理(DP)ワークフローは、Hive表からデータとメタデータを抽出し、Dgraphでデータ・セットとして収集するプロセスです。 抽出されたデータはDgraphレコードに変換されますが、メタデータではBDDデータ・セットを定義するDgraph属性などのレコードのスキーマが提供されます。

データ・セットがDgraphに収集されると、Studioユーザーはデータ・セットを表示し、そのデータ・セット内のレコードを問い合せることができます。 また、Studioユーザーは、データ・セットを変更(変換)したり、削除することもできます。

すべてのデータ処理ジョブは、Sparkワーカーによって実行されます。 データ処理は非同期的に実行されます - 各Hive表のキューにSparkジョブが配置されます。 最初のHive表で最初のSparkジョブが終了すると、2番目のSparkジョブ(2番目のHive表)が開始され、これが繰り返されます。

BDDデータ・セットはStudioユーザーによって削除できますが、BDDソフトウェアのデータ処理コンポーネントではHive表を削除できないことに注意してください。 したがって、Hive管理者は不要なHive表を削除できます。

DataSet Inventory

DataSet Inventory (DSI)は、使用可能なデータ・セットをデータ処理で追跡するための内部構造です。 DSIの各データ・セットには、そのデータ・セットの特性を説明するメタデータが含まれています。 たとえば、データ・セットを最初に作成すると、ソースHive表の名前およびソースHiveデータベースは、そのデータ・セットのメタデータに格納されます。 メタデータには、データセットのスキーマも含まれます。

DataSet Inventoryは、各データ・セットのingestStatus属性を含み、データ・セットが完全にプロビジョニングされた(つまり、Studioプロジェクトに追加する準備ができている)かどうかを示します。 このフラグは、収集の完了時にDgraph HDFSエージェントによって通知された後、Studioによって設定されます。

属性の言語設定

通常のデータ処理ワークフローでは、すべての属性の言語設定は特定の言語(英語やフランス語など)またはunknown (DPワークフローでは特定の言語が使用されません)です。 デフォルト言語はStudioのインストール時に設定され、bdd.confファイルのLANGUAGEプロパティでDP CLIが設定されます。 ただし、StudioとDP CLIの両方がデフォルト言語設定をオーバーライドし、ワークフローに別の言語コードを指定できます。 サポートされている言語のリストは、『「サポートされている言語」』を参照してください。