プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ処理について

BDDの「データ処理」コンポーネントは、一連のプロセスおよびジョブを実行します。 このセットは、「データ処理ワークフロー」と呼ばれます。 これらのプロセスの多くは、Hadoopでネイティブに実行されます。

データ処理コンポーネントは、BDDの複数のワークフローを制御します。 たとえば、データ・ロード、データ更新などのワークフローを作成できます。 データ処理コンポーネントは、新しいHive表を検出し、データをBDDにロードします。 データ・リフレッシュ操作および増分更新が実行されます。 また、BDDデータ・セットは、BDDによって作成されるHive表と同期します。

たとえば、データ・ロードのワークフロー中に、データ処理コンポーネントは次のタスクを実行します:
  • Hive表のデータの検出
  • BDD内のデータ・セットの作成
  • 検出されたデータ・セットに対するエンリッチメントの選択セットの実行
  • データ・セットのプロファイリング
  • データをDgraphにストリーミングすることで、データ・セットの索引を作成します。

Big Data Discoveryの開始時にデータ処理ワークフローを起動するには、「データ処理コマンドライン・インタフェース(DP CLI)」を使用します。

データ処理CLI

DP CLIは、Hadoopでデータ処理ワークフローを起動するシェルLinuxユーティリティです。 ステップと動作を制御できます。 DP CLIは手動で、またはcronジョブから実行できます。 データ処理ワークフローは、Hiveの個々の表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。 これは、ブラックリストやホワイトリストなど、DP CLI設定に依存します。

DP CLIを使用して実行できるジョブの一部を次に示します:
  • Big Data Discovery (BDD)のインストール後、Hive表からデータをロードします。 BDDを最初にインストールするときには、既存のHive表は処理されません。 表でデータ処理操作を起動するには、DP CLIを使用する必要があります。
  • データ更新の実行 これには次のものがあります。
    • データをリフレッシュする操作。 Studioプロジェクトに既存のデータ・セットが再ロードされ、データ・セットのコンテンツがHiveからの最新データで完全に置換されます。
    • 増分更新。 Studioプロジェクト内の既存のデータ・セットに新しいデータを追加します。
  • BDD Hive Table Detectorを起動します(これはデータ処理のユーティリティです)。 BDD Hive表検出では、新しい表がHiveに追加されたかどうかが検出されます。 次に、ホワイトリストとブラックリストをチェックします。 表が渡す場合は、BDDにデータ・セットが作成されます。 また、対応するソースHive表を持たないBDDデータ・セットも削除されます。 これにより、BDDデータセットとHiveのデータ・セットの同期が維持されます。 データ・セットのBDDでの管理方法の詳細は、「Studioのデータ・セット・ライフサイクル」を参照してください。

データ処理およびDP CLIの詳細は、「データ処理ガイド」を参照してください。