データ処理について

BDDのデータ処理コンポーネントは、一連のプロセスおよびジョブを実行します。このセットはデータ処理ワークフローと呼ばれます。これらのプロセスの多くはHadoopでネイティブに実行されます。

データ処理コンポーネントは、BDDの複数のワークフローを制御します。たとえば、データ・ロードやデータ更新などのワークフローを作成できます。データ処理コンポーネントは、新しいHive表を検出し、データをBDDにロードします。これは、データのリフレッシュ操作と増分更新を実行します。また、BDDデータ・セットと、BDDによって作成されるHive表の同期も維持します。

たとえば、データ・ロード・ワークフロー中に、データ処理コンポーネントは次のタスクを実行します。

Big Data Discoveryの起動時にデータ処理ワークフローを実行するには、データ処理コマンドライン・インタフェース(DP CLI)を使用します。

データ処理CLI

DP CLIは、Hadoopのデータ処理ワークフローを起動するシェルLinuxユーティリティです。それらのステップおよび動作を制御できます。DP CLIは手動またはcronジョブから実行できます。データ処理ワークフローは、個々のHive表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。これは、ブラックリストやホワイトリストなどのDP CLIの設定によって異なります。

DP CLIで実行可能なジョブの一部を次に示します。
  • Big Data Discovery (BDD)のインストール後にHive表からデータをロードする。BDDを初めてインストールする場合、既存のHive表は処理されません。DP CLIを使用して、表に対してデータ処理操作を起動する必要があります。
  • データ更新を実行する。これには次のものがあります。
    • データのリフレッシュ操作。Studioプロジェクトの既存のデータ・セットをリロードし、データ・セットの内容全体をHiveからのデータ・セットで置き換えます。
    • 増分更新。Studioのプロジェクトの既存のデータ・セットに新しいデータを追加します。
  • BDD Hive表ディテクタを起動する。新しい表がHiveに追加されているかどうかを検出します。次に、ホワイトリストとブラックリストをチェックします。それらが表から渡されると、データ・セットをBDDに作成します。また、対応するソースHive表がないBDDデータ・セットを削除します。BDDデータ・セットとHive内のデータ・セットの同期を維持します。

データ処理およびDP CLIの詳細は、『Oracle Big Data Discoveryデータ処理ガイド』を参照してください。