Oracle Big Data Discoveryは、同時にインストールおよびデプロイされる多数の個別のコンポーネントで構成されます。これらのコンポーネントについて次に説明します。
Studioは、Big Data DiscoveryのフロントエンドWebアプリケーションです。ユーザーによるデータ・セットおよびプロジェクトの作成および管理を可能にするツールの他に、ユーザー・アクセスやその他の設定を管理するための管理ツールが提供されます。Studioでは、プロジェクト・データおよび構成の大半がリレーショナル・データベースに格納されます。
StudioはJavaベースのアプリケーションです。Dgraph GatewayとともにWebLogic Server内で実行されます。
Dgraph GatewayはリクエストをDgraphインスタンスに転送し、キャッシングおよびビジネス・ロジックを提供するJavaベースのインタフェースです。Cloudera Distribution for Hadoop (CDH) ZooKeeperパッケージを使用し、Dgraphインスタンスのクラスタ・サービスの処理も行います。
Dgraph Gatewayは、StudioとともにWebLogic Server内で実行されます。
ソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントを行うプロセスおよびジョブのセットをまとめてデータ処理と呼びます。多くのプロセスはHadoop内で実行されるため、データ処理はCDHノードにデプロイする必要があります。
データ処理コマンド行インタフェース(CLI)では、データ処理ジョブの手動による起動およびHive表ディテクタ(次を参照)の起動を行う方法を提供します。CLIは構成情報をStudioと共有するため、すべての管理対象サーバー・ノードに自動的にデプロイされます。後でBig Data Discoveryデプロイメントにアクセスできる任意のノードに移動できます。
Hive表ディテクタは、新規の表および削除された表についてHiveデータベースをモニターし、検出するとデータ処理ワークフローを起動するデータ処理コンポーネントです。CLIのcronジョブとしての実行が有効な場合、Big Data Discoveryインストーラは、デプロイメント後すぐにHive表ディテクタを起動します。
Hive表ディテクタは、CLIによって(Hive管理者によって手動で、またはCLI cronジョブを介して)起動されます。
Dgraphでは、データ処理で生成されたデータ・セットを索引付けし、共有NFSに格納します。データ・セット内のレコードに対するユーザーのリクエストへの応答も行います。
Dgraphはステートレスであるよう設計されているため、各Dgraphインスタンスは他のインスタンスに関係なくリクエストに応答できます。問合せは、Dgraph GatewayによってDgraphインスタンスに転送されます。
DgraphはBig Data Discoveryデプロイメント内の任意のノードでホストできますが、専用のノードでホストすることをお薦めします。DgraphインスタンスをホストするノードでBDDクラスタ内にDgraphクラスタが形成されます。
Dgraph HDFSエージェントは、DgraphとHDFS環境との間のデータ転送層として機能します。DgraphのかわりにレコードをHDFSにエクスポートし、データの取込み操作時、HDFSからレコードをインポートします。
HDFSエージェントはDgraphに依存します。Dgraphがデプロイされているのと同じノードにデプロイされ、Dgraphが起動すると起動し、Dgraphが停止すると停止します。