Oracle Big Data Discoveryには、同時にインストールされる多数の個別のコンポーネントがあります。
Studioは、Big Data DiscoveryのフロントエンドWebアプリケーションです。データ・セットとプロジェクトを作成および管理するために使用できるツールの他に、ユーザー・アクセスやその他の設定を管理するための管理ツールが提供されます。Studioでは、プロジェクト・データおよび構成の大半がリレーショナル・データベースに格納されます。
StudioはJavaベースのアプリケーションです。Dgraph GatewayとともにWebLogic Server内で実行されます。
Dgraph GatewayはリクエストをDgraphインスタンスに転送し、キャッシングおよびビジネス・ロジックを提供するJavaベースのインタフェースです。また、Hadoop ZooKeeperを使用してDgraphインスタンスのクラスタ・サービスを処理します。
Dgraph Gatewayは、StudioとともにWebLogic Server内で実行されます。
変換サービスはStudioのかわりに、データ・セットに対する、エンド・ユーザーが定義した変更を処理します(変換と呼ばれる)。それにより、データを保存する前に、変換によってデータにもたらされる影響をプレビューできます。
変換サービスは、Jettyコンテナ内で実行されるWebアプリケーションです。StudioやDgraph Gatewayからは分離されています。
ソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントのプロセスおよびジョブのセットをまとめてデータ処理と呼びます。これらのプロセスの多くはHadoop内で実行されるため、データ処理はHadoopノードにインストールする必要があります。
データ処理コマンド行インタフェース(CLI)では、データ処理ジョブの手動による起動およびHive表ディテクタ(次を参照)の起動を行う方法を提供します。cronジョブとして実行するよう構成することもできます。
CLIは、自動的にすべての管理対象サーバーとDgraphノードにインストールされます。後でBig Data Discoveryデプロイメントにアクセスできる任意のノードに移動できます。
Hive表ディテクタは、新規の表および削除された表についてHiveデータベースをモニターし、必要に応じてデータ処理ワークフローを起動するデータ処理コンポーネントです。
Hive表ディテクタは、CLIによって(Hive管理者によって手動で、またはCLI cronジョブを介して)起動されます。CLIをcronジョブとして実行できるようにした場合、Hive表ディテクタがcronジョブの各起動時に実行されます。
Dgraphでは、データ処理で生成されたデータ・セットを索引付けし、HDFS上か共有NFS上のデータベースに格納します。また、Dgraph Gatewayによってそれに送られた、データについてのエンド・ユーザー問合せに応答します。ステートレスであるよう設計されているため、各Dgraphインスタンスは他のインスタンスに関係なく問合せに応答できます。
Dgraphインスタンスをホストできるノードは、データベースがHDFS上またはNFS上のどちらに格納されているかで異なります。これらのノードは、BDDクラスタ内にDgraphクラスタを形成します。
Dgraph HDFSエージェントは、DgraphとHDFS環境との間のデータ転送層として機能します。DgraphのかわりにレコードをHDFSにエクスポートし、データの取込み操作時、HDFSからレコードをインポートします。
HDFSエージェントは、自動的にDgraphと同じノードにインストールされます。