Dgraphについて

Dgraphは、データ・セットの検索分析処理を実行するBig Data Discoveryのコンポーネントです。これは、ユーザーがデータ・セットに対して行う問合せリクエストを扱います。

Dgraphは、データ構造とアルゴリズムを使用して、分析処理とデータ・サマリーのクライアント・リクエストにリアルタイムに応答します。ソース・データがBig Data Discoveryにロードされると、Dgraphは各データ・セットに対して個別のDgraphデータベースを作成します。DgraphがStudioを介してクライアント・リクエストを受け取ると、Dgraphは適切なデータベースに問合せを行い、結果を返します。

Oracle Big Data Discoveryクラスタには、共有記憶域のDgraphデータベースにアクセスしているエンド・ユーザー問合せリクエストを処理する1つ以上のDgraphプロセスがあります。Big Data DiscoveryクラスタのDgraphの1つは特定のデータベースのリーダーであるため、そのデータベースのすべての書込み操作(更新、構成変更)の処理を担当する一方で、残りのDgraphは読取り専用のフォロワとして機能します。

Dgraphデータベースについて

データ・セットが作成されると(Studioから、またはDP CLIを介して)、Dgraphはそのデータベースを作成します。(Dgraphデータベースは索引とも呼ばれます。)Dgraphデータベースは次のように命名されます。
<dataset>_indexes
ここで、datasetはデータ・セットの名前で、「_indexes」はデータ・セット名の後ろに付きます。次に例を示します。
edp_cli_edp_256b0c6b-cacf-478c-80bf-b5332f4f37ae_indexes

各データ・セットは独自のDgraphデータベースを持ち、1つのDgraphデータベースについて1つのデータ・セットだけが存在します。データベースはbdd.confファイルのDGRAPH_INDEX_DIRプロパティで指定したディレクトリに格納されます。このディレクトリをDgraphデータベース・ディレクトリと呼びます。

Dgraphデータベース・ディレクトリにはシステムにより作成される3つの内部データベース(Studioが使用)も含まれています。
  • system-bddProjectInventory_indexes
  • system-bddDatasetInventory_indexes
  • system-bddSemanticEntity_indexes

たとえば、2つのデータ・セット、WineおよびWeatherをStudioで作成した場合、Dgraphデータベース・ディレクトリは5つのデータベースを作成します(2つのデータ・セットにつきそれぞれ1つのデータベースと3つの内部データベース)。Dgraphデータベース・ディレクトリに他のデータベースも確認できる場合もありますが、これらは変換されたデータ・セットをコミットした結果として、作成されることがあります。

このダイアグラムは次の例を示しています。

このダイアグラムは、Dgraphデータベース・ディレクトリに、BDDの各データ・セットについて複数のデータベース(索引)が含まれていることを示しています。

Dgraphデータベースが作成されると、Dgraphにより自動的にマウントされます。アンマウントされたデータベースも、そのデータベースのデータにアクセスする問合せをDgraphが受け取ると、自動的にマウントされます。データベースがマウントされるときに、この例のようにログ・エントリがDgraph出力ログに作成されます。
DGRAPH	NOTIFICATION  	{database}	[0]	Mounting database edp_cli_edp_256b0c6b-cacf-478c-80bf-b5332f4f37ae

このエントリはDgraphデータベース・ログ・サブシステムにより作成されます。

データベース名は他のBDDコンポーネント・メッセージにも表示されます。たとえば、YARNログのDPワークフローの名前には次のデータベース名が含まれます。
EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=warrantyclaims, 
newCollectionId=MdexCollectionIdentifier{databaseName=edp_cli_edp_256b0c6b-cacf-478c-80bf-b5332f4f37ae, 
collectionName=edp_cli_edp_256b0c6b-cacf-478c-80bf-b5332f4f37ae}}

データベース名はStudio、Dgraph HDFSエージェントおよびトランスフォーム・サービスのログにも表示されます。

HDFS Data at Rest暗号化に対するDgraphのサポート

HDFS Data at Rest暗号化機能は有効にした場合、encryption zonesと呼ばれる暗号化されたHDFSディレクトリにデータを格納できます。暗号化ゾーンのすべてのファイルは透過的に暗号化され、クライアント・サイドで復号化されます。したがって、復号化されたデータがHDFSに格納されることはありません。

HDFS Data at Rest暗号化を有効にした場合は、DgraphデータベースをHDFSの暗号化ゾーンに格納できます。HDFS Data at Rest暗号化を有効にする詳細は、インストレーション・ガイドを参照してください。

Dgraphトレース・ユーティリティ

Dgraphトレース・ユーティリティは、Oracleサポートで使用されるDgraph診断プログラムです。Dgraphトレース・データを格納し、これはDgraphのトラブルシューティングに役立ちます。Dgraphが起動すると起動し、Dgraphのすべての操作を追跡します。Dgraphが停止すると停止します。トレース・データを保存およびダウンロードして、Oracleサポートと共有できます。

トレース・ユーティリティは、*.ebbファイルで収集されたDgraphターゲット・トレース・データを格納し、これはDgraphクラッシュの分析に役立ちます。ファイルは、Oracleサポートによる使用を目的としています。ファイルは、$DGRAPH_HOME/binディレクトリに保存されます。get-blackbox.で説明したように、bdd-adminスクリプトのget-blackboxコマンドを使用してトレース・データを手動で生成し、保存することもできます。