プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

Studioのデータ・セット・ライフサイクル

Big Data Discoveryを介したデータ・セットの流れとして、それがどのように動作するかを把握することが有用です。

データ・セット・ライフサイクルについて説明する前に、BDDがHive内で見つかったソース・データ・セットとどのように相互作用するかを示します:
  • BDDは、ソースHive表の更新や削除を行いません。 BDDが実行される場合は、BDDデータ・セットを表すために、新規のHive表のみが作成されます。 このようにして、Big Data Discoveryの外部で使用する場合、ソースHive表はそのまま保持されます。
  • BDDデータ・セット・ライフサイクルのほとんどのアクションは、ユーザーが選択すると実行されます。 実行する処理を制御します。 BDD内の索引付けは、自動的に実行されるステップです。

この図は、データ・セット・ライフサイクルがBDD内を流れるステージを示しています:

Big Data Discoveryを通るデータ・セット・ライフサイクル

この図では、データ・セットは次のステージに移動します:
  1. データ・セットの「作成」 BDDのデータ・セットは、次のいずれかの方法で作成します:
    • Studioを使用してソース・データをアップロードしています。 デリミタ付きファイルでソース・データをアップロードし、JDBCデータ・ソースからアップロードできます。 ソース・データをアップロードすると、BDDはソース・データ・ファイルに基づいて、対応するHiveソース表を作成します。
    • データ処理CLIを実行し、Hiveの表を検出し、ソースHiveの表に基づいてStudioでデータ・セットを作成します。 各ソースのHive表には、Studioの対応するデータ・セットがあります。

    Studioのデータ・セットのカタログには、2つのタイプのデータ・セットが表示されます。 個人的にロードされるファイルまたはJDBCソースを基にしたデータ・セットもあります。 その他のデータ・セットは、ソースHive表からのデータ処理によってロードされます。

  2. 必要に応じて、「エンリッチ」データ・セットを選択できます。 データ処理ワークフローのデータ・エンリッチメント・ステップでは、データ・セットをサンプリングし、これに対してデータ・エンリッチメント・モジュールを実行します。 たとえば、次のエンリッチメント・モジュールを実行できます: 言語検出、用語頻度/逆ドキュメント頻度(TF/IDF)、ジオコーディング・アドレス、ジオコーディングIPおよびリバース・イメージ。 データ・エンリッチメント・プロセスの結果は、Studioのデータ・セットに格納され、Hiveの表には格納されません。

    注意:

    BDDのデータ処理(DP)コンポーネントでは、オプションでデータ・セットの作成の一部としてこのステップが実行されます。
  3. データ・セットの「索引の作成」 Dgraphプロセスを実行すると、データ・セット(およびその他の構成)を表すDgraphデータベースと呼ばれるバイナリ・ファイルが作成されます。 Dgraphは、Studio問合せに応答して各データ・セットのデータベースにアクセスします。 これで、データ・セットを探索できます。
  4. データ・セットに対する「管理」アクセス権。 データ・セットをアップロードした場合、そのデータ・セットへのプライベート・アクセス権があります。 これを変更して他のユーザーにアクセス権を付与できます。 Hiveが起点とするデータ・セットはパブリックです。 Studio管理者はこれらの設定を変更できます。
  5. データ・セットの「変換」 これを行うには、「変換」の様々な変換オプションを使用します。 さらに、新しいデータ・セットを作成し(これにより新しいHive表が作成されます)、変換スクリプトをコミットして既存のデータ・セットを変更できます。

    変換スクリプトの変更をコミットすると、Studioによって変更がDgraphに書き込まれ、変更内容がデータ・セット用のDgraphデータベースに格納されます。 Studioでは、データ・セットの新しいHive表は作成されません。 Dgraphのデータ・セットを変更しようとしていますが、ソースHive表自体は変更できません。

  6. データ・セットの「更新」 データ・セットを更新するには、いくつかのオプションがあります。 たとえば、個人データファイルからデータ・セットをロードした場合、またはJDBCソースからインポートした場合は、カタログにあるこのデータ・セットの新しいバージョンを再ロードできます。 データ・セットがHiveからロードされた場合は、DP CLIを使用してデータ・セットのデータをリフレッシュできます。

    「完全データ・セットのロード」を使用することもできます。 このオプションは、サンプルを表すデータ・セットに役立ちます。 データ・セットがプロジェクトに含まれる場合は、DP CLIを使用した増分更新用のデータ・セットも構成できます。

  7. データ・セットの「エクスポート」 データ・セットがプロジェクト内にある場合は、それをエクスポートできます。 たとえば、変換を適用した後で、データ・セットをHDFSにエクスポートできます。 これにより、他のツールを使用してこのデータ・セットの操作を続行できます。 また、データ・セットをエクスポートして、カタログで新しいデータ・セットを作成することもできます。 この図で「エクスポート」が最後のステップとして表示されている場合でも、データ・セットをプロジェクトに追加した後で、ライフサイクルの任意のステージでデータ・セットをエクスポートできます。
  8. データ・セットの「共有」 データ・セット・ライフサイクルのどのステージでも、データ・セットを他のユーザーと共有できます。
  9. データ・セットの「削除」 Studioからデータ・セットを削除すると、データ・セットはカタログから削除され、Studioでアクセスできなくなります。 ただし、データ・セットを削除しても、このデータ・セットをロードすると、BDDによって作成された対応するソースHive表は削除されません。

    BDDは元のソースHive表を更新または削除しない点に注意してください。 BDDは、BDDデータ・セットを表す新規のHive表を作成するのみです。 Hiveデータ・ベース・クリーンを保持するために、必要に応じて、古い表を削除するようHiveデータ・ベース管理者に依頼することが必要な場合があります。 Hiveデータ・ベース管理者がデータ・ベースからHive表を削除すると、Hive表Detectorは表が削除されたことを検出し、対応するデータ・セットをStudioのカタログから削除します。 Hive Table Detectorは、BDDのデータ処理コンポーネントのユーティリティです。