プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

プロジェクトのBDDアプリケーションへの変換

「BDDアプリケーション」は、長期的なデータ分析、レポートおよび共有を行うために変換、更新、維持する1つ以上のデータ・セットを含むプロジェクトの論理的な指定です。 このリリースでは、アプリケーションを製品品質プロジェクトとみなすことができます。 この項では、プロジェクトをBDDアプリケーションに変換する高度なワークフローについて説明し、必要に応じて詳細な手順の参照先を示します。

プロジェクトをアプリケーションに変換する前に、実行しておく必要のある多くのタスクがあります。 次のタスクはどのプロジェクトにも共通であり、BDDアプリケーションの構築に固有ではありません:
  1. データ・セットを作成します。 これは、Studioでソース・データをアップロードするか、Hive表を作成してデータ処理ワークフローを実行することで行えます。
  2. 1つ以上のデータ・セットをプロジェクトに追加します。 詳細は、「既存プロジェクトへのデータ・セットの追加」を参照してください。
  3. データ・セットおよびプロジェクトに対するアクセス権限の設定。 詳細は、「プロジェクトへのアクセスの管理」を参照してください。
  4. 必要に応じて、プロジェクト・データ・セットを変換して、属性および属性値をクリーンアップします。 これには、属性の再フォーマット、データ型の変更、より具体的な属性への分割、新しい属性の作成などが含まれます。 詳細は、「変換ページのユーザー・インタフェースについて」を参照してください。
  5. より製品に近い方法で保持する必要があるDiscoverのデータをビジュアル化するためのコンポーネントを構築します。

プロジェクトをBDDアプリケーションに変換するには:

  1. (オプション)ソース・データをStudioにアップロードして1つ以上のデータ・セットを作成した場合は、各データ・セットのソースを変更して、新しいHive表を指すようにする必要があります。 データ・セットがHiveで直接作成された表に基づいている場合、このステップは必要ありません。 (このステップは、データ・エンコーディングの理由に必要です。)
    1. In Studioで、「データ・セット・プロパティの表示」をクリックして、データ・セットの現在のHive表名を検索します。 名前はdefault.my_uploaded_dataの形式になります。
    2. HadoopディストリビューションのHive問合せエディタを参照します。 たとえば、Cloudera環境ではHueのHive Query Editorです。
    3. 次のHiveコマンドを実行し、データ・セットのHive表名を指定します:
      SHOW CREATE TABLE `default.my_uploaded_data`
    4. 結果の表作成コマンドをコピーし、テキスト・エディタで変更します。 データ・セット・ソース・ファイルのHDFS内の新しいロケーションを指すように、表定義を変更します。 Hive型を使用して列のデータ型を指定します。デフォルトでは、表の説明はすべての属性を文字列として表示します。 また、必要に応じて、行形式、記憶域形式、SerDeなどの表エンコーディングのプロパティを、ソース・ファイルのエンコーディングと一致させます。 オプションで、その他の表プロパティを、dataSetDisplayNameやコメントなど、必要に応じて変更します。
    5. 表の削除を実行して、既存のHive表を削除します。
      DROP TABLE `default.my_uploaded_data`
    6. 新しい表作成コマンドを実行して、名前と列は同じですが、新しいソース・ファイルのロケーションとエンコーディングを使用して表を再作成します。
    7. テストでは、"Hue to Metastore"表を参照して、新しい表定義が正しいことをテストします。 再作成されたHive表を検索し、サンプルをクリックします。 必要に応じて、Hive問合せを実行して表内の行数をカウントし、予期されるデータ・セット・サイズを確認します。
    8. 「データ・ソース・タイプ」の値がExcel、区切りまたはJDBCであるプロジェクト内のデータ・セットごとにこれらのステップを繰り返します。
    重要: 古いHive表と同じ名前を持つ新しいHive表が作成されたので、即座にこのカタログのこの特定のデータ・セットを探すためのアクション > データ・セットのリロード機能は使用しないでください。 「データ・セットのリロード」機能によってファイルのアップロード・ウィザードが起動され、作成したばかりの本番Hive表を上書きできます。
  2. 必要に応じて、データの増分更新を実行する場合にプロジェクトのレコード識別子を指定します。
    詳細は、「増分更新のためのプロジェクトのデータ・セットの構成」を参照してください。
  3. 完全なデータ・セットをプロジェクトにロードします。
    可視化および分析にレコード・セット全体が含まれるように、このステップですべてのソース・データを提供します。 詳細は、「プロジェクト内のフル・データ・セットのロード」を参照してください。
  4. データ処理CLIジョブおよびcronジョブを使用して、データ・セットの更新をスケジュールします。
    詳細は、「データ処理ガイド」のDP CLI構成およびDP CLIのcronジョブを参照してください。