プロジェクトのBDDアプリケーションへの変換

「BDDアプリケーション」は、長期的なデータ分析、レポートおよび共有を行うために変換、更新、維持する1つ以上のデータ・セットを含むプロジェクトの論理的な指定です。このリリースでは、アプリケーションを製品品質プロジェクトとみなすことができます。この項では、プロジェクトをBDDアプリケーションに変換する高度なワークフローについて説明し、必要に応じて詳細な手順の参照先を示します。

プロジェクトをアプリケーションに変換する前に、実行しておく必要のある多くのタスクがあります。次のタスクはどのプロジェクトにも共通であり、BDDアプリケーションの構築に固有ではありません:

データ・セットを作成します。これは、Studioでソース・データをアップロードするか、Hive表を作成してデータ処理ワークフローを実行することで行えます。
1つ以上のデータ・セットをプロジェクトに追加します。詳細は、「既存プロジェクトへのデータ・セットの追加」を参照してください。
データ・セットおよびプロジェクトに対するアクセス権限の設定。詳細は、「プロジェクトへのアクセスの管理」を参照してください。
必要に応じて、プロジェクト・データ・セットを変換して、属性および属性値をクリーンアップします。これには、属性の再フォーマット、データ型の変更、より具体的な属性への分割、新しい属性の作成などが含まれます。詳細は、「変換ページのユーザー・インタフェースについて」を参照してください。
より製品に近い方法で保持する必要があるDiscoverのデータをビジュアル化するためのコンポーネントを構築します。

プロジェクトをBDDアプリケーションに変換するには:

(オプション)ソース・データをStudioにアップロードして1つ以上のデータ・セットを作成した場合は、各データ・セットのソースを変更して、新しいHive表を指すようにする必要があります。データ・セットがHiveで直接作成された表に基づいている場合、このステップは必要ありません。 (このステップは、データ・エンコーディングの理由に必要です。)
1. In Studioで、「データ・セット・プロパティの表示」をクリックして、データ・セットの現在のHive表名を検索します。名前はdefault.my_uploaded_dataの形式になります。
2. HadoopディストリビューションのHive問合せエディタを参照します。たとえば、Cloudera環境ではHueのHive Query Editorです。
3. 次のHiveコマンドを実行し、データ・セットのHive表名を指定します:
  SHOW CREATE TABLE `default.my_uploaded_data`
4. 結果の表作成コマンドをコピーし、テキスト・エディタで変更します。データ・セット・ソース・ファイルのHDFS内の新しいロケーションを指すように、表定義を変更します。 Hive型を使用して列のデータ型を指定します。デフォルトでは、表の説明はすべての属性を文字列として表示します。また、必要に応じて、行形式、記憶域形式、SerDeなどの表エンコーディングのプロパティを、ソース・ファイルのエンコーディングと一致させます。オプションで、その他の表プロパティを、dataSetDisplayNameやコメントなど、必要に応じて変更します。
5. 表の削除を実行して、既存のHive表を削除します。
  DROP TABLE `default.my_uploaded_data`
6. 新しい表作成コマンドを実行して、名前と列は同じですが、新しいソース・ファイルのロケーションとエンコーディングを使用して表を再作成します。
7. テストでは、"Hue to Metastore"表を参照して、新しい表定義が正しいことをテストします。再作成されたHive表を検索し、サンプルをクリックします。必要に応じて、Hive問合せを実行して表内の行数をカウントし、予期されるデータ・セット・サイズを確認します。
8. 「データ・ソース・タイプ」の値がExcel、区切りまたはJDBCであるプロジェクト内のデータ・セットごとにこれらのステップを繰り返します。
重要: 古いHive表と同じ名前を持つ新しいHive表が作成されたので、即座にこのカタログのこの特定のデータ・セットを探すためのアクション > データ・セットのリロード機能は使用しないでください。「データ・セットのリロード」機能によってファイルのアップロード・ウィザードが起動され、作成したばかりの本番Hive表を上書きできます。
必要に応じて、データの増分更新を実行する場合にプロジェクトのレコード識別子を指定します。
詳細は、「増分更新のためのプロジェクトのデータ・セットの構成」を参照してください。
完全なデータ・セットをプロジェクトにロードします。
可視化および分析にレコード・セット全体が含まれるように、このステップですべてのソース・データを提供します。詳細は、「プロジェクト内のフル・データ・セットのロード」を参照してください。
データ処理CLIジョブおよびcronジョブを使用して、データ・セットの更新をスケジュールします。
詳細は、「データ処理ガイド」のDP CLI構成およびDP CLIのcronジョブを参照してください。