変換スクリプトを使用した新しいHive表の作成

「変換エディタ」で「データ・セットの作成」を使用する場合、プロジェクト・データ・セットの作成元のソースHive表に変換スクリプトが適用されます。この操作により、Dgraph索引内に新しいHive表が作成され、新しいデータ・セットが「カタログ」に追加されます。

注意: BDDによってソースHive表のデータ型が独自のデータ型に変換される方法が原因で、スクリプトをソース表に適用すると、一部のデータ型が省略される可能性があります。たとえば、Dgraphデータ型と一致しない複雑なHiveデータ型の一部が省略されます。詳細は、「データ型変換」を参照してください。

新しいデータ・セットを作成するには、次を実行します。

  1. 変換スクリプト・パネルでメニュー・アイコンをクリックし、「データ・セットの作成」を選択します。
    「データ・セットの作成」ダイアログ・ボックスが開きます。
  2. 「新規Hive表名」フィールドで、新しいHive表の一意の名前を入力します。
    選択する名前に使用できるのは、英数字とアンダースコアのみです。
  3. 新規Hive表データ・ディレクトリで、表を格納するHDFS内の場所を入力します。
  4. 「新規データ・セット名」フィールドで、新しいデータ・セットの一意の名前を入力します。
    これは、「カタログ」内で新しいデータ・セットに使用される名前です。選択する名前は、Hive表の名前と異なる名前でもかまいません。
  5. 必要に応じて、変換スクリプトまたは新しいデータ・セットに関する情報を「コメント」フィールドに入力します。
    これは、変換スクリプト、および表の作成日とともに、新しい表のメタデータとして格納されます。
  6. 保存」をクリックします。
    ダイアログ・ボックスが表示され、変換は進行中であり完了するまで数時間かかる可能性があることが示されます。
スクリプトが成功した場合、新しいHive表が索引に追加され、新しいデータ・セットが「カタログ」に表示されます。

新しいデータ・セットが「カタログ」に表示されない場合、スクリプトは失敗しました。データ処理のログをチェックすると、失敗した理由に関する詳細を確認できます。詳細は、「変換ロギング」を参照してください。

変換スクリプトをソースHive表に適用すると、Big Data Discovery内のデータ処理によって次が実行されます。
  1. 変換スクリプトをStudioから取得します。
  2. 変換されたプロジェクト・データ・セットのスキーマをDgraphから取得します。
  3. プロジェクト・データ・セットのスキーマを使用して新しいHive表(この例ではHT2という名前にします)を作成します。
  4. 元のソースHive表(HT1という名前にします)からデータを1行ずつHT2Hive表にロードすると同時に、ロードした行ごとに変換スクリプトを実行し、変換したデータをHT2として保存します。
  5. HT2 Hive表(これは、変換したデータを使用した新しいHive表です)をサンプリングし、生成されたデータ・セットを「カタログ」に追加します。