プロジェクト・データのエクスポートの構成と完了

選択したビューをHDFSまたは別のマシンにエクスポートできます。エクスポートには複数値属性を処理するためのオプションが含まれます。

エクスポートを構成および完了するには、次の手順を実行します。

  1. エクスポートを開始するには、プロジェクト・ヘッダーのエクスポート・アイコンをクリックします。
  2. エクスポート・ダイアログの「データ選択」ドロップダウン・リストで、エクスポートするビューを選択します。

    「プレビュー」に、選択したビューの最初の3件のレコードが表示されます。

  3. 「宛先とフォーマット」セクションで次の操作を実行します。
    1. 「ファイル名」フィールドに、エクスポートするデータのファイル名を入力します。

      デフォルトのファイル名は、選択したビューの名前の後に現在の日付(mmddyyyy)が付きます。

      たとえば、salesという名前のビューを2015年2月1日にエクスポートする場合、デフォルトのファイル名はsales02012015です。

    2. 「エクスポート先」ドロップダウン・リストで、データのエクスポート先を選択します。オプションは次のとおりです。
      エクスポート先のオプションのリスト。オプションごとに説明が表に示されます。
      オプション 説明
      HDFS データをHDFSにエクスポートします。

      エクスポートするデータのディレクトリ・パスは、必ずユーザー・ディレクトリから始まります。「ファイル・パス」フィールドに、ユーザー・ディレクトリから、ファイルを配置するサブディレクトリへのパスを入力します。

      データからHive表も作成するには、「Hive表の作成」チェック・ボックスを選択します。表の名前と説明を指定するように求められます。

      デフォルトでは、表名はファイル名と同じになります。

      マイ・コンピュータ データを使用して、外部ディレクトリにファイルを作成します。
    3. 「タイプ」ドロップダウン・リストで、エクスポートするデータから作成するファイルのタイプを選択します。データをAvroファイルまたはCSVファイルとしてエクスポートできます。

      複数値属性の値を置換する予定がある場合は、Avroファイルにはエクスポートできません。

      Avroファイルにエクスポートするとき、属性の表示名にAvroの列名として無効な文字が含まれていると、かわりに属性キーが使用されます。

  4. エクスポート・データに複数値属性が含まれる場合は、「複数値属性の処理」セクションで、エクスポート・データで属性値を置換するかどうかを選択します。

    値をそのままにしておく場合は、「変換なし」をクリックします。

    値を変換するには、「一意の値の置換」をクリックします。

    値の置換では、複数値属性それぞれが、属性値を表す一連のブール属性によって置換されます。これらの属性それぞれについて、レコードに値が含まれる場合は属性値がTrue、値が含まれない場合はFalseになります。

    たとえば、すべてのレコードにおいて、Colorの一意の値がRed、GreenおよびBlueであるとします。エクスポートしたデータでは、Color属性はRed属性、Green属性およびBlue属性によって置換されます。

    レコードのColor属性の値が最初に「Red, Blue」だった場合、エクスポート・データでは次のように置換されます。
    • Red属性がTrueに設定されます。
    • Green属性がFalseに設定されます。
    • Blue属性がTrueに設定されます。
  5. 値を変換している場合、複数値属性すべてを含めるには、「すべての複数値属性に適用」チェック・ボックスを選択します。属性と値の数を減らすには、次の手順を実行します。
    1. 「すべての複数値属性に適用」チェック・ボックスを選択解除してください。
    2. 組み込む属性ごとに、その属性のチェック・ボックスを選択します。
    3. 属性の構成パネルで、作成する属性数を制限するために「作成される列を最上位値のみに制限」チェック・ボックスを選択します。
    4. 「列数」フィールドに、新しい属性を作成する値の数を入力します。

      選択した複数値属性の値変換を構成するためのダイアログ

      たとえば、複数値のColor属性の場合、データに次の値が含まれるとします。

      値および各値のレコード数のサンプル・リスト。エクスポート時に変換する値の数を制限するオプションを説明する例として使用されます。
      値を含むレコード数
      Red 50
      Blue 200
      Green 35
      Purple 20
      Black 100

      列の最大数を3に設定すると、エクスポート時にはBlue、BlackおよびRedのみに対して新しい属性が作成されます。これらは、データに最も多く含まれる3色です。

    5. 「完了」をクリックします。
  6. エクスポートを完了するには、「エクスポート」をクリックします。