ファイルからのデータのロード

ユーザー、パワー・ユーザーまたは管理者であれば、ExcelまたはCSVファイルからデータをアップロードして新しいデータ・セットを作成できます。ロールがビューアのユーザーはデータ・セットを作成できません。

デフォルトでは、アップロードするすべてのファイルが処理され、最大サイズが100万レコードのデータ・セット・サンプルが生成されます。含まれるレコード数が100万を超えているファイルは、サンプリングされてサイズがおよそ100万レコードまで縮小されます。100万レコード未満のファイルは、データ・セット・サンプル・サイズにすべてのレコードを含められます。必要であれば、デフォルト設定の100万レコードを増やすことができます。詳細は、『Oracle Big Data Discovery管理者ガイド』bdd.maxRecordsToProcessに関する項を参照してください。

ファイルに同じ見出しの複数の列がある場合、新しいデータ・セットでは、それらの列が1つの複数値属性に変換されることに注意してください。たとえば、データに次の内容が含まれるとします。

同じ見出しの複数列を含むサンプル・データ。
Item
T-Shirt Red Blue Green
Sweatshirt Red White

最終的なデータ・セットでは次の結果になります。

複数列が1つの複数値属性に変化した、データ・セット作成後のサンプル・データ。
Item
T-Shirt Red、Blue、Green
Sweatshirt 赤、白

アップロードされたファイルからデータ・セットを作成するには、次の手順を実行します。

  1. 「カタログ」「+データ・セット」をクリックします。

    プロジェクト内で新しいデータ・セットを追加することもできます。

  2. 「新規データ・セット」で、新しいデータ・セットの名前と説明を指定します。
  3. 「ファイルのアップロード」をクリックします。
  4. 「参照」をクリックしてファイルを検索し、選択します。
  5. ファイルの詳細を構成します。

    Excelファイルの場合は、ワークシートを選択して、データに見出し行が含まれるかどうかを指定できます。

    CSVファイルの場合は、次のように構成できます。
    • ファイルのデリミタを選択します。
    • データのロケールを選択します。
    • ファイルの一番上からスキップする行数を構成します。
    • データに見出し行が含まれるかどうかを指定します。
  6. 「完了」をクリックします。
ファイルに基づく新しいデータ・セットが「カタログ」で使用可能になります。

接続タイムアウトのためにファイルのアップロードが失敗した場合、ファイルが大きすぎてStudioからアップロードできない可能性があります。この問題に対処するには、Hiveデータベース管理者に依頼して、ソース・ファイルをHive表にインポートしてから、データ処理CLIユーティリティを実行して表を処理します。データ処理の後で、ファイルに基づく新しいデータ・セットが「カタログ」で使用可能になります。