プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

ファイルからのデータ・セットの作成

ファイルから個人データをアップロードすることによって、Studioで新しいデータ・セットを作成できます。 アップロード後、データはカタログでデータ・セットとして使用できます。

Studioでは、Microsoft Excelファイル、CSV、TSV、TXTなどの区切りファイル、およびZIP、GZ、GZIPなどの圧縮ファイルがサポートされます。 圧縮ファイルには、区切りファイルが1つしか含まれていない場合があります。

Microsoft Excelファイルは、XLSまたはXLSXのサフィクスを持つ必要があり、次のいずれかのバージョンを使用して作成されている可能性があります:
  • Excel 2016
  • Excel 2013
  • Excel 2010
  • Excel 2007
  • Excel 97 - 2003

ファイルからデータ・セットを作成するには:

  1. カタログで「データ・セットの追加」オプションをクリックします。

    このオプションにより、新しいデータ・セットがカタログに追加されます。 プロジェクト内から新しいデータ・セットを追加することもできます。

  2. 「ファイルからのデータ・セットの作成」をクリックします。
  3. 「参照」をクリックし、ファイルを探して「開く」をクリックします。
  4. 「次へ」をクリックします。
  5. 「プレビュー」ページで、データをアップロードする前に、その属性および制限の両方を編集できます。
    1. データ・セットから属性を除外するには、その属性のチェック・ボックスを選択解除します。
    2. データ・セットに表示される属性の名前を変更するには、列ヘッダーを選択して属性の名前を編集します。
  6. 基本設定を展開し、次のオプションを設定します:
    設定 説明
    マイ・データにはヘッダー行が含まれます ファイルにヘッダー行が含まれるかどうかを指定します。 このオプションの選択を解除すると、Studioは属性名のかわりにアルファベット順のリストを作成します。
    最初の0行をスキップ 必要な場合は、ファイルの先頭からスキップする行数を指定できます。
    シート 「Microsoft Excelファイルのみ」 リストからロードするシートを選択します。 データセットは、1つのシートに対応しています。 複数のシートを処理する必要がある場合は、ウィザードを再度実行します。
    フィールドの区切り文字 「区切りファイル形式のみ」 リストからフィールド・デリミタを選択します。 通常、この選択は、ファイル・フォーマット、カンマ区切り(CSV)、タブ区切り(TSV/TAB)などに相当します。
    フィールドを囲む引用符 「区切りファイル形式のみ」 フィールドに引用値が含まれるかどうかを指定します。
    引用文字 「区切りファイル形式のみ」 「フィールドを囲む引用符」を有効にした場合、引用符文字を選択します。
    引用符エスケープ文字 「区切りファイル形式のみ」 「フィールドを囲む引用符」を有効にした場合は、引用符エスケープ文字を選択します。
  7. 詳細設定を展開し、次のオプションを設定します:
    設定 説明
    文字エンコーディング 「区切りファイル形式のみ」 ファイル・エンコーディングを選択します。 不明な場合は、フル機能のテキスト・エディタでファイルを開き、エディタを使用してエンコーディングを検出する必要があります。
    Language ファイル内のテキスト・データの言語を指定します。 この設定はデータ処理中に使用され、値およびキーワードの検索に使用されます。
  8. 「次へ」をクリックします。
  9. データ・セットの作成ページで、次の手順を実行します:
    1. カタログに表示されるデータセットの名前を指定します。
    2. 必要に応じて、データ・セットの説明を指定します。
    3. オプションで、Hive表名を指定します。 デフォルトでは、Hive表の名前はデータ・セット名と同じです。 既存のデータ・セットと同じ名前でデータ・セットを作成する場合、別のHive表名を指定する必要があります。 Studioでは、データ・セット名が一意の表名にマップされます。
  10. アップロードするファイルがある場合は、「作成」をクリックしてから「別のデータ・セットの追加」をクリックし、ファイルの処理中に「カタログに戻る」をクリックします。
ファイルに基づく新規データ・セットがカタログで使用可能になります。

接続タイムアウトによりファイルのアップロードに失敗した場合、Studioからアップロードするにはファイルが大きすぎる可能性があります。 この問題を回避するには、Hiveデータベース管理者にソース・ファイルをHive表にインポートし、データ処理CLIユーティリティを実行して表を処理します。 データを処理した後、ファイルに基づいた新しいデータ・セットをカタログで使用できます。