ユーザー、パワー・ユーザーまたは管理者であれば、ExcelまたはCSVファイルからデータをアップロードして新しいデータ・セットを作成できます。ロールがビューアのユーザーはデータ・セットを作成できません。
デフォルトでは、アップロードするすべてのファイルが処理され、最大サイズが100万レコードのデータ・セット・サンプルが生成されます。含まれるレコード数が100万を超えているファイルは、サンプリングされてサイズがおよそ100万レコードまで縮小されます。100万レコード未満のファイルは、データ・セット・サンプル・サイズにすべてのレコードを含められます。必要であれば、デフォルト設定の100万レコードを増やすことができます。詳細は、『Oracle Big Data Discovery管理者ガイド』のbdd.maxRecordsToProcessに関する項を参照してください。
ファイルに同じ見出しの複数の列がある場合、新しいデータ・セットでは、それらの列が1つの複数値属性に変換されることに注意してください。たとえば、データに次の内容が含まれるとします。
| Item | 色 | 色 | 色 |
|---|---|---|---|
| T-Shirt | Red | Blue | Green |
| Sweatshirt | Red | White |
最終的なデータ・セットでは次の結果になります。
| Item | 色 |
|---|---|
| T-Shirt | Red、Blue、Green |
| Sweatshirt | 赤、白 |
アップロードされたファイルからデータ・セットを作成するには、次の手順を実行します。
接続タイムアウトのためにファイルのアップロードが失敗した場合、ファイルが大きすぎてStudioからアップロードできない可能性があります。この問題に対処するには、Hiveデータベース管理者に依頼して、ソース・ファイルをHive表にインポートしてから、データ処理CLIユーティリティを実行して表を処理します。データ処理の後で、ファイルに基づく新しいデータ・セットが「カタログ」で使用可能になります。