Studioに個人データ・ファイルをアップロードしたり、またはStudioにJDBCデータ・ソースをインポートおよびフィルタリングすることで、「カタログ」に新しいデータ・セットを作成できます。
Studioユーザーは、ファイルからデータをロードするため、ユーザー、パワー・ユーザーまたは管理者のロールが必要です。JDBCデータ・ソースからのデータ・セットの作成では、データベースの資格証明を持つユーザーのユーザー名とパスワードの入力も必要です。
Studioでは、個人ファイルのアップロードに10 GBのサイズ制限が強制されます。より大きいデータ・セットは、JDBCデータ・ソースからインポートする必要があります。
デフォルトでは、アップロードするすべてのファイルが処理され、最大サイズが100万レコードのサンプルが生成されます。含まれるレコード数が100万を超えているファイルは、サンプリングされてサイズがおよそ100万レコードまで縮小されます。100万レコード未満のファイルは、結果のデータ・セットにすべてのレコードが含められます。
必要であれば、デフォルト設定の100万レコードを増やすことができます。詳細は、管理者ガイドのbdd.sampleSizeのドキュメントを参照してください。
接続タイムアウトでファイルのアップロードが失敗する場合、ファイルが大きすぎてStudioからアップロードできない可能性があります。この問題に対処するには、Hiveデータベース管理者に依頼して、ソース・ファイルをHive表にインポートしてから、データ処理CLIユーティリティを実行して表を処理します。データ処理の後で、ファイルに基づく新しいデータ・セットが「カタログ」で使用可能になります。
個人データ・ファイルに同じ見出しの複数の列がある場合、新しいデータ・セットでは、それらの列が1つの複数値属性に変換されることに注意してください。たとえば、データに次の内容が含まれるとします。
| アイテム | 色 | 色 | 色 |
|---|---|---|---|
| Tシャツ | 赤 | 青 | 緑 |
| スエットシャツ | 赤 | 白 |
最終的なデータ・セットでは次の結果になります。
| アイテム | 色 |
|---|---|
| Tシャツ | 赤、青、緑 |
| スエットシャツ | 赤、白 |
Studioでは、Excelのスプレッドシートおよび区切りファイルを読み込むことができます。Studioにファイルをアップロードする前に、ウイルス対策製品を使用することを強くお薦めします。Studioでは、これらのファイルはHadoop Avro形式に変換され、そのデータがHDFSにアップロードされた後、データのHive表が登録されます。元のファイルは破棄されます。