「カタログ」内のデータ・セットの作成について

Studioに個人データ・ファイルをアップロードしたり、またはStudioにJDBCデータ・ソースをインポートおよびフィルタリングすることで、「カタログ」に新しいデータ・セットを作成できます。

権限

Studioユーザーは、ファイルからデータをロードするため、ユーザー、パワー・ユーザーまたは管理者のロールが必要です。JDBCデータ・ソースからのデータ・セットの作成では、データベースの資格証明を持つユーザーのユーザー名とパスワードの入力も必要です。

ファイルのアップロードの最大のファイル・サイズおよびサンプル・サイズ

Studioでは、個人ファイルのアップロードに10 GBのサイズ制限が強制されます。より大きいデータ・セットは、JDBCデータ・ソースからインポートする必要があります。

デフォルトでは、アップロードするすべてのファイルが処理され、最大サイズが100万レコードのサンプルが生成されます。含まれるレコード数が100万を超えているファイルは、サンプリングされてサイズがおよそ100万レコードまで縮小されます。100万レコード未満のファイルは、結果のデータ・セットにすべてのレコードが含められます。

必要であれば、デフォルト設定の100万レコードを増やすことができます。詳細は、管理者ガイドのbdd.sampleSizeのドキュメントを参照してください。

アップロードのタイムアウトの可能性

接続タイムアウトでファイルのアップロードが失敗する場合、ファイルが大きすぎてStudioからアップロードできない可能性があります。この問題に対処するには、Hiveデータベース管理者に依頼して、ソース・ファイルをHive表にインポートしてから、データ処理CLIユーティリティを実行して表を処理します。データ処理の後で、ファイルに基づく新しいデータ・セットが「カタログ」で使用可能になります。

重複する列および複数の値を持つ属性

個人データ・ファイルに同じ見出しの複数の列がある場合、新しいデータ・セットでは、それらの列が1つの複数値属性に変換されることに注意してください。たとえば、データに次の内容が含まれるとします。

アイテム	色	色	色
Tシャツ	赤	青	緑
スエットシャツ	赤	白

最終的なデータ・セットでは次の結果になります。

アイテム	色
Tシャツ	赤、青、緑
スエットシャツ	赤、白

ウイルス対策およびマルウェア

Studioでは、Excelのスプレッドシートおよび区切りファイルを読み込むことができます。Studioにファイルをアップロードする前に、ウイルス対策製品を使用することを強くお薦めします。Studioでは、これらのファイルはHadoop Avro形式に変換され、そのデータがHDFSにアップロードされた後、データのHive表が登録されます。元のファイルは破棄されます。