個人データ・ファイルをStudioにアップロードし、JDBCデータ・ソースをStudioにインポートしてフィルタすることにより、カタログに新規データ・セットを作成できます。
権限
Studioユーザーは、ファイルからデータをロードするため、ユーザー、パワー・ユーザーまたは管理者のロールを持っている必要があります。 JDBCデータ・ソースからデータ・セットを作成するには、さらに、データベース資格証明を持つユーザーのユーザー名とパスワードを指定する必要があります。
ファイル・アップロードの最大サンプル・サイズ
デフォルトでは、アップロードするファイルは最大サンプル・サイズで1,000,000レコードになるように処理されます。 1,000,000を超えるレコードを含むファイルは、約1,000,000レコードにサンプリングされます。 1,000,000レコード未満のファイルには、結果のデータ・セットに設定された完全レコードが含まれます。
必要に応じて、デフォルト設定を1,000,000レコードから別の値に増加できます。 詳細は、「管理者ガイド」のbdd.sampleSize
ドキュメントを参照してください。
潜在的なアップロード・タイムアウト
接続タイムアウトが原因でファイルのアップロードに失敗した場合、Studioからファイルをアップロードするにはファイルが大きすぎる可能性があります。 この問題を回避するには、Hiveデータベース管理者にソース・ファイルをHive表にインポートし、データ処理CLIユーティリティを実行して表を処理します。 データを処理した後、ファイルに基づいた新しいデータ・セットをカタログで使用できます。
列および複数値属性の重複
個人データファイルに同じヘッダーを含む列がある場合、新しいデータ・セットでは、列は単一の複数値属性に変換されます。 たとえば、データに次のものが含まれるとします:
項目 | 色 | 色 | 色 |
---|---|---|---|
Tシャツ | 赤 | 青 | 緑 |
スウェットシャツ | 赤 | 白 |
最後のデータセットでは、結果は次のようになります:
項目 | 色 |
---|---|
Tシャツ | 赤、青、緑 |
スウェットシャツ | 赤、白 |
親トピック: データ・セットの管理