カタログでのデータ・セットの作成について

個人データ・ファイルをStudioにアップロードし、JDBCデータ・ソースをStudioにインポートしてフィルタすることにより、カタログに新規データ・セットを作成できます。

権限

Studioユーザーは、ファイルからデータをロードするため、ユーザー、パワー・ユーザーまたは管理者のロールを持っている必要があります。 JDBCデータ・ソースからデータ・セットを作成するには、さらに、データベース資格証明を持つユーザーのユーザー名とパスワードを指定する必要があります。

ファイル・アップロードの最大サンプル・サイズ

デフォルトでは、アップロードするファイルは最大サンプル・サイズで1,000,000レコードになるように処理されます。 1,000,000を超えるレコードを含むファイルは、約1,000,000レコードにサンプリングされます。 1,000,000レコード未満のファイルには、結果のデータ・セットに設定された完全レコードが含まれます。

必要に応じて、デフォルト設定を1,000,000レコードから別の値に増加できます。詳細は、「管理者ガイド」のbdd.sampleSizeドキュメントを参照してください。

潜在的なアップロード・タイムアウト

接続タイムアウトが原因でファイルのアップロードに失敗した場合、Studioからファイルをアップロードするにはファイルが大きすぎる可能性があります。この問題を回避するには、Hiveデータベース管理者にソース・ファイルをHive表にインポートし、データ処理CLIユーティリティを実行して表を処理します。データを処理した後、ファイルに基づいた新しいデータ・セットをカタログで使用できます。

列および複数値属性の重複

個人データファイルに同じヘッダーを含む列がある場合、新しいデータ・セットでは、列は単一の複数値属性に変換されます。たとえば、データに次のものが含まれるとします:

項目	色	色	色
Tシャツ	赤	青	緑
スウェットシャツ	赤	白

最後のデータセットでは、結果は次のようになります:

項目	色
Tシャツ	赤、青、緑
スウェットシャツ	赤、白

ウイルス対策およびマルウェア

Studioでは、Excelのスプレッドシートや区切りファイルをロードできます。 Oracleのベスト・プラクティスは、Studioにファイルをアップロードする前にウイルス対策製品を使用することです。 Studioは、これらのファイルを「Hadoop Avro」フォーマットに変換し、データをHDFSにアップロードしてから、そのデータに関するHive表を登録します。その後、元のファイルが破棄されます。

「ファイルからのデータ・セットの作成」
ファイルから個人データをアップロードすることによって、Studioで新しいデータ・セットを作成できます。アップロード後、データはカタログでデータ・セットとして使用できます。
「JDBCデータ・ソースからのデータ・セットの作成」
Studio管理者がすでにデータ接続を作成してJDBCデータ・ソースを追加している場合は、JDBCデータ・ソースをStudioにインポートしてフィルタリングできます。インポートした後、データ・ソースをカタログ内のデータ・セットとして使用できます。データ・ソースの作成の詳細は、「管理者ガイド」を参照してください。

親トピック: データ・セットの管理