プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

カタログでのデータ・セットの作成について

個人データ・ファイルをStudioにアップロードし、JDBCデータ・ソースをStudioにインポートしてフィルタすることにより、カタログに新規データ・セットを作成できます。

権限

Studioユーザーは、ファイルからデータをロードするため、ユーザー、パワー・ユーザーまたは管理者のロールを持っている必要があります。 JDBCデータ・ソースからデータ・セットを作成するには、さらに、データベース資格証明を持つユーザーのユーザー名とパスワードを指定する必要があります。

ファイル・アップロードの最大サンプル・サイズ

デフォルトでは、アップロードするファイルは最大サンプル・サイズで1,000,000レコードになるように処理されます。 1,000,000を超えるレコードを含むファイルは、約1,000,000レコードにサンプリングされます。 1,000,000レコード未満のファイルには、結果のデータ・セットに設定された完全レコードが含まれます。

必要に応じて、デフォルト設定を1,000,000レコードから別の値に増加できます。 詳細は、「管理者ガイド」bdd.sampleSizeドキュメントを参照してください。

潜在的なアップロード・タイムアウト

接続タイムアウトが原因でファイルのアップロードに失敗した場合、Studioからファイルをアップロードするにはファイルが大きすぎる可能性があります。 この問題を回避するには、Hiveデータベース管理者にソース・ファイルをHive表にインポートし、データ処理CLIユーティリティを実行して表を処理します。 データを処理した後、ファイルに基づいた新しいデータ・セットをカタログで使用できます。

列および複数値属性の重複

個人データファイルに同じヘッダーを含む列がある場合、新しいデータ・セットでは、列は単一の複数値属性に変換されます。 たとえば、データに次のものが含まれるとします:

項目
Tシャツ
スウェットシャツ

最後のデータセットでは、結果は次のようになります:

項目
Tシャツ 赤、青、緑
スウェットシャツ 赤、白

ウイルス対策およびマルウェア

Studioでは、Excelのスプレッドシートや区切りファイルをロードできます。 Oracleのベスト・プラクティスは、Studioにファイルをアップロードする前にウイルス対策製品を使用することです。 Studioは、これらのファイルを「Hadoop Avro」フォーマットに変換し、データをHDFSにアップロードしてから、そのデータに関するHive表を登録します。 その後、元のファイルが破棄されます。