プライマリ・コンテンツに移動
Oracle® Fusion Middleware Oracle Data IntegratorによるBig Dataの統合
12 c (12.2.1.2.6)
E85903-01
目次へ移動
目次

前
次

9.1 HDFSの形式

サポートされているHDFSファイル形式は、Json、AvroおよびParquetです。形式を指定するには、データ・ストアの「記憶域」タブで表示される記憶域形式の値を設定します。HDFSのすべてのファイルについて、記憶域タイプ(Json、Avro、Parquet)がデータ・ストアで定義されています。JSON、AvroおよびParquetの各形式には、arrayやObjectなどの複合データ型があります。リバース・エンジニアリング・フェーズで、このような型のスキーマ定義は、Avroに変換されて複合データ型の属性のデータ形式列に格納されます。この情報は、マッピングでそのデータをフラット化する際に使用されます。

JSON、AvroおよびParquetの場合、各タイプで、スキーマ・ファイルの場所を入力する必要があります。デリミタ付きの場合、レコードおよびフィールド・セパレータの情報、ヘッダー行数を指定する必要があります。AvroファイルをHiveにロードする場合は、Avroスキーマ・ファイル(.avsc)をHDFSファイルと同じHDFSの場所にコピーする必要があります。


表9-1 HDFSファイル形式

ファイル形式 リバース・エンジニアリング 複合型のサポート Hiveへのロード Sparkへのロード Sparkからの書込み

Avro

可(スキーマは必須)

あり

可(スキーマは必須)

デリミタ付き

不可

なし

JSON

可(スキーマは必須)

あり

Parquet

可(スキーマは必須)

あり


ファイル形式ごとに個別のKMは必要ありません。ターゲットごとに1つまたは2つのKM (標準LKMと、該当する場合は直接ロードLKM)を作成できます。ファイルの形式は、デリミタ付きまたは固定のいずれかです。新しいLKM HDFS File to Hiveでは、HiveへのHDFSファイルのみのロードがサポートされ、ファイルの形式は複合データを伴うJSON、Avro、Parquet、デリミタ付きなどのいずれかです。


表9-2 複合型

Avro Json Hive Parquet

Record

Object

Struct

Record

enum

該当なし

該当なし

enum

array

array

array

array

map

該当なし

map

map

union

該当なし

union

union

fixed

該当なし

該当なし

fixed