1 Oracle Data Integratorによるビッグ・データの統合

この章では、Oracle Data Integratorの使用によるビッグ・データの統合の概要について説明します。また、サポートされているビッグ・データ・テクノロジの互換性マトリクスも提供します。

この章の内容は次のとおりです。

Hadoopデータ統合の概要

Oracle Data IntegratorをHadoopと組み合せて使用すると、非リレーショナルのデータ・ソースからの大量のデータを処理する統合フローを設計することができます。

Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。

Oracle Data Integratorは、統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能なメカニズムの範囲におけるフローの「処理」を定義するために使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。

Oracle Data Integratorでは、使い慣れた使いやすいツールと事前構成済のナレッジ・モジュール(KM)を活用して、次の作業が可能になります。

ビッグ・データ・ナレッジ・モジュール・マトリックス

ビッグ・データ・ナレッジ・モジュール・マトリックスは、Oracle Data Integratorにより提供される、ビック・データのロードおよび統合KMを示しています。

ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、SQLからSparkにデータを読み込むために、まず、LKM SQL to Sparkを使用してSQLからSparkにデータをロードしてから、LKM Spark to HDFSを使用して続行します。

LKM Fileで始まるビッグ・データ・ナレッジ・モジュール(LKM File to SQL SQOOPなど)では、このマトリックスで説明されているようにOSファイルとHDFSファイルの両方がサポートされます。LKM HDFS to Spark、LKM HDFS File to HiveをはじめとしたKMが追加で提供されています。他のKMとは異なり、これらのKMではHDFSファイルしかサポートされませんが、機能が追加されており、たとえば、複合データをHDFSデータ・ストアで記述したり、フラット化コンポーネントを使用してマッピングで使用することができます。

次の表には、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorが提供するビッグ・データのロードKMと統合KMを示します。

表1-1 ビッグ・データのロードおよび統合ナレッジ・モジュール

ソース ターゲット ナレッジ・モジュール

OSファイル

HDFSファイル

該当なし

Hive

LKM File to Hive LOAD DATA Direct

HBase

該当なし

Pig

LKM File to Pig

Spark

LKM File to Spark

SQL

HDFSファイル

LKM SQL to File SQOOP Direct

Hive

LKM SQL to Hive SQOOP

HBase

LKM SQL to HBase SQOOP Direct

Pig

LKM SQL to Pig SQOOP

Spark

LKM SQL to Spark

HDFS

Kafka

該当なし

HDFS

Spark

LKM HDFS to Spark

HDFSファイル

OSファイル

該当なし

SQL

LKM File to SQL SQOOP

LKM File to Oracle OLH-OSCH Direct

HDFSファイル

該当なし

Hive

LKM File to Hive LOAD DATA Direct

LKM HDFS File to Hive Load Data

LKM HDFS File to Hive Load Data (Direct)

HBase

該当なし

Pig

LKM File to Pig

Spark

LKM HDFS to Spark

Hive

OSファイル

LKM Hive to File Direct

SQL

LKM Hive to SQL SQOOP

LKM Hive to Oracle OLH-OSCH Direct

HDFSファイル

LKM Hive to File Direct

Hive

IKM Hive Append

IKM Hive Incremental Update

HBase

LKM Hive to HBase Incremental Update HBASE-SERDE Direct

Pig

LKM Hive to Pig

Spark

LKM Hive to Spark

HBase

OSファイル

該当なし

SQL

LKM HBase to SQL SQOOP

HDFSファイル

該当なし

Hive

LKM HBase to Hive HBASE-SERDE

HBase

該当なし

Pig

LKM HBase to Pig

Spark

該当なし

Pig

OSファイル

LKM Pig to File

HDFSファイル

LKM Pig to File

Hive

LKM Pig to Hive

HBase

LKM Pig to HBase

Pig

該当なし

Spark

該当なし

Spark

OSファイル

LKM Spark to File

SQL

LKM Spark to SQL

HDFSファイル

LKM Spark to File

LKM Spark to HDFS

Hive

LKM Spark to Hive

HBase

該当なし

Pig

該当なし

Spark

IKM Spark Table Function

Kafka

LKM Spark to Kafka

Cassandra

LKM Spark to Cassandra

次の表に、ODIが提供するビッグ・データ・リバースエンジニアリングKMを示します。

表1-2 ビッグ・データ・リバースエンジニアリング・ナレッジ・モジュール

テクノロジ ナレッジ・モジュール

HBase

RKM HBase

Hive

RKM Hive

Cassandra

RKM Cassandra