Oracle Data Integratorによるビッグ・データの統合

1 Oracle Data Integratorによるビッグ・データの統合

この章では、Oracle Data Integratorの使用によるビッグ・データの統合の概要について説明します。また、サポートされているビッグ・データ・テクノロジの互換性マトリクスも提供します。

この章の内容は次のとおりです。

Hadoopデータ統合の概要

Oracle Data IntegratorをHadoopと組み合せて使用すると、非リレーショナルのデータ・ソースからの大量のデータを処理する統合フローを設計することができます。

Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。

Oracle Data Integratorは、統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能なメカニズムの範囲におけるフローの「処理」を定義するために使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。

Oracle Data Integratorでは、使い慣れた使いやすいツールと事前構成済のナレッジ・モジュール(KM)を活用して、次の作業が可能になります。

非リレーショナルおよびリレーショナルのデータ・ストア(Hive、HBase、Cassandraなど)のリバースエンジニアリング。

詳細は、「Hive表、HBase表、Cassandra表およびHDFSファイルを表すODIモデルとデータ・ストアの作成」を参照してください。
ファイルまたはSQLデータベースからHadoopに直接データをロードする。

詳細は、「Hadoopデータの統合」を参照してください。
Hadoop内のデータを検証し、Hive、HBaseまたはHDFSなどの各種形式で利用できるように変換する。

詳細は、「Hive内のデータの検証と変換」を参照してください。
Hadoopから処理済データをOracleデータベースやSQLデータベース、ファイルにロードする。

詳細は、「Hadoopデータの統合」を参照してください。
Hadoopで統合プロジェクトをOozieワークフローとして実行する。

詳細は、「Oracle Data IntegratorによるOozieワークフローの実行」を参照してください。
Oracle Data Integrator内でOozieワークフロー実行ログを監査する。

詳細は、「Hadoopログの監査」を参照してください。
Hadoop用にHiveQLやPig Latin、Spark Pythonといった異なる言語のコードを生成します。

詳細は、「異なる言語のコードの生成」を参照してください。

ビッグ・データ・ナレッジ・モジュール・マトリックス

ビッグ・データ・ナレッジ・モジュール・マトリックスは、Oracle Data Integratorにより提供される、ビック・データのロードおよび統合KMを示しています。

ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、SQLからSparkにデータを読み込むために、まず、LKM SQL to Sparkを使用してSQLからSparkにデータをロードしてから、LKM Spark to HDFSを使用して続行します。

LKM Fileで始まるビッグ・データ・ナレッジ・モジュール(LKM File to SQL SQOOPなど)では、このマトリックスで説明されているようにOSファイルとHDFSファイルの両方がサポートされます。LKM HDFS to Spark、LKM HDFS File to HiveをはじめとしたKMが追加で提供されています。他のKMとは異なり、これらのKMではHDFSファイルしかサポートされませんが、機能が追加されており、たとえば、複合データをHDFSデータ・ストアで記述したり、フラット化コンポーネントを使用してマッピングで使用することができます。

次の表には、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorが提供するビッグ・データのロードKMと統合KMを示します。

表1-1 ビッグ・データのロードおよび統合ナレッジ・モジュール

ソース	ターゲット	ナレッジ・モジュール
OSファイル	HDFSファイル	該当なし
	Hive	LKM File to Hive LOAD DATA Direct
	HBase	該当なし
	Pig	LKM File to Pig
	Spark	LKM File to Spark
SQL	HDFSファイル	LKM SQL to File SQOOP Direct
	Hive	LKM SQL to Hive SQOOP
	HBase	LKM SQL to HBase SQOOP Direct
	Pig	LKM SQL to Pig SQOOP
	Spark	LKM SQL to Spark
HDFS	Kafka	該当なし
HDFS	Spark	LKM HDFS to Spark
HDFSファイル	OSファイル	該当なし
	SQL	LKM File to SQL SQOOP LKM File to Oracle OLH-OSCH Direct
	HDFSファイル	該当なし
	Hive	LKM File to Hive LOAD DATA Direct LKM HDFS File to Hive Load Data LKM HDFS File to Hive Load Data (Direct)
	HBase	該当なし
	Pig	LKM File to Pig
	Spark	LKM HDFS to Spark
Hive	OSファイル	LKM Hive to File Direct
	SQL	LKM Hive to SQL SQOOP LKM Hive to Oracle OLH-OSCH Direct
	HDFSファイル	LKM Hive to File Direct
	Hive	IKM Hive Append IKM Hive Incremental Update
	HBase	LKM Hive to HBase Incremental Update HBASE-SERDE Direct
	Pig	LKM Hive to Pig
	Spark	LKM Hive to Spark
HBase	OSファイル	該当なし
	SQL	LKM HBase to SQL SQOOP
	HDFSファイル	該当なし
	Hive	LKM HBase to Hive HBASE-SERDE
	HBase	該当なし
	Pig	LKM HBase to Pig
	Spark	該当なし
Pig	OSファイル	LKM Pig to File
	HDFSファイル	LKM Pig to File
	Hive	LKM Pig to Hive
	HBase	LKM Pig to HBase
	Pig	該当なし
	Spark	該当なし
Spark	OSファイル	LKM Spark to File
	SQL	LKM Spark to SQL
	HDFSファイル	LKM Spark to File LKM Spark to HDFS
	Hive	LKM Spark to Hive
	HBase	該当なし
	Pig	該当なし
	Spark	IKM Spark Table Function
	Kafka	LKM Spark to Kafka
	Cassandra	LKM Spark to Cassandra

次の表に、ODIが提供するビッグ・データ・リバースエンジニアリングKMを示します。

表1-2 ビッグ・データ・リバースエンジニアリング・ナレッジ・モジュール

テクノロジ	ナレッジ・モジュール
HBase	RKM HBase
Hive	RKM Hive
Cassandra	RKM Cassandra