1 Oracle Data Integratorによるビッグ・データの統合

この章では、Oracle Data Integratorの使用によるビッグ・データの統合の概要について説明します。また、サポートされているビッグ・データ・テクノロジの互換性マトリクスも提供します。

この章の内容は次のとおりです。

1.1 Hadoopデータ統合の概要

Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。

Oracle Data Integratorは統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能メカニズムの範囲におけるフローの「処理」を定義するのに使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。

Oracle Data Integratorでは、使い慣れて使いやすいツールおよびあらかじめ構成されているナレッジ・モジュール(KM)を採用することにより、次のことが可能です。

ファイルまたはSQLデータベースからHadoopに直接データをロードする。

詳細は、「Hadoopデータの統合」を参照してください。
Hadoop内のデータを検証し、Hive、HBaseまたはHDFSなどの各種形式で利用できるように変換する。

詳細は、「Hive内のデータの検証と変換」を参照してください。
Hadoopから処理済データをOracleデータベースやSQLデータベース、ファイルにロードする。

詳細は、「Hadoopデータの統合」を参照してください。
Hadoopで統合プロジェクトをOozieワークフローとして実行する。

詳細は、「Oracle Data IntegratorによるOozieワークフローの実行」を参照してください。
Oracle Data Integrator内でOozieワークフロー実行ログを監査する。

詳細は、「Hadoopログの監査」を参照してください。
Hadoop用にHiveQLやPig Latin、Spark Pythonといった異なる言語のコードを生成します。

詳細は、「異なる言語のコードの生成」を参照してください。

1.2 ビッグ・データ・ナレッジ・モジュール・マトリックス

ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、データをSQLからSparkへと読み込むには、LKM SQL to File Directを使用してデータをまずHDFSにロードし、それからLKM File to Sparkを使用して続行します。

LKM Fileで始まるビッグ・データ・ナレッジ・モジュール(LKM File to SQL SQOOPなど)では、このマトリックスで説明されているようにOSファイルとHDFSファイルの両方がサポートされます。LKM HDFS to Spark、LKM HDFS File to HiveをはじめとしたKMが追加で提供されています。他のKMとは異なり、これらのKMではHDFSファイルしかサポートされませんが、機能が追加されており、たとえば、複合データをHDFSデータ・ストアで記述したり、フラット化コンポーネントを使用してマッピングで使用することができます。

次の表は、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorによって提供されるビッグ・データKMを示します。

表1-1 ビッグ・データ・ナレッジ・モジュール

ソース	ターゲット	ナレッジ・モジュール
OSファイル	HDFSファイル	該当なし
	Hive	LKM File to Hive LOAD DATA Direct
	HBase	該当なし
	Pig	LKM File to Pig
	Spark	LKM File to Spark
汎用SQL	HDFSファイル	LKM SQL to File SQOOP Direct
	Hive	LKM SQL to Hive SQOOP
	HBase	LKM SQL to HBase SQOOP Direct
	Pig	該当なし
	Spark	該当なし
Hadoop	HBase	RKM HBase
Hadoop	Hive	RKM Hive
HDFS	Kafka	LKM Kafka to Spark
HDFS	Spark	LKM HDFS to Spark
HDFSファイル	OSファイル	該当なし
	汎用SQL	LKM File to SQL SQOOP
	Oracle SQL	LKM File to Oracle OLH-OSCH Direct
	HDFSファイル	該当なし
	Hive	LKM File to Hive LOAD DATA Direct LKM HDFS File to Hive LKM HDFS File to Hive (Direct)
	HBase	該当なし
	Pig	LKM File to Pig
	Spark	LKM File to Spark
Hive	OSファイル	LKM Hive to File Direct
	汎用SQL	LKM Hive to SQL SQOOP
	Oracle SQL	LKM Hive to Oracle OLH-OSCH Direct
	HDFSファイル	LKM Hive to File Direct
	Hive	IKM Hive Append
	HBase	LKM Hive to HBase Incremental Update HBASE-SERDE Direct
	Pig	LKM Hive to Pig
	Spark	LKM Hive to Spark
HBase	OSファイル	該当なし
	汎用SQL	LKM HBase to SQL SQOOP
	Oracle SQL	該当なし
	HDFSファイル	該当なし
	Hive	LKM HBase to Hive HBASE-SERDE
	HBase	該当なし
	Pig	LKM HBase to Pig
	Spark	該当なし
Pig	OSファイル	LKM Pig to File
	汎用SQL	LKM SQL to Pig SQOOP
	Oracle SQL	該当なし
	HDFSファイル	LKM Pig to File
	Hive	LKM Pig to Hive
	HBase	LKM Pig to HBase
	Pig	該当なし
	Spark	該当なし
Spark	OSファイル	LKM Spark to File
	汎用SQL	LKM Spark to SQL
	Oracle SQL	該当なし
	HDFSファイル	LKM Spark to File LKM Spark to HDFS
	Hive	LKM Spark to Hive
	HBase	該当なし
	Pig	該当なし
	Spark	LKM SQL to Spark
	Kafka	LKM Spark to Kafka