この章では、Oracle Data Integratorの使用によるビッグ・データの統合の概要について説明します。また、サポートされているビッグ・データ・テクノロジの互換性マトリクスも提供します。
この章の内容は次のとおりです。
Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。
Oracle Data Integratorは統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能メカニズムの範囲におけるフローの「処理」を定義するのに使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。
Oracle Data Integratorでは、使い慣れて使いやすいツールおよびあらかじめ構成されているナレッジ・モジュール(KM)を採用することにより、次のことが可能です。
ファイルまたはSQLデータベースからHadoopに直接データをロードする。
詳細は、第4.1項「Hadoopデータの統合」を参照してください。
Hadoop内のデータを検証し、Hive、HBaseまたはHDFSなどの各種形式で利用できるように変換する。
詳細は、第4.15項「Hive内のデータの検証と変換」を参照してください。
Hadoopから処理済データをOracleデータベースやSQLデータベース、ファイルにロードする。
詳細は、第4.1項「Hadoopデータの統合」を参照してください。
Hadoopで統合プロジェクトをOozieワークフローとして実行する。
Oracle Data Integrator内でOozieワークフロー実行ログを監査する。
詳細は、第5.5項「Hadoopログの監査」を参照してください。
Hadoop用にHiveQLやPig Latin、Spark Pythonといった異なる言語のコードを生成します。
詳細は、第6.8項「異なる言語のコードの生成」を参照してください。
ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、データをSQLからSparkへと読み込むには、LKM SQL to File Direct
を使用してデータをまずHDFSにロードし、それからLKM File to Spark
を使用して続行します。
次の表は、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorによって提供されるビッグ・データKMを示します。
表1-1 ビッグ・データ・ナレッジ・モジュール
ソース | ターゲット | ナレッジ・モジュール |
---|---|---|
OSファイル |
HDFSファイル |
- |
Hive |
LKM File to Hive LOAD DATA Direct |
|
HBase |
- |
|
Pig |
|
|
Spark |
|
|
汎用SQL |
HDFSファイル |
|
Hive |
|
|
HBase |
|
|
Pig |
- |
|
Spark |
- |
|
HDFSファイル |
OSファイル |
- |
汎用SQL |
|
|
Oracle SQL |
LKM File to Oracle OLH-OSCH Direct |
|
HDFSファイル |
- |
|
Hive |
LKM File to Hive LOAD DATA Direct |
|
HBase |
- |
|
Pig |
|
|
Spark |
|
|
Hive |
OSファイル |
|
汎用SQL |
|
|
Oracle SQL |
LKM Hive to Oracle OLH-OSCH Direct |
|
HDFSファイル |
|
|
Hive |
|
|
HBase |
LKM Hive to HBase Incremental Update HBASE-SERDE Direct |
|
Pig |
|
|
Spark |
|
|
HBase |
OSファイル |
- |
汎用SQL |
|
|
Oracle SQL |
- |
|
HDFSファイル |
- |
|
Hive |
|
|
HBase |
- |
|
Pig |
||
Spark |
- |
|
Pig |
OSファイル |
|
汎用SQL |
|
|
Oracle SQL |
- |
|
HDFSファイル |
|
|
Hive |
|
|
HBase |
|
|
Pig |
- |
|
Spark |
- |
|
Spark |
OSファイル |
|
汎用SQL |
- |
|
Oracle SQL |
- |
|
HDFSファイル |
|
|
Hive |
|
|
HBase |
- |
|
Pig |
- |
|
Spark |
- |