この章の内容は次のとおりです。
Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。
Oracle Data Integratorは統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能メカニズムの範囲におけるフローの「処理」を定義するのに使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。
Oracle Data Integratorでは、使い慣れて使いやすいツールおよびあらかじめ構成されているナレッジ・モジュール(KM)を採用することにより、次のことが可能です。
ファイルまたはSQLデータベースからHadoopに直接データをロードする。
詳細は、「Hadoopデータの統合」を参照してください。
Hadoop内のデータを検証し、Hive、HBaseまたはHDFSなどの各種形式で利用できるように変換する。
詳細は、「Hive内のデータの検証と変換」を参照してください。
Hadoopから処理済データをOracleデータベースやSQLデータベース、ファイルにロードする。
詳細は、「Hadoopデータの統合」を参照してください。
Hadoopで統合プロジェクトをOozieワークフローとして実行する。
詳細は、「Oracle Data IntegratorによるOozieワークフローの実行」を参照してください。
Oracle Data Integrator内でOozieワークフロー実行ログを監査する。
詳細は、「Hadoopログの監査」を参照してください。
Hadoop用にHiveQLやPig Latin、Spark Pythonといった異なる言語のコードを生成します。
詳細は、「異なる言語のコードの生成」を参照してください。
ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、データをSQLからSparkへと読み込むには、LKM SQL to File Directを使用してデータをまずHDFSにロードし、それからLKM File to Sparkを使用して続行します。
LKM Fileで始まるビッグ・データ・ナレッジ・モジュール(LKM File to SQL SQOOPなど)では、このマトリックスで説明されているようにOSファイルとHDFSファイルの両方がサポートされます。LKM HDFS to Spark、LKM HDFS File to HiveをはじめとしたKMが追加で提供されています。他のKMとは異なり、これらのKMではHDFSファイルしかサポートされませんが、機能が追加されており、たとえば、複合データをHDFSデータ・ストアで記述したり、フラット化コンポーネントを使用してマッピングで使用することができます。
次の表は、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorによって提供されるビッグ・データKMを示します。
表1-1 ビッグ・データ・ナレッジ・モジュール
| ソース | ターゲット | ナレッジ・モジュール |
|---|---|---|
OSファイル |
HDFSファイル |
該当なし |
Hive |
||
HBase |
該当なし |
|
Pig |
||
Spark |
||
汎用SQL |
HDFSファイル |
|
Hive |
||
HBase |
||
Pig |
該当なし |
|
Spark |
該当なし |
|
Hadoop |
HBase |
|
Hive |
||
HDFS |
Kafka |
|
HDFS |
Spark |
|
HDFSファイル |
OSファイル |
該当なし |
汎用SQL |
||
Oracle SQL |
||
HDFSファイル |
該当なし |
|
Hive |
||
HBase |
該当なし |
|
Pig |
||
Spark |
||
Hive |
OSファイル |
|
汎用SQL |
||
Oracle SQL |
||
HDFSファイル |
||
Hive |
||
HBase |
||
Pig |
||
Spark |
||
HBase |
OSファイル |
該当なし |
汎用SQL |
||
Oracle SQL |
該当なし |
|
HDFSファイル |
該当なし |
|
Hive |
||
HBase |
該当なし |
|
Pig |
||
Spark |
該当なし |
|
Pig |
OSファイル |
|
汎用SQL |
||
Oracle SQL |
該当なし |
|
HDFSファイル |
||
Hive |
||
HBase |
||
Pig |
該当なし |
|
Spark |
該当なし |
|
Spark |
OSファイル |
|
汎用SQL |
||
Oracle SQL |
該当なし |
|
HDFSファイル |
||
Hive |
||
HBase |
該当なし |
|
Pig |
該当なし |
|
Spark |
||
Kafka |