1 Oracle Data Integratorによるビッグ・データの統合
この章の内容は次のとおりです。
Hadoopデータ統合の概要
Oracle Data IntegratorをHadoopと組み合せて使用すると、非リレーショナルのデータ・ソースからの大量のデータを処理する統合フローを設計することができます。
Apache Hadoopは、リレーショナルでないデータソースからのデータや、リレーショナル・データベースで処理できないデータ・ボリュームを処理するように設計されています。
Oracle Data Integratorは、統合フローの「要素」を設計し、ナレッジ・モジュールを割り当てて拡張可能なメカニズムの範囲におけるフローの「処理」を定義するために使用できます。この「処理」とはOracle、Teradata、Hive、Spark、Pigなどです。
Oracle Data Integratorでは、使い慣れた使いやすいツールと事前構成済のナレッジ・モジュール(KM)を活用して、次の作業が可能になります。
-
非リレーショナルおよびリレーショナルのデータ・ストア(Hive、HBase、Cassandraなど)のリバースエンジニアリング。
詳細は、「Hive表、HBase表、Cassandra表およびHDFSファイルを表すODIモデルとデータ・ストアの作成」を参照してください。
-
ファイルまたはSQLデータベースからHadoopに直接データをロードする。
詳細は、「Hadoopデータの統合」を参照してください。
-
Hadoop内のデータを検証し、Hive、HBaseまたはHDFSなどの各種形式で利用できるように変換する。
詳細は、「Hive内のデータの検証と変換」を参照してください。
-
Hadoopから処理済データをOracleデータベースやSQLデータベース、ファイルにロードする。
詳細は、「Hadoopデータの統合」を参照してください。
-
Hadoopで統合プロジェクトをOozieワークフローとして実行する。
詳細は、「Oracle Data IntegratorによるOozieワークフローの実行」を参照してください。
-
Oracle Data Integrator内でOozieワークフロー実行ログを監査する。
詳細は、「Hadoopログの監査」を参照してください。
-
Hadoop用にHiveQLやPig Latin、Spark Pythonといった異なる言語のコードを生成します。
詳細は、「異なる言語のコードの生成」を参照してください。
ビッグ・データ・ナレッジ・モジュール・マトリックス
ビッグ・データ・ナレッジ・モジュール・マトリックスは、Oracle Data Integratorにより提供される、ビック・データのロードおよび統合KMを示しています。
ソースおよびターゲット・テクノロジに基づき、統合プロジェクトにおいて次の表に示すKMを使用できます。また、これらのKMは組み合せて使用することもできます。たとえば、SQLからSparkにデータを読み込むために、まず、LKM SQL to Spark
を使用してSQLからSparkにデータをロードしてから、LKM Spark to HDFS
を使用して続行します。
LKM Fileで始まるビッグ・データ・ナレッジ・モジュール(LKM File to SQL SQOOPなど)では、このマトリックスで説明されているようにOSファイルとHDFSファイルの両方がサポートされます。LKM HDFS to Spark、LKM HDFS File to HiveをはじめとしたKMが追加で提供されています。他のKMとは異なり、これらのKMではHDFSファイルしかサポートされませんが、機能が追加されており、たとえば、複合データをHDFSデータ・ストアで記述したり、フラット化コンポーネントを使用してマッピングで使用することができます。
次の表には、様々なソースおよびターゲット・テクノロジ間でデータを統合するための、Oracle Data Integratorが提供するビッグ・データのロードKMと統合KMを示します。
表1-1 ビッグ・データのロードおよび統合ナレッジ・モジュール
ソース | ターゲット | ナレッジ・モジュール |
---|---|---|
OSファイル |
HDFSファイル |
該当なし |
Hive |
||
HBase |
該当なし |
|
Pig |
||
Spark |
||
SQL |
HDFSファイル |
|
Hive |
||
HBase |
||
Pig |
||
Spark |
||
HDFS |
Kafka |
該当なし |
HDFS |
Spark |
|
HDFSファイル |
OSファイル |
該当なし |
SQL |
||
HDFSファイル |
該当なし |
|
Hive |
LKM File to Hive LOAD DATA Direct |
|
HBase |
該当なし |
|
Pig |
||
Spark |
||
Hive |
OSファイル |
|
SQL |
||
HDFSファイル |
||
Hive |
||
HBase |
||
Pig |
||
Spark |
||
HBase |
OSファイル |
該当なし |
SQL |
||
HDFSファイル |
該当なし |
|
Hive |
||
HBase |
該当なし |
|
Pig |
||
Spark |
該当なし |
|
Pig |
OSファイル |
|
HDFSファイル |
||
Hive |
||
HBase |
||
Pig |
該当なし |
|
Spark |
該当なし |
|
Spark |
OSファイル |
|
SQL |
||
HDFSファイル |
||
Hive |
||
HBase |
該当なし |
|
Pig |
該当なし |
|
Spark |
||
Kafka |
||
Cassandra |
次の表に、ODIが提供するビッグ・データ・リバースエンジニアリングKMを示します。
表1-2 ビッグ・データ・リバースエンジニアリング・ナレッジ・モジュール
テクノロジ | ナレッジ・モジュール |
---|---|
HBase |
|
Hive |
|
Cassandra |