4 Hadoopデータの統合

この章では、Hadoopデータを統合するために実行する必要がある手順について説明します。

この章の内容は次のとおりです。

4.1 Hadoopデータの統合

次の表に、Hadoopデータを統合するための手順をまとめます。

表4-1 Hadoopデータの統合

手順	説明
データ・ソースの設定	データ・ソースを設定してデータ・ソース・モデルを作成します。ファイル・データソース、Hive、HDFSおよびHBaseデータソースを設定する必要があります。「ファイル・データソースの設定」を参照してください。「Hiveデータソースの設定」を参照してください。「HBaseデータソースの設定」を参照してください。「Kafkaデータソースの設定」を参照してください。「Cassandraデータソースの設定」を参照してください。「HDFSデータソースの設定」を参照してください。
Hadoopナレッジ・モジュールのインポート	Hadoop KMをグローバル・オブジェクトまたはプロジェクトにインポートします。「Hadoopナレッジ・モジュールのインポート」を参照してください。
Oracle Data Integratorモデルの作成	HiveおよびHBaseモデルをリバースエンジニアリングし、Oracle Data Integratorモデルを作成します。「リバースエンジニアリングされたHive、HBaseおよびHDFSモデルからのOracle Data Integratorモデルの作成」を参照してください。
Hadoopデータの統合	Hadoopデータをロード、検証および変換するためのマッピングを設計します。「ファイルからHiveへのデータのロード」を参照してください。「HBaseからHiveへのデータのロード」を参照してください。「HiveからHbaseへのデータのロード」を参照してください。「SQOOPの使用によるSQLデータベースからHive、HBaseおよびファイルへのデータのロード」を参照してください。「Hive内のデータの検証と変換」を参照してください。「HiveおよびファイルからOracleデータベースへのデータのロード」を参照してください。「SQOOPの使用によるHBase、HiveおよびファイルからSQLデータベースへのデータのロード」を参照してください。「KafkaからSparkへのデータのロード」を参照してください。「HDFSファイルからHiveへのデータのロード」を参照してください。「HDFSファイルからSparkへのデータのロード」を参照してください。「Hiveからファイルへのデータのロード」を参照してください。

4.2 ファイル・データソースの設定

Hadoopのコンテキストでは、Hadoop分散ファイルシステム(HDFS)のファイルとローカル・ファイル(HDFS外のファイル)は区別されます。

データソースを定義する手順は次のとおりです。

ファイル・テクノロジに基づくデータ・サーバー・オブジェクトを作成します。
アクセスされるディレクトリごとに物理スキーマ・オブジェクトを作成します。
アクセスされるディレクトリごとに論理スキーマ・オブジェクトを作成します。
各論理スキーマのモデルを作成します。
ファイルおよびワイルドカード名のパターンごとに1つ以上のデータストアを作成します。
HDFSファイルの場合、「JDBC URL」フィールドにHDFS名のノードを入力して、ファイル・テクノロジに基づくデータ・サーバー・オブジェクトを作成し、「JDBCドライバ名」は空のままにしておきます。次に例を示します。
```
hdfs://bda1node01.example.com:8020
```
このデータ・サーバー構成では、テスト接続はサポートされていません。

注意:
HDFSファイルに専用テクノロジは定義されていません。

Hadoopデータの統合

4.3 HDFSデータソースの設定

このトピックでは、HDFSシステムに接続するために必要なOracle Data Integratorでの手順を示します。

HDFSテクノロジに基づくデータ・サーバー・オブジェクトを作成します。
注意:
HDFSデータ・サーバーは、既存のHadoopデータ・サーバーを参照する必要があります。
アクセスされるディレクトリごとに物理スキーマ・オブジェクトを作成します。
アクセスされるディレクトリごとに論理スキーマ・オブジェクトを作成します。
各論理スキーマのモデルを作成します
様々なファイル・タイプそれぞれについて、1つ以上のデータ・ストアを作成します。
「定義」タブには「リソース名」フィールドがあり、ファイル・タイプが表しているファイルを指定できます。ワイルドカードを使用した場合、ファイルには同じスキーマが必要であり、同じ形式(全部JSONまたは全部Avro)である必要があります。
該当する記憶域形式およびスキーマ・ファイルを選択します。
スキーマのコンテンツが表示されます。
「属性」タブを選択し、属性を入力するか、指定したスキーマから属性をリバース・エンジニアリングします。

4.4 Hiveデータソースの設定

Hiveシステムに接続するために、Oracle Data Integratorで次の手順を行う必要があります。Oracle Data IntegratorではJDBCを使用してHiveに接続します。

前提条件

Hiveテクノロジが標準のOracle Data Integratorテクノロジに含まれている必要があります。そうでない場合は、INSERT_UPDATEモードでxml-referenceディレクトリからテクノロジをインポートします。

Hiveデータソースを設定する手順は次のとおりです。

Hiveテクノロジに基づくデータ・サーバー・オブジェクトを作成します。
JDBC下に次の場所を設定します。

JDBCドライバ: weblogic.jdbc.hive.HiveDriver

JDBC URL: jdbc:weblogic:hive://<host>:<port>[; property=value[;...]]

たとえば、次のようになります。jdbc:weblogic:hive://localhost:10000;DatabaseName=default;User=default;Password=default

注意:
通常、ユーザーIDとパスワードは、ODIデータ・サーバーの対応するフィールドに入力されます。Hiveユーザーがパスワードを指定せずに定義される場合、JDBC URLの一部としてpassword=defaultを追加する必要があり、データ・サーバーのパスワード・フィールドは空白のままにします。
データ・サーバーの「定義」タブで次の情報を設定します。

HiveメタストアURI: thrift://BDA:10000など
Hiveサーバーが稼働していることを確認します。
データ・サーバーへの接続をテストします。
物理スキーマを作成します。物理スキーマ定義の両方のスキーマ・フィールドに、Hiveスキーマの名前を入力します。
論理スキーマ・オブジェクトを作成します。
RKM Hiveをグローバル・オブジェクトまたはプロジェクトにインポートします。
論理スキーマを指す、Hiveテクノロジ用の新規モデルを作成します。
RKM Hiveを使用して、カスタム・リバースエンジニアリング操作を実行します。

リバース・エンジニアリングされたHive表からデータがデータ・ストアの「属性」タブおよび「記憶域」タブに移入されます。

Hadoopデータの統合

4.5 HBaseデータソースの設定

HBaseシステムに接続するには、Oracle Data Integratorで次の手順を行う必要があります。

前提条件

HBaseテクノロジが標準のOracle Data Integratorテクノロジに含まれている必要があります。そうでない場合は、INSERT_UPDATEモードでxml-referenceディレクトリからテクノロジをインポートします。

HBaseデータソースを設定する手順は次のとおりです。

HBaseテクノロジに基づくデータ・サーバー・オブジェクトを作成します。

このテクノロジのデータ・サーバーでは、JDBCドライバおよびURLは使用できません。
データ・サーバーの「定義」タブで次の情報を設定します。

HBase定足数: HBaseインストールの定足数。例: zkhost1.mydomain.com,zkhost2.mydomain.com,zkhost3.mydomain.com
HBaseサーバーが稼働していることを確認します。

注意:
HBaseデータ・サーバーへの接続をテストすることはできません。
物理スキーマを作成します。
論理スキーマ・オブジェクトを作成します。
RKM HBaseをグローバル・オブジェクトまたはプロジェクトにインポートします。
論理スキーマを指す、HBaseテクノロジ用の新規モデルを作成します。
RKM HBaseを使用して、カスタム・リバースエンジニアリング操作を実行します。

注意:
リバースエンジニアリングを実行する前に。HBase表にデータが含まれていることを確認します。HBase表が空の場合、リバースエンジニアリング操作は機能しません。

このプロセスの終了時に、すべてのHBase表およびその列とデータ型がHBaseデータ・モデルに含まれます。

Hadoopデータの統合

4.6 Kafkaデータソースの設定

このトピックでは、Kafkaシステムに接続するために必要なOracle Data Integratorでの手順を示します。

Kafkaテクノロジが標準のOracle Data Integratorテクノロジに含まれている必要があります。そうでない場合は、INSERT_UPDATEモードでxml-referenceディレクトリからテクノロジをインポートします。

Kafkaテクノロジに基づくデータ・サーバー・オブジェクトを作成します。
物理スキーマ・オブジェクトを作成します。
論理スキーマ・オブジェクトを作成します。
各論理スキーマのモデルを作成します
様々なファイル・タイプそれぞれについて、1つ以上のデータ・ストアを作成します。
データ・ストアの「定義」タブのリソース名はKafkaトピックを表します。Kafkaトピック名はユーザーが入力することも、Kafkaクラスタ内の使用可能なKafkaトピックのリストから選択することもできます。Kafkaトピックからデータをロードするには、受信者ベースと直接の2つのロード方法があり、LKM Kafka to Sparkではいずれの方法もサポートされます。
データ・サーバーへの接続をテストします。
Kafkaの統合の詳細は、「Oracle Data IntegratorとのKafkaの統合」を参照してください。

Kafkaデータ・モデルには、すべてのKafka表およびその列とデータ型が含まれます。

4.7 Cassandraデータソースの設定

このトピックでは、Cassandraシステムに接続するために必要なOracle Data Integratorでの手順を示します。Oracle Data IntegratorではJDBCを使用してCassandraに接続します。

Cassandraテクノロジが標準のOracle Data Integratorテクノロジに含まれている必要があります。そうでない場合は、INSERT_UPDATEモードでxml-referenceディレクトリからテクノロジをインポートします。

Cassandra固有のフレックス・フィールドをすべて追加する必要があります。

Cassandraテクノロジに基づくデータ・サーバー・オブジェクトを作成します。
JDBC下に次の場所を設定します。
Cassandra JDBCドライバをドライバ・リストに追加します。
JDBCドライバ: weblogic.jdbc.cassandra.CassandraDriver

JDBC URL: jdbc:weblogic:cassandra://<host>:<port>[;property=value[:...]]

たとえば、次のようになります。jdbc:weblogic:cassandra://cassandra.mycompany.com:9042;KeyspaceName=mykeyspace

注意:
最新のドライバではバイナリ・プロトコルを使用しているため、デフォルト・ポート9042を使用します。
Cassandraサーバーが稼働していることを確認します。
データ・サーバーへの接続をテストします。
物理スキーマ・オブジェクトを作成します。
論理スキーマ・オブジェクトを作成します。
RKM Cassandraをグローバル・オブジェクトまたはプロジェクトにインポートします。
各論理スキーマのモデルを作成します
RKM Cassandraを使用して、カスタム・リバースエンジニアリング操作を実行します。

4.8 Hadoopナレッジ・モジュールのインポート

ビッグ・データ・ナレッジ・モジュールのほとんどは、製品に組み込まれています。RKMとCKMはその例外で、使用する前にプロジェクトにまたはグローバル・オブジェクトとしてインポートする必要があります。

CKM Hive
RKM Hive
RKM HBase
RKM Cassandra

Hadoopデータの統合

4.9 リバースエンジニアリングされたHive、HBaseおよびHDFSモデルからのOracle Data Integratorモデルの作成

リバースエンジニアリングされたHive、HBaseおよびHDFSモデルからODIモデルを作成する必要があります。リバース・エンジニアリング・プロセスでは、対応するHiveおよびHBase表に対するHiveおよびHBaseデータ・ストアが作成されます。これらのデータ・ストアをマッピングのソースまたはターゲットとして使用できます。

この項では、次の項目について説明します。

4.9.1 モデルの作成

Hive、HBaseまたはHDFSをホストするテクノロジに基づくモデルや、HiveやHBase、HDFS、ファイルの接続を構成したときに作成された論理スキーマに基づくモデルを作成するには、『Oracle Fusion Middleware Oracle Data Integratorでの統合プロジェクトの開発』で説明されている標準の手順に従います。

下位互換性のため、ビッグ・データのLKMによるファイルからの読取り(LKM File to Hive LOAD DATA)では、HDFSからの読取りもサポートされていますが、ソース・データ・ストアはファイル・モデルに基づく必要があります。HDFSから読み取る場合は、LKM HDFS to File LOAD DATAなどのKMを使用する方が望ましいです。その場合、ソース・データ・ストアは、HDFSモデルに基づく必要があります。

4.9.2 Hive表のリバース・エンジニアリング

Hive表およびビューのリバース・エンジニアリングには、RKM Hiveが使用されます。RKM Hiveを使用してHive表のカスタマイズされたリバースエンジニアリングを実行するには、『Oracle Fusion Middleware Oracle Data Integratorでの統合プロジェクトの開発』の説明に従って、通常の手順を使用します。このトピックでは、Hive表に固有の情報の詳細を示します。

リバースエンジニアリング・プロセスでは、対応するHive表またはビューに対するデータストアが作成されます。データ・ストアをマッピングのソースまたはターゲットとして使用できます。

RKM Hiveの詳細は、「RKM Hive」を参照してください。

「記憶域」タブがHiveデータ・ストアに追加され、Hive内でのデータの格納および書式設定の方法に柔軟性があります。Hive表がすでに存在する場合は、Hiveモデルに対してリバース・エンジニアリング・プロセスを使用し、カスタムHive RKMを使用してフィールドにデータを移入できます。

4.9.3 HBase表のリバース・エンジニアリング

HBase表のリバース・エンジニアリングには、RKM HBaseが使用されます。RKM HBaseを使用してHBase表のカスタマイズされたリバースエンジニアリングを実行するには、『Oracle Fusion Middleware Oracle Data Integratorでの統合プロジェクトの開発』の説明に従って、通常の手順を使用します。このトピックでは、HBase表に固有の情報の詳細を示します。

リバースエンジニアリング・プロセスでは、対応するHBase表のデータ・ストアが作成されます。データ・ストアをマッピングのソースまたはターゲットとして使用できます。

注意:

リバースエンジニアリングを実行する前に。HBase表にデータが含まれていることを確認します。HBase表が空の場合、リバースエンジニアリング操作は機能しません。

RKM HBaseの詳細は、「RKM HBase」を参照してください。

4.9.4 HDFS表のリバース・エンジニアリング

HDFSファイルは、リバース・エンジニアリングで使用されます。HDFSは、ファイル・テクノロジまたはHDFSテクノロジを使用してリバース・エンジニアリングできます。

ファイル・テクノロジによるHDFSのリバース・エンジニアリング

HDFSファイルは標準ファイルのようにリバース・エンジニアリングできます。HDFSファイルをリバースエンジニアリングするには、ファイル・システムにコピーし、標準ファイルをリバースエンジニアリングするのと同じプロセスに従う必要があります。

注意:

ファイルがローカル・ファイル・システムに対して大きい場合、HDFSから最初のNレコードを取得して、ローカル・ファイルに格納します。

HDFSテクノロジによるHDFSのリバース・エンジニアリング

HDFSファイルをリバース・エンジニアリングするには、次の手順を実行します。

HDFSデータ・ストアを作成します。
「記憶域」タブで、「記憶域形式」フィールドから選択し、対応するスキーマ・ファイルを「スキーマ・ファイル」フィールドに指定する必要があります。
HDFSデータ・ストアの「属性」タブで「リバース・エンジニアリング」操作をクリックします。

注意:

RKMをプロジェクトにインポートする必要はありません。

HDFSファイルはFile to Hive、File to SparkなどのKMで使用され、その場合、ODIファイル・テクノロジがソースとして使用されます。HDFS LKM (LKM HDFS File to Hive)を使用することもでき、このようなKMではODI HDFSテクノロジが使用されます。

使用するKMによっては、ファイルに別のテクノロジを選択できます。HDFSのリバース・エンジニアリングでは、Avro、Json、Parquetおよびデリミタ付きの各形式がサポートされます。

詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』のファイル・モデルのリバースエンジニアリングに関する項を参照してください。

リバースエンジニアリングされたHive、HBaseおよびHDFSモデルからのOracle Data Integratorモデルの作成

4.9.5 Cassandra表のリバース・エンジニアリング

Cassandra表のリバース・エンジニアリングには、RKM Cassandraが使用されます。RKM Cassandraを使用してCassandra表のカスタマイズされたリバースエンジニアリングを実行するには、『Oracle Fusion Middleware Oracle Data Integratorでの統合プロジェクトの開発』の説明に従って、通常の手順を使用します。このトピックでは、Cassandra表に固有の情報の詳細を示します。

リバースエンジニアリング・プロセスでは、対応するCassandra表に対するデータ・ストアが作成されます。RKM Cassandraの詳細は、「RKM Cassandra」を参照してください。

4.10 ファイルからHiveへのデータのロード

KMでは、Loading Data from HDFSからのデータのロードがサポートされますが、望ましい方法はHDFS KMを使用することです(「HDFSファイルからHiveへのデータのロード」を参照)。

ローカル・ファイルおよびHDFSファイルのデータ・ストアを作成します。
ローカル・ファイル・データソースのリバース・エンジニアリングおよび構成の詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』を参照してください。
ソースとしてファイル・データ・ストアを、ターゲットとして対応するHive表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM File to Hive LOAD DATAまたはLKM File to Hive LOAD DATA Directナレッジ・モジュールを使用します。
これらの統合ナレッジ・モジュールは、フラット・ファイルからHiveにデータをロードし、既存のデータを置換または追加します。

KMの詳細は、次の項を参照してください。

4.11 Hiveからファイルへのデータのロード

Hive表からローカル・ファイル・システムまたはHDFSファイルにデータをロードする手順は、次のとおりです。

フラット・ファイルにロードするHive表のデータ・ストアを作成します。
Hiveデータソースのリバース・エンジニアリングおよび構成の詳細は、「Hiveデータソースの設定」を参照してください。
ソースとしてHiveデータ・ストアを、ターゲットとして対応するファイル・データ・ソースを使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM Hive to File Directナレッジ・モジュールを使用します。
この統合ナレッジ・モジュールは、Hiveからフラット・ファイルにデータをロードします。

LKM Hive to File Directの詳細は、「LKM Hive to File Direct」を参照してください。

4.12 HBaseからHiveへのデータのロード

HBase表からHiveにデータをロードする手順は次のとおりです。

HiveにロードするHBase表のデータ・ストアを作成します。
HBaseデータソースのリバース・エンジニアリングおよび構成の詳細は、「HBaseデータソースの設定」を参照してください。
ソースとしてHBaseデータ・ストアを、ターゲットとして対応するHive表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM HBase to Hive HBASE-SERDEナレッジ・モジュールを使用します。
このナレッジ・モジュールは、HiveからHBase表への読取りアクセスを提供します。

LKM HBase to Hive HBASE-SERDEの詳細は、「LKM HBase to Hive HBASE-SERDE」を参照してください。

4.13 HiveからHbaseへのデータのロード

Hive表からHBaseにデータをロードする手順は次のとおりです。

HBaseにロードするHive表のデータ・ストアを作成します。
Hiveデータソースのリバース・エンジニアリングおよび構成の詳細は、「Hiveデータソースの設定」を参照してください。
ソースとしてHiveデータ・ストアを、ターゲットとして対応するHBase表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM Hive to HBase Incremental Update HBASE-SERDE Directナレッジ・モジュールを使用します。
この統合ナレッジ・モジュールは、HiveからHBaseにデータをロードし、新しい行の挿入および既存のデータの更新をサポートしています。

LKM Hive to HBase Incremental Update HBASE-SERDE Directの詳細は、「LKM Hive to HBase Incremental Update HBASE-SERDE Direct」を参照してください。

4.14 SQOOPの使用によるSQLデータベースからHive、HBaseおよびファイルへのデータのロード

SQLデータベースからHive、HBaseおよびファイル・ターゲットにデータをロードする手順は次のとおりです。

Hive、HBaseまたはファイル・ターゲットにロードするSQLソースのデータ・ストアを作成します。
SQLデータソースのリバース・エンジニアリングおよび構成の詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』を参照してください。
ソースとしてSQLソース・データ・ストアを、ターゲットとして対応するHBase表、Hive表またはHDFSファイルを使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているIKM SQL to Hive-HBase-File (SQOOP)ナレッジ・モジュールを使用します。
この統合ナレッジ・モジュールは、SQLソースからHive、HBaseまたはファイル・ターゲットにデータをロードします。SQOOPを使用して、Hive、HBaseおよびファイル・ターゲットにデータをロードします。SQOOPは、パラレルなJDBC接続を使用してデータをロードします。

IKM SQL to Hive-HBase-File (SQOOP)の詳細は、「IKM SQL to Hive-HBase-File (SQOOP) [非推奨]」を参照してください。

4.15 SQOOPの使用によるSQLデータベースからHiveへのデータのロード

SQLデータベースからHiveターゲットにデータをロードする手順は、次のとおりです。

HiveターゲットにロードするSQLソースのデータ・ストアを作成します。
SQLデータソースのリバース・エンジニアリングおよび構成の詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』を参照してください。
ソースとしてSQLソース・データ・ストアを、ターゲットとして対応するHive表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM SQL to Hive SQOOPナレッジ・モジュールを使用します。
このKMは、データをSQLソースからHiveにロードします。HiveへのデータのロードにはSQOOPが使用されます。SQOOPは、パラレルなJDBC接続を使用してデータをロードします。

LKM SQL to Hive SQOOPの詳細は、「LKM SQL to Hive SQOOP」を参照してください。

4.16 SQOOPの使用によるSQLデータベースからファイルへのデータのロード

SQLデータベースからファイル・ターゲットにデータをロードする手順は、次のとおりです。

ファイル・ターゲットにロードするSQLソースのデータ・ストアを作成します。
SQLデータソースのリバース・エンジニアリングおよび構成の詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』を参照してください。
ソースとしてSQLソース・データ・ストアを、ターゲットとして対応するHDFSファイルを使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM SQL to File SQOOP Directナレッジ・モジュールを使用します。
この統合ナレッジ・モジュールは、SQLソースからファイル・ターゲットにデータをロードします。ファイル・ターゲットへのデータのロードにはSQOOPが使用されます。SQOOPは、パラレルなJDBC接続を使用してデータをロードします。

IKM SQL to Hive-HBase-File (SQOOP)の詳細は、「IKM SQL to Hive-HBase-File (SQOOP) [非推奨]」を参照してください。

4.17 SQOOPの使用によるSQLデータベースからHBaseへのデータのロード

SQLデータベースからHBaseターゲットにデータをロードする手順は、次のとおりです。

HBaseターゲットにロードするSQLソースのデータ・ストアを作成します。
SQLデータソースのリバース・エンジニアリングおよび構成の詳細は、『Oracle Data Integrator接続およびナレッジ・モジュール・ガイド』を参照してください。
ソースとしてSQLソース・データ・ストアを、ターゲットとして対応するHBase表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM SQL to HBase SQOOP Directナレッジ・モジュールを使用します。
この統合ナレッジ・モジュールは、SQLソースからHBaseターゲットにデータをロードします。HBaseターゲットへのデータのロードにはSQOOPが使用されます。SQOOPは、パラレルなJDBC接続を使用してデータをロードします。

LKM SQL to HBase SQOOP Directの詳細は、「LKM SQL to HBase SQOOP Direct」を参照してください。

4.18 Hive内のデータの検証と変換

データがHiveにロードされた後は、次のナレッジ・モジュールを使用してデータを検証および変換できます。

IKM Hive Control Append

詳細は、「IKM Hive Append」を参照してください。
IKM Hive Append

詳細は、「IKM Hive Append」を参照してください。
IKM Hive Incremental Update

詳細は、「IKM Hive Incremental Update」を参照してください。
CKM Hive

詳細は、「CKM Hive (非推奨)」を参照してください。
IKM Hive Transform

詳細は、「IKM Hive Transform (非推奨)」を参照してください。

4.19 HiveおよびファイルからOracleデータベースへのデータのロード

Oracle Loader for Hadoopを使用してHDFSファイルまたはHiveソースからOracleデータベース・ターゲットにデータをロードするには、次の表にリストされているナレッジ・モジュールを使用します。

表4-2 データをOracle Databaseにロードするナレッジ・モジュール

ナレッジ・モジュール	用途
IKM File-Hive to Oracle (OLH-OSCH)	Oracle Loader for Hadoopを使用して、HDFSファイルまたはHiveソースからOracleデータベース・ターゲットにデータをロードします。詳細は、「IKM File-Hive to Oracle (OLH-OSCH) [非推奨]」を参照してください。
LKM File to Oracle OLH-OSCH	Oracle Loader for Hadoopを使用して、HDFSファイルからOracleステージング表にデータをロードします。詳細は、「LKM File to Oracle OLH-OSCH」を参照してください。
LKM File to Oracle OLH-OSCH Direct	Oracle Loader for Hadoopを使用して、HDFSファイルからOracleデータベース・ターゲットにデータをロードします。詳細は、「LKM File to Oracle OLH-OSCH Direct」を参照してください。
LKM Hive to Oracle OLH-OSCH	Oracle Loader for Hadoopを使用して、HiveソースからOracleステージング表にデータをロードします。詳細は、「LKM Hive to Oracle OLH-OSCH」を参照してください。
LKM Hive to Oracle OLH-OSCH Direct	Oracle Loader for Hadoopを使用して、HiveソースからOracleデータベース・ターゲットにデータをロードします。詳細は、「LKM Hive to Oracle OLH-OSCH Direct」を参照してください。

4.20 SQOOPの使用によるHBase、HiveおよびファイルからSQLデータベースへのデータのロード

SQOOPを使用してHDFSファイル、HBaseソースまたはHiveソースからSQLデータベース・ターゲットにデータをロードするには、次の表にリストされているナレッジ・モジュールを使用します。

表4-3 データをSQL Databaseにロードするナレッジ・モジュール

ナレッジ・モジュール	用途
IKM File-Hive to SQL (SQOOP)	SQOOPを使用して、HDFSファイルまたはHiveソースからSQLデータベース・ターゲットにデータをロードします。詳細は、「IKM File-Hive to SQL (SQOOP) [非推奨]」を参照してください。
LKM HBase to SQL SQOOP	SQOOPを使用して、HBaseソースからSQLデータベース・ターゲットにデータをロードします。詳細は、「LKM HBase to SQL SQOOP」を参照してください。
LKM File to SQL SQOOP	SQOOPを使用して、HDFSファイルからSQLデータベース・ターゲットにデータをロードします。詳細は、「LKM File to SQL SQOOP」を参照してください。
LKM Hive to SQL SQOOP	SQOOPを使用して、HiveソースからSQLデータベース・ターゲットにデータをロードします。詳細は、「LKM Hive to SQL SQOOP」を参照してください。

4.21 KafkaからSparkへのデータのロード

KafkaからSparkにデータをロードします。

SparkにロードするKafka表のデータ・ストアを作成します。
Kafkaデータソースの構成については、「Kafkaデータソースの設定」を参照してください。
ソースとしてKafkaデータ・ストアを、ターゲットとして対応するSpark表を使用して、マッピングを作成します。
マッピングの物理ダイアグラムで指定されているLKM Kafka to Spark zookeeper.connect (受信者ベースの接続の場合)またはmetadata.broker.list (直接接続ナレッジ・モジュールの場合)を使用します。
この統合ナレッジ・モジュールは、KafkaからSparkにデータをロードし、新しい行の挿入および既存のデータの更新をサポートしています。

注意:
ODIマッピング内の各Kafkaソースにより、Sparkエグゼキュータが割り当てられます。使用可能なエグゼキュータの数が少ないと、Spark Kafkaマッピングがハングします。エグゼキュータの数は、少なくともn+1にする必要があります(nは、マッピング内のKafkaソースの数です)。詳細は、Sparkのドキュメントを参照してください。

LKM Kafka to Sparkの詳細は、「LKM Kafka to Spark」を参照してください。