3 Hadoopデータを統合する環境の設定

この章では、Hadoopデータを統合するための環境を設定するために実行する必要がある手順について説明します。

この章の内容は以下のとおりです。

第3.1項「ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成」
第3.2項「Hadoopデータ・サーバーの作成と初期化」
第3.3項「Hadoop物理スキーマの作成」
第3.4項「Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成」
第3.5項「Oracle Loader for Hadoopの構成」
第3.6項「保護されたクラスタに接続するためのOracle Data Integratorの構成」
第3.7項「ローカル・エージェントでHadoopジョブを実行するためのOracle Data Integrator Studioの構成」

3.1 ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成

ビッグ・データ構成ウィザードは、複数のHadoopテクノロジを設定するための単一のエントリ・ポイントを提供します。データ・サーバー、物理スキーマ、論理スキーマの作成、およびHadoop、HBase、Oozie、Spark、Hive、Pigといった各種Hadoopテクノロジに対するコンテキストの設定をすばやく実行できます。

様々な配置に対するデフォルトのメタデータ(プロパティやホスト名、ポート名など)、および環境変数のデフォルト値があらかじめ入力されています。これにより、これらのテクノロジに対する詳細な知識がなくても、データ・サーバーを物理および論理スキーマとともに簡単に作成できます。

すべてのテクノロジの構成が終わったら、データ・サーバーに対する設定を検証して接続ステータスをテストできます。

注意:

ビッグ・データ構成ウィザードを使用することを望まない場合、後続の項で言及されている情報を使用して手動でビッグ・データ・テクノロジ用にデータ・サーバーを設定できます。

ビッグ・データ構成ウィザードを実行するには、次の手順を実行します。

ODI Studioで、「ファイル」を選択し、「新規...」をクリックします。
新規ギャラリ・ダイアログで、「ビッグ・データ構成」を選択して「OK」をクリックします。

ビッグ・データ構成ウィザードが表示されます。
ウィザードの「一般設定」パネルで、必要なオプションを指定します。

詳細は、第3.1.1項「一般設定」を参照してください。
「次」をクリックします。

「一般設定」パネルで選択した各テクノロジに対するデータ・サーバー・パネルが表示されます。
ウィザードの「Hadoop」パネルで、次を実行します。
- Hadoopデータ・サーバーを作成するのに必要なオプションを指定します。
  
  詳細は、第3.2.1項「Hadoopデータ・サーバーの定義」を参照してください。
- 「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
- 論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「HBase」パネルで、次を実行します。
- HBaseデータ・サーバーを作成するのに必要なオプションを指定します。
  
  詳細は、第3.1.2項「HBaseデータ・サーバーの定義」を参照してください。
- 「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
- 論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
ウィザードの「Spark」パネルで、次を実行します。
- Sparkデータ・サーバーを作成するのに必要なオプションを指定します。
  
  詳細は、第6.6.1項「Sparkデータ・サーバーの定義」を参照してください。
- 「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
- 論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Pig」パネルで、次を実行します。
- Pigデータ・サーバーを作成するのに必要なオプションを指定します。
  
  詳細は、第6.4.1項「Pigデータ・サーバーの定義」を参照してください。
- 「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
- 論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Hive」パネルで、次を実行します。
- Hiveデータ・サーバーを作成するのに必要なオプションを指定します。
  
  詳細は、第6.2.1項「Hiveデータ・サーバーの定義」を参照してください。
- 「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
- 論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Oozie」パネルで、次を実行します。
- Oozieランタイム・エンジンを作成するのに必要なオプションを指定します。
  
  詳細は、第5.2.1項「Oozieランタイム・エンジン定義」を参照してください。
- 「プロパティ」セクションで、リストされているデータ・サーバーのプロパティを確認します。
  
  注意: 新しいプロパティを追加したり、リストされているプロパティを削除することはできません。ただし、必要に応じて、リストされているプロパティの値を変更できます。
  
  詳細は、第5.2.2項「Oozieランタイム・エンジンのプロパティ」を参照してください。
- 論理スキーマおよびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
「すべての設定を検証」パネルで「すべての設定をテスト」をクリックして、データ・サーバーに対する設定を検証して接続ステータスを確認します。
「終了」をクリックします。

3.1.1 一般設定

次の表では、ビッグ・データ構成ウィザードの「一般設定」パネルで設定する必要があるオプションについて説明します。

表3-1 一般設定オプション

オプション	説明
接頭辞	接頭辞を指定します。この接頭辞はデータ・サーバー名、論理スキーマ名および物理スキーマ名に関連付けられています。
配布	配布を選択します。「手動」またはCDH <version>のいずれかです。
ベース・ディレクトリ	ベース・ディレクトリを指定します。このベース・ディレクトリは、ウィザードの他のすべてのパネルに自動的に移入されます。注意: このオプションは、配布が「手動」ではない場合にのみ表示されます。
テクノロジ	構成するテクノロジを選択します。注意: 選択したテクノロジに対するデータ・サーバー作成パネルのみが表示されます。

第3.1項「ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成」。

3.1.2 HBaseデータ・サーバーの定義

次の表では、HBaseデータ・サーバーを作成する際に指定する必要があるオプションについて説明します。

注意: HBaseデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。

表3-2 HBaseデータ・サーバーの定義

オプション	説明
名前	データ・サーバーの名前を入力します。この名前はOracle Data Integratorに表示されます。
HBase定数	HBaseインストールの定数。例: `localhost:2181`。
ユーザー/パスワード	ユーザー名とそのパスワード。
Hadoopデータサーバー	HBaseデータ・サーバーに関連付けるHadoopデータ・サーバー。
追加クラスパス	デフォルトでは、次のクラスパスが追加されます。 `/usr/lib/hbase/` `usr/lib/hbase/lib/` 必要に応じて、追加のクラスパスを指定します。

第3.1項「ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成」。

3.2 Hadoopデータ・サーバーの作成と初期化

Hadoopデータ・サーバーを作成および初期化するには、次の手順を実行します。

「トポロジ」タブをクリックします。
「物理アーキテクチャ」ツリーの「テクノロジ」で、「Hadoop」を右クリックして「新規データ・サーバー」をクリックします。
「定義」タブで、Hadoopデータ・サーバーの詳細を指定します。

詳細は、第3.2.1項「Hadoopデータ・サーバーの定義」を参照してください。
「プロパティ」タブで、Hadoopデータ・サーバーのプロパティを指定します。

詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
「初期化」をクリックして、Hadoopデータ・サーバーを初期化します。

Hadoopデータ・サーバーを初期化すると、ODIマスター・リポジトリおよび作業リポジトリの構造がHDFSに作成されます。
「テスト接続」をクリックして、Hadoopデータ・サーバーへの接続をテストします。

3.2.1 Hadoopデータ・サーバーの定義

次の表は、新しいHadoopデータ・サーバーを作成する場合に「定義」タブで指定する必要があるフィールドについて説明しています。

注意: Hadoopデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。

表3-3 Hadoopデータ・サーバーの定義

フィールド	説明
名前	Oracle Data Integratorに表示されるデータ・サーバーの名前。
データ・サーバー	データ・サーバーの物理名。
ユーザー/パスワード	Hadoopユーザーとそのパスワード。パスワードを指定しない場合、HDFSおよびOozieのユーザー名を使用した単純な認証のみが実行されます。
HDFSノード名URI	HDFSノード名のURI。 `hdfs://localhost:8020`
リソース・マネージャ/ジョブ・トラッカURI	「リソース・マネージャまたはジョブ・トラッカのURI。 `localhost:8032`
ODI HDFSルート	ODI HDFSのルート・ディレクトリのパス。 `/user/<login_username>/odi_home`.
追加クラスパス	追加のクラスパスを指定します。次の追加クラスパスを追加します。 `/usr/lib/hadoop/` `/usr/lib/hadoop/lib/` `/usr/lib/hadoop-hdfs/` `/usr/lib/hadoop-mapreduce/` `/usr/lib/hadoop-yarn/` `/usr/lib/oozie/lib/` `/etc/hadoop/conf/`

第3.2項「Hadoopデータ・サーバーの作成と初期化」

第3.1項「ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成」。

3.2.2 Hadoopデータ・サーバー・プロパティ

次の表は、新しいHadoopデータ・サーバーを定義する場合に「プロパティ」タブで構成可能なプロパティについて説明しています。

注意: これらのプロパティは、HiveやHDFSといった他のHadoopテクノロジによる継承が可能です。これらのプロパティを継承するには、他のHadoopテクノロジのデータ・サーバーを作成する際に、この構成済のHadoopデータ・サーバーを選択する必要があります。

表3-4 Hadoopデータ・サーバー・プロパティ

プロパティ	説明/値
HadoopおよびHiveに必須のプロパティ次のプロパティはHadoopおよびHiveに必須です。
HADOOP_HOME	Hadoopディレクトリの場所。例: `/usr/lib/hadoop`
HADOOP_CONF	Hadoop構成ファイル(core-default.xml、core-site.xml、hdfs-site.xmlなど)の場所。例: `/home/shared/hadoop-conf`
HIVE_HOME	Hiveディレクトリの場所。例: `/usr/lib/hive`
HIVE_CONF	Hive構成ファイル(hive-site.xmlなど)の場所。例: `/home/shared/hive-conf`
HADOOP_CLASSPATH	`$HIVE_HOME/lib/hive-metastore-.jar:$HIVE_HOME/lib/libthrift-.jar:$HIVE_HOME/lib/libfb.jar:$HIVE_HOME/lib/hive-exec-.jar:$HIVE_CONF`
HADOOP_CLIENT_OPTS	`-Dlog4j.debug -Dhadoop.root.logger=INFO,console -Dlog4j.configuration=file:/etc/hadoop/conf.cloudera.yarn/log4j.properties`
ODI_ADDITIONAL_CLASSPATH	`$HIVE_HOME/lib/'':$HADOOP_HOME/client/:$HADOOP_CONF`
HIVE_SESSION_JARS	`$HIVE_HOME/lib/hive-contrib-*.jar:<ODI library directory>/wlhive.jar` `wlhive.jar`の実際のパスは、ODIインストールのホームで決定できます。必要に応じて、他のJARファイル(カスタムSerDes JARファイルなど)を含めます。これらのJARファイルは各Hive JDBCセッションに追加され、それによって各Hive MapReduceジョブに追加されます。 JARのリストは":"で区切られ、ファイル名のワイルドカードを複数のファイルに評価することはできません。
(HadoopおよびHiveの基本環境変数以外の) HBaseに必須のプロパティ次のプロパティはHBaseに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。
HBASE_HOME	HBaseディレクトリの場所。例: `/usr/lib/hbase`
HADOOP_CLASSPATH	`$HBASE_HOME/lib/hbase-.jar:$HIVE_HOME/lib/hive-hbase-handler.jar:$HBASE_HOME/hbase.jar`
ODI_ADDITIONAL_CLASSPATH	`$HBASE_HOME/hbase.jar`
HIVE_SESSION_JARS	`$HBASE_HOME/hbase.jar:$HBASE_HOME/lib/hbase-sep-api-.jar:$HBASE_HOME/lib/hbase-sep-impl-hbase.jar:/$HBASE_HOME/lib/hbase-sep-impl-common-.jar:/$HBASE_HOME/lib/hbase-sep-tools-.jar:$HIVE_HOME/lib/hive-hbase-handler-.jar`
(HadoopおよびHiveの基本プロパティ以外の) Oracle Loader for Hadoopに必須のプロパティ次のプロパティはOracle Loader for Hadoopに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。
OLH_HOME	OLHインストールの場所。例: `/u01/connectors/olh`
OLH_FILES	`usr/lib/hive/lib/hive-contrib-1.1.0-cdh5.5.1.jar`
ODCH_HOME	OSCHインストールの場所。例: `/u01/connectors/osch`
HADOOP_CLASSPATH	`$OLH_HOME/jlib/:$OSCH_HOME/jlib/` OLHを使用するには、`HADOOP_CLASSPATH`内のHadoop jarをワイルドカードなしで手動で解決する必要があります。
OLH_JARS	Oracle Loader for Hadoopで使用されるカスタム入力形式、Hive、Hive SerDesなどに必要なすべてのJARファイルのカンマ区切りリスト。すべてのファイル名をワイルドカードなしで展開する必要があります。例: `$HIVE_HOME/lib/hive-metastore-0.10.0-cdh4.5.0.jar,$HIVE_HOME/lib/libthrift-0.9.0-cdh4-1.jar,$HIVE_HOME/lib/libfb303-0.9.0.jar`
OLH_SHAREDLIBS	`$OLH_HOME/lib/libolh12.so,$OLH_HOME/lib/libclntsh.so.12.1,$OLH_HOME/lib/libnnz12.so,$OLH_HOME/lib/libociei.so,$OLH_HOME/lib/libclntshcore.so.12.1,$OLH_HOME/lib/libons.so`
ODI_ADDITIONAL_CLASSPATH	`$OSCH_HOME/jlib/'*'`
(HadoopおよびHiveの基本プロパティ以外の) SQOOPに必須のプロパティ次のプロパティはSQOOPに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。
SQOOP_HOME	Sqoopディレクトリの場所。例: `/usr/lib/sqoop`
SQOOP_LIBJARS	SQOOPライブラリjarの場所。例: `usr/lib/hive/lib/hive-contrib-1.1.0-cdh5.5.1.jar`

第3.2項「Hadoopデータ・サーバーの作成と初期化」

3.3 Hadoop物理スキーマの作成

『Oracle Data Integratorの管理』の物理スキーマの作成に関する項の説明に従って、標準の手順を使用してHadoop物理スキーマを作成します。

『Oracle Data Integratorの管理』の論理スキーマの作成に関する項の説明に従って、標準の手順を使用してこの物理スキーマ用の論理スキーマを作成し、特定のコンテキストで関連付けます。

3.4 Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成

Hadoopジョブを実行するには、Oracle Data Integratorエージェントを構成する必要があります。

Oracle Data Integratorエージェントを設定する手順は次のとおりです。

HadoopをOracle Data Integratorエージェント・コンピュータにインストールします。

Oracle Big Data Applianceの場合、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』でリモートHadoopクライアントの設定手順を参照してください。
HiveをOracle Data Integratorエージェント・コンピュータにインストールします。
SQOOPをOracle Data Integratorエージェント・コンピュータにインストールします。
ODIエージェント・コンピュータで、HadoopおよびHiveの基本プロパティを設定します。

これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
HBase機能を使用する場合は、ODIエージェント・コンピュータでプロパティを設定します。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。

これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。

3.5 Oracle Loader for Hadoopの構成

Oracle Loader for Hadoopを使用するには、Oracle Data Integratorエージェント・コンピュータにOracle Loader for Hadoopをインストールして構成する必要があります。

Oracle Loader for Hadoopをインストールして構成するには、次の手順を実行します。

Oracle Loader for HadoopをOracle Data Integratorエージェント・コンピュータにインストールします。

『Oracle Big Data Connectorsユーザーズ・ガイド』のOracle Loader for Hadoopのインストールに関する項を参照してください。
Oracle SQL Connector for HDFS (OLH_OUTPUT_MODE=DP_OSCHまたはOSCH)を使用するには、まずこれをインストールする必要があります。

『Oracle Big Data Connectorsユーザーズ・ガイド』のOracle SQL Connector for Hadoop Distributed File Systemの設定に関する項を参照してください。
ODIエージェント・コンピュータでOracle Loader for Hadoopのプロパティを設定します。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。

これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。

3.6 保護されたクラスタに接続するためのOracle Data Integratorの構成

Kerberos認証で保護されるHadoopクラスタでOracle Data Integratorエージェントを実行するには、Kerberos保護クラスタを構成する必要があります。

Kerberos保護クラスタの使用手順:

Oracle Data Integratorエージェントが実行するOracle Big Data Applianceのnode04にログインします。
oracleユーザーの新しいKerberosチケットを作成します。次のコマンドを使用して、レルムをKerberosの実際のレルム名に置き換えます。

$ kinit oracle@realm
次のコマンドラインを使用して、環境変数を設定します。使用する製品に合せて適切な値を代入します。

$ export KRB5CCNAME=Kerberos-ticket-cache-directory

$ export KRB5_CONFIG=Kerberos-configuration-file

$ export HADOOP_OPTS="$HADOOP_OPTS -Djavax.xml.parsers.DocumentBuilderFactory=com.sun.org.apache.xerces.internal. jaxp.DocumentBuilderFactoryImpl-Djava.security.krb5.conf=Kerberos-configuration-file"

この例では、構成ファイルの名前はkrb5*で、/tmp/oracle_krb/にあります。

$ export KRB5CCNAME=/tmp/oracle_krb/krb5cc_1000

$ export KRB5_CONFIG=/tmp/oracle_krb/krb5.conf

$ export HADOOP_OPTS="$HADOOP_OPTS -D javax.xml.parsers.DocumentBuilderFactory=com.sun.org.apache.xerces.internal. jaxp.DocumentBuilderFactoryImpl -D java.security.krb5.conf=/tmp/oracle_krb/krb5.conf"
次のような構文を使用して、JDBC接続URLを再定義します。

jdbc:hive2://node1:10000/default;principal=HiveServer2-Kerberos-Principal

例:

jdbc:hive2://bda1node01.example.com:10000/default;principal= hive/HiveServer2Host@EXAMPLE.COM

次のURLの『CDH5 Security Guide』の「HiveServer2 Security Configuration」も参照してください。

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_hiveserver2_security.html
サービスの混乱を防ぐため、Oracleの使用にあわせてKerberosチケットを定期的に更新します。

Oracle Big Data ApplianceでのKerberosの管理の詳細は、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』を参照してください。

3.7 ローカル・エージェントでHadoopジョブを実行するためのOracle Data Integrator Studioの構成

Oracle Data Integrator Studioインストールのローカル・エージェントでHadoopジョブを実行するには、第3.4項「Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成」の設定手順を実行しますが、Oracle Data IntegratorのuserlibディレクトリにJARファイルをコピーします。

例:

Linux: $USER_HOME/.odi/oracledi/userlibディレクトリ。

Windows: C:\Users\<USERNAME>\AppData\Roaming\odi\oracledi\userlibディレクトリ