この章では、Hadoopデータを統合するための環境を設定するために実行する必要がある手順について説明します。
この章の内容は以下のとおりです。
ビッグ・データ構成ウィザードは、複数のHadoopテクノロジを設定するための単一のエントリ・ポイントを提供します。データ・サーバー、物理スキーマ、論理スキーマの作成、およびHadoop、HBase、Oozie、Spark、Hive、Pigといった各種Hadoopテクノロジに対するコンテキストの設定をすばやく実行できます。
様々な配置に対するデフォルトのメタデータ(プロパティやホスト名、ポート名など)、および環境変数のデフォルト値があらかじめ入力されています。これにより、これらのテクノロジに対する詳細な知識がなくても、データ・サーバーを物理および論理スキーマとともに簡単に作成できます。
すべてのテクノロジの構成が終わったら、データ・サーバーに対する設定を検証して接続ステータスをテストできます。
注意: ビッグ・データ構成ウィザードを使用することを望まない場合、後続の項で言及されている情報を使用して手動でビッグ・データ・テクノロジ用にデータ・サーバーを設定できます。 |
ビッグ・データ構成ウィザードを実行するには、次の手順を実行します。
ODI Studioで、「ファイル」を選択し、「新規...」をクリックします。
新規ギャラリ・ダイアログで、「ビッグ・データ構成」を選択して「OK」をクリックします。
ビッグ・データ構成ウィザードが表示されます。
ウィザードの「一般設定」パネルで、必要なオプションを指定します。
詳細は、第3.1.1項「一般設定」を参照してください。
「次」をクリックします。
「一般設定」パネルで選択した各テクノロジに対するデータ・サーバー・パネルが表示されます。
ウィザードの「Hadoop」パネルで、次を実行します。
Hadoopデータ・サーバーを作成するのに必要なオプションを指定します。
詳細は、第3.2.1項「Hadoopデータ・サーバーの定義」を参照してください。
「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「HBase」パネルで、次を実行します。
HBaseデータ・サーバーを作成するのに必要なオプションを指定します。
詳細は、第3.1.2項「HBaseデータ・サーバーの定義」を参照してください。
「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
ウィザードの「Spark」パネルで、次を実行します。
Sparkデータ・サーバーを作成するのに必要なオプションを指定します。
詳細は、第6.6.1項「Sparkデータ・サーバーの定義」を参照してください。
「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Pig」パネルで、次を実行します。
Pigデータ・サーバーを作成するのに必要なオプションを指定します。
詳細は、第6.4.1項「Pigデータ・サーバーの定義」を参照してください。
「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Hive」パネルで、次を実行します。
Hiveデータ・サーバーを作成するのに必要なオプションを指定します。
詳細は、第6.2.1項「Hiveデータ・サーバーの定義」を参照してください。
「プロパティ」セクションで、「+」アイコンをクリックしてデータ・サーバー・プロパティを追加します。
論理スキーマ、物理スキーマ、およびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
ウィザードの「Oozie」パネルで、次を実行します。
Oozieランタイム・エンジンを作成するのに必要なオプションを指定します。
詳細は、第5.2.1項「Oozieランタイム・エンジン定義」を参照してください。
「プロパティ」セクションで、リストされているデータ・サーバーのプロパティを確認します。
注意: 新しいプロパティを追加したり、リストされているプロパティを削除することはできません。ただし、必要に応じて、リストされているプロパティの値を変更できます。
詳細は、第5.2.2項「Oozieランタイム・エンジンのプロパティ」を参照してください。
論理スキーマおよびコンテキストを適切なドロップダウン・リストから選択します。
「次」をクリックします。
「すべての設定を検証」パネルで「すべての設定をテスト」をクリックして、データ・サーバーに対する設定を検証して接続ステータスを確認します。
「終了」をクリックします。
次の表では、ビッグ・データ構成ウィザードの「一般設定」パネルで設定する必要があるオプションについて説明します。
次の表では、HBaseデータ・サーバーを作成する際に指定する必要があるオプションについて説明します。
注意: HBaseデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。
Hadoopデータ・サーバーを作成および初期化するには、次の手順を実行します。
「トポロジ」タブをクリックします。
「物理アーキテクチャ」ツリーの「テクノロジ」で、「Hadoop」を右クリックして「新規データ・サーバー」をクリックします。
「定義」タブで、Hadoopデータ・サーバーの詳細を指定します。
詳細は、第3.2.1項「Hadoopデータ・サーバーの定義」を参照してください。
「プロパティ」タブで、Hadoopデータ・サーバーのプロパティを指定します。
詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
「初期化」をクリックして、Hadoopデータ・サーバーを初期化します。
Hadoopデータ・サーバーを初期化すると、ODIマスター・リポジトリおよび作業リポジトリの構造がHDFSに作成されます。
「テスト接続」をクリックして、Hadoopデータ・サーバーへの接続をテストします。
次の表は、新しいHadoopデータ・サーバーを作成する場合に「定義」タブで指定する必要があるフィールドについて説明しています。
注意: Hadoopデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。
表3-3 Hadoopデータ・サーバーの定義
フィールド | 説明 |
---|---|
名前 |
Oracle Data Integratorに表示されるデータ・サーバーの名前。 |
データ・サーバー |
データ・サーバーの物理名。 |
ユーザー/パスワード |
Hadoopユーザーとそのパスワード。 パスワードを指定しない場合、HDFSおよびOozieのユーザー名を使用した単純な認証のみが実行されます。 |
HDFSノード名URI |
HDFSノード名のURI。
|
リソース・マネージャ/ジョブ・トラッカURI |
「リソース・マネージャまたはジョブ・トラッカのURI。
|
ODI HDFSルート |
ODI HDFSのルート・ディレクトリのパス。
|
追加クラスパス |
追加のクラスパスを指定します。 次の追加クラスパスを追加します。
|
次の表は、新しいHadoopデータ・サーバーを定義する場合に「プロパティ」タブで構成可能なプロパティについて説明しています。
注意: これらのプロパティは、HiveやHDFSといった他のHadoopテクノロジによる継承が可能です。これらのプロパティを継承するには、他のHadoopテクノロジのデータ・サーバーを作成する際に、この構成済のHadoopデータ・サーバーを選択する必要があります。
表3-4 Hadoopデータ・サーバー・プロパティ
プロパティ | 説明/値 |
---|---|
HadoopおよびHiveに必須のプロパティ 次のプロパティはHadoopおよびHiveに必須です。 |
|
HADOOP_HOME |
Hadoopディレクトリの場所。例: |
HADOOP_CONF |
Hadoop構成ファイル(core-default.xml、core-site.xml、hdfs-site.xmlなど)の場所。例: |
HIVE_HOME |
Hiveディレクトリの場所。例: |
HIVE_CONF |
Hive構成ファイル(hive-site.xmlなど)の場所。例: |
HADOOP_CLASSPATH |
|
HADOOP_CLIENT_OPTS |
|
ODI_ADDITIONAL_CLASSPATH |
|
HIVE_SESSION_JARS |
|
(HadoopおよびHiveの基本環境変数以外の) HBaseに必須のプロパティ 次のプロパティはHBaseに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。 |
|
HBASE_HOME |
HBaseディレクトリの場所。例: |
HADOOP_CLASSPATH |
|
ODI_ADDITIONAL_CLASSPATH |
|
HIVE_SESSION_JARS |
|
(HadoopおよびHiveの基本プロパティ以外の) Oracle Loader for Hadoopに必須のプロパティ 次のプロパティはOracle Loader for Hadoopに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。 |
|
OLH_HOME |
OLHインストールの場所。例: |
OLH_FILES |
|
ODCH_HOME |
OSCHインストールの場所。例: |
HADOOP_CLASSPATH |
OLHを使用するには、 |
OLH_JARS |
Oracle Loader for Hadoopで使用されるカスタム入力形式、Hive、Hive SerDesなどに必要なすべてのJARファイルのカンマ区切りリスト。すべてのファイル名をワイルドカードなしで展開する必要があります。 例:
|
OLH_SHAREDLIBS |
|
ODI_ADDITIONAL_CLASSPATH |
|
(HadoopおよびHiveの基本プロパティ以外の) SQOOPに必須のプロパティ 次のプロパティはSQOOPに必須です。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。 |
|
SQOOP_HOME |
Sqoopディレクトリの場所。例: |
SQOOP_LIBJARS |
SQOOPライブラリjarの場所。例: |
『Oracle Data Integratorの管理』の物理スキーマの作成に関する項の説明に従って、標準の手順を使用してHadoop物理スキーマを作成します。
『Oracle Data Integratorの管理』の論理スキーマの作成に関する項の説明に従って、標準の手順を使用してこの物理スキーマ用の論理スキーマを作成し、特定のコンテキストで関連付けます。
Hadoopジョブを実行するには、Oracle Data Integratorエージェントを構成する必要があります。
Oracle Data Integratorエージェントを設定する手順は次のとおりです。
HadoopをOracle Data Integratorエージェント・コンピュータにインストールします。
Oracle Big Data Applianceの場合、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』でリモートHadoopクライアントの設定手順を参照してください。
HiveをOracle Data Integratorエージェント・コンピュータにインストールします。
SQOOPをOracle Data Integratorエージェント・コンピュータにインストールします。
ODIエージェント・コンピュータで、HadoopおよびHiveの基本プロパティを設定します。
これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
HBase機能を使用する場合は、ODIエージェント・コンピュータでプロパティを設定します。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。
これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
Oracle Loader for Hadoopを使用するには、Oracle Data Integratorエージェント・コンピュータにOracle Loader for Hadoopをインストールして構成する必要があります。
Oracle Loader for Hadoopをインストールして構成するには、次の手順を実行します。
Oracle Loader for HadoopをOracle Data Integratorエージェント・コンピュータにインストールします。
『Oracle Big Data Connectorsユーザーズ・ガイド』のOracle Loader for Hadoopのインストールに関する項を参照してください。
Oracle SQL Connector for HDFS (OLH_OUTPUT_MODE=DP_OSCH
またはOSCH
)を使用するには、まずこれをインストールする必要があります。
『Oracle Big Data Connectorsユーザーズ・ガイド』のOracle SQL Connector for Hadoop Distributed File Systemの設定に関する項を参照してください。
ODIエージェント・コンピュータでOracle Loader for Hadoopのプロパティを設定します。HadoopおよびHiveの基本プロパティに加えて、これらのプロパティを設定する必要があります。
これらのプロパティはHadoopデータ・サーバー・プロパティとして追加する必要があります。詳細は、第3.2.2項「Hadoopデータ・サーバー・プロパティ」を参照してください。
Kerberos認証で保護されるHadoopクラスタでOracle Data Integratorエージェントを実行するには、Kerberos保護クラスタを構成する必要があります。
Kerberos保護クラスタの使用手順:
Oracle Data Integratorエージェントが実行するOracle Big Data Applianceのnode04にログインします。
oracleユーザーの新しいKerberosチケットを作成します。次のコマンドを使用して、レルムをKerberosの実際のレルム名に置き換えます。
$ kinit oracle@realm
次のコマンドラインを使用して、環境変数を設定します。使用する製品に合せて適切な値を代入します。
$ export KRB5CCNAME=Kerberos-ticket-cache-directory
$ export KRB5_CONFIG=Kerberos-configuration-file
$ export HADOOP_OPTS="$HADOOP_OPTS -Djavax.xml.parsers.DocumentBuilderFactory=com.sun.org.apache.xerces.internal. jaxp.DocumentBuilderFactoryImpl-Djava.security.krb5.conf=Kerberos-configuration-file"
この例では、構成ファイルの名前はkrb5*で、/tmp/oracle_krb/にあります。
$ export KRB5CCNAME=/tmp/oracle_krb/krb5cc_1000
$ export KRB5_CONFIG=/tmp/oracle_krb/krb5.conf
$ export HADOOP_OPTS="$HADOOP_OPTS -D javax.xml.parsers.DocumentBuilderFactory=com.sun.org.apache.xerces.internal. jaxp.DocumentBuilderFactoryImpl -D java.security.krb5.conf=/tmp/oracle_krb/krb5.conf"
次のような構文を使用して、JDBC接続URLを再定義します。
jdbc:hive2://node1:10000/default;principal=HiveServer2-Kerberos-Principal
例:
jdbc:hive2://bda1node01.example.com:10000/default;principal= hive/HiveServer2Host@EXAMPLE.COM
次のURLの『CDH5 Security Guide』の「HiveServer2 Security Configuration」も参照してください。
サービスの混乱を防ぐため、Oracleの使用にあわせてKerberosチケットを定期的に更新します。
Oracle Big Data ApplianceでのKerberosの管理の詳細は、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』を参照してください。
Oracle Data Integrator Studioインストールのローカル・エージェントでHadoopジョブを実行するには、第3.4項「Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成」の設定手順を実行しますが、Oracle Data Integratorのuserlib
ディレクトリにJARファイルをコピーします。
例:
Linux: $USER_HOME/.odi/oracledi/userlib
ディレクトリ。
Windows: C:\Users\<USERNAME>\AppData\Roaming\odi\oracledi\userlib
ディレクトリ