3 ビッグ・データを統合する環境の設定
この章の内容は次のとおりです。
ビッグ・データ構成ウィザードの使用によるビッグ・データ・テクノロジの構成
ビッグ・データ構成ウィザードは、複数のHadoopテクノロジを設定するための単一のエントリ・ポイントを提供します。データ・サーバー、物理スキーマ、論理スキーマの作成、およびHadoopファイル・システムやHDFS、HBase、Oozie、Spark、Hive、Pigといった各種Hadoopテクノロジに対するコンテキストの設定をすばやく実行できます
様々な配置に対するデフォルトのメタデータ(プロパティやホスト名、ポート名など)、および環境変数のデフォルト値があらかじめ入力されています。これにより、これらのテクノロジに対する詳細な知識がなくても、データ・サーバーを物理および論理スキーマとともに簡単に作成できます。
すべてのテクノロジの構成が終わったら、データ・サーバーに対する設定を検証して接続ステータスをテストできます。
注意:
ビッグ・データ構成ウィザードを使用することを望まない場合、後続の項で言及されている情報を使用して手動でビッグ・データ・テクノロジ用にデータ・サーバーを設定できます。
ビッグ・データ構成ウィザードを実行するには、次の手順を実行します。
一般設定
次の表では、ビッグ・データ構成ウィザードの「一般設定」パネルで設定する必要があるオプションについて説明します。
表3-1 一般設定オプション
オプション | 説明 |
---|---|
接頭辞 |
接頭辞を指定します。この接頭辞はデータ・サーバー名、論理スキーマ名および物理スキーマ名に関連付けられています。 |
配布 |
配布を選択します。「手動」またはCloudera Distribution for Hadoop (CDH) <version>のいずれかです。 |
ベース・ディレクトリ |
CDHのインストール先ディレクトリの場所を指定します。このベース・ディレクトリは、ウィザードの他のすべてのパネルに自動的に移入されます。 注意: このオプションは、配布が「手動」ではない場合にのみ表示されます。 |
分布タイプ |
「標準」または「Kerberos化」のいずれかの配布タイプを選択します。 |
テクノロジ |
構成するテクノロジを選択します。 注意: 選択したテクノロジに対するデータ・サーバー作成パネルのみが表示されます。 |
HDFSデータ・サーバーの定義
次の表では、HDFSデータ・サーバーを作成する際に指定する必要があるオプションについて説明します。
注意:
HDFSデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。表3-2 HDFSデータ・サーバーの定義
オプション | 説明 |
---|---|
名前 |
データ・サーバーの名前を入力します。この名前はOracle Data Integratorに表示されます。 |
ユーザー/パスワード |
現時点では、HDFSにユーザー/パスワードのセキュリティは実装されていません。このオプションは空白のままにします。 |
Hadoopデータサーバー |
HDFSデータ・サーバーに関連付けるHadoopデータ・サーバー。 |
追加クラスパス |
追加のjarファイルが必要な場合はクラスパスに追加します。 |
HBaseデータ・サーバーの定義
次の表では、HBaseデータ・サーバーを作成する際に指定する必要があるオプションについて説明します。
注意: HBaseデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。
表3-3 HBaseデータ・サーバーの定義
オプション | 説明 |
---|---|
名前 |
データ・サーバーの名前を入力します。この名前はOracle Data Integratorに表示されます。 |
HBase定数 |
hbase-site.xml内のZooKeeper Quorumアドレス。たとえば、 |
ユーザー/パスワード |
現時点では、HBaseにユーザー/パスワードのセキュリティは実装されていません。これらのフィールドは空白のままにします。 |
Hadoopデータサーバー |
HBaseデータ・サーバーに関連付けるHadoopデータ・サーバー。 |
追加クラスパス |
追加するクラス/Jarファイルを指定します。 次のクラスパスのエントリは、「ベース・ディレクトリ」の値によって構築されます。
|
Kafkaデータ・サーバーの定義
次の表では、Kafkaデータ・サーバーを作成する際に指定する必要があるオプションについて説明します。
注意:
Kafkaデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。表3-4 Kafkaデータ・サーバーの定義
オプション | 説明 |
---|---|
名前 |
データ・サーバーの名前を入力します。 |
ユーザー/パスワード |
ユーザー名とそのパスワード。 |
Hadoopデータサーバー |
Kafkaデータ・サーバーに関連付けるHadoopデータ・サーバー。 KafkaがHadoopサーバーで実行していない場合、Hadoopデータ・サーバーを指定する必要はありません。このオプションは、自分のサーバーでKafkaを実行する場合に有用です。 |
追加クラスパス |
追加するクラス/Jarファイルを指定します。 次のクラスパスのエントリは、「ベース・ディレクトリ」の値によって構築されます。
必要に応じて、さらに追加のクラスパスを追加できます。 KafkaがHadoopサーバーで実行していない場合、このフィールドにKafkaライブラリの絶対パスを指定します。 注意: このフィールドは、ビッグ・データ構成ウィザードを使用してKafkaデータ・サーバーを作成する場合にのみ表示されます。 |
Kafkaデータ・サーバー・プロパティ
次の表では、新しいKafkaデータ・サーバーを作成する場合に「プロパティ」タブで追加する必要があるKafkaデータ・サーバー・プロパティについて説明します。
表3-5 Kafkaデータ・サーバー・プロパティ
キー | 値 |
---|---|
metadata.broker.list |
Kafkaメタデータ・ブローカのカンマ区切りリストです。それぞれのブローカは、 |
oracle.odi.prefer.dataserver.packages |
トピックおよびメッセージをKafkaサーバーから取得します。アドレスは、scala、kafka、oracle.odi.kafka.client.api.impl、org.apache.log4jです。 |
security.protocol |
ブローカとの通信に使用するプロトコル。有効な値は、PLAINTEXT、SSL、SASL_PLAINTEXTおよびSASL_SSLです。 |
zookeeper.connect |
ZooKeeper接続文字列を |
Hadoopデータ・サーバーの作成および初期化
Hadoopデータ・サーバー定義およびプロパティを構成し、Hadoopデータ・サーバーを作成および初期化します。
Hadoopデータ・サーバーを作成および初期化するには、次の手順を実行します。
Hadoopデータ・サーバーの定義
次の表は、新しいHadoopデータ・サーバーを作成する場合に「定義」タブで指定する必要があるフィールドについて説明しています。
注意: Hadoopデータ・サーバーの定義に関する必須または固有のフィールドのみについて説明します。
表3-6 Hadoopデータ・サーバーの定義
フィールド | 説明 |
---|---|
名前 |
Oracle Data Integratorに表示されるデータ・サーバーの名前。 |
データ・サーバー |
データ・サーバーの物理名。 |
ユーザー/パスワード |
Hadoopユーザーとそのパスワード。 パスワードを指定しない場合、HDFSおよびOozieのユーザー名を使用した単純な認証のみが実行されます。 |
認証メソッド |
認証方式として、次のいずれかを選択します。
注意: Hadoopクラスタが保護されているかどうかを判断する際に、次のリンクが役立ちます。 |
HDFSノード名URI |
HDFSノード名のURI。
|
リソース・マネージャ/ジョブ・トラッカURI |
「リソース・マネージャまたはジョブ・トラッカのURI。
|
ODI HDFSルート |
ODI HDFSのルート・ディレクトリのパス。
|
追加クラスパス |
追加クラスパスを指定します。 次の追加クラスパスを追加します。
|
Hadoopデータ・サーバー・プロパティ
次の表は、新しいHadoopデータ・サーバーを定義する場合に「プロパティ」タブで構成可能なプロパティについて説明しています。
注意:
デフォルトでは、oracle.odi.prefer.dataserver.packages
プロパティのみが表示されます。手動で別のプロパティを追加する場合は、「+」アイコンをクリックします。
表3-7 HadoopおよびHiveに必須のHadoopデータ・サーバー・プロパティ
プロパティ・グループ | プロパティ | 説明/値 |
---|---|---|
一般 |
HADOOP_HOME |
Hadoopディレクトリの場所。例: |
ユーザー定義 |
HADOOP_CONF |
Hadoop構成ファイル(core-default.xml、core-site.xml、hdfs-site.xmlなど)の場所。例: |
Hive |
HIVE_HOME |
Hiveディレクトリの場所。例: |
ユーザー定義 |
HIVE_CONF |
Hive構成ファイル(hive-site.xmlなど)の場所。例: |
一般 |
HADOOP_CLASSPATH |
|
一般 |
HADOOP_CLIENT_OPTS |
|
Hive |
HIVE_SESSION_JARS |
|
表3-8 (HadoopおよびHiveの基本プロパティ以外の) HBaseに必須のHadoopデータ・サーバー・プロパティ
プロパティ・グループ | プロパティ | 説明/値 |
---|---|---|
HBase |
HBASE_HOME |
HBaseディレクトリの場所。例: |
一般 |
HADOOP_CLASSPATH |
|
Hive |
HIVE_SESSION_JARS |
$HBASE_HOME/hbase.jar:$HBASE_HOME/lib/hbase-sep-api-*.jar:$HBASE_HOME/lib/hbase-sep-impl-*hbase*.jar:/$HBASE_HOME/lib/hbase-sep-impl-common-*.jar:/$HBASE_HOME/lib/hbase-sep-tools-*.jar:$HIVE_HOME/lib/hive-hbase-handler-*.jar 注意: Apache SentryなどのHadoopセキュリティ・モデルに関するステップに従って、ODI Hive KM内で使用されるHive ADD JARコールを許可します。
|
表3-9 (HadoopおよびHiveの基本プロパティ以外の) Oracle Loader for Hadoopに必須のHadoopデータ・サーバー・プロパティ
プロパティ・グループ | プロパティ | 説明/値 |
---|---|---|
OLH/OSCH |
OLH_HOME |
OLHインストールの場所。例: |
OLH/OSCH |
OLH_FILES |
|
OLH/OSCH |
ODCH_HOME |
OSCHインストールの場所。例: |
一般 |
HADOOP_CLASSPATH |
|
OLH/OSCH |
OLH_JARS |
Oracle Loader for Hadoopで使用されるカスタム入力形式、Hive、Hive SerDesなどに必要なすべてのJARファイルのカンマ区切りリスト。すべてのファイル名をワイルドカードなしで展開する必要があります。 次に例を示します。
|
OLH/OSCH |
OLH_SHAREDLIBS (非推奨) |
|
表3-10 (HadoopおよびHiveの基本プロパティ以外の) SQOOPに必須のHadoopデータ・サーバー・プロパティ
プロパティ・グループ | プロパティ | 説明/値 |
---|---|---|
SQOOP |
SQOOP_HOME |
Sqoopディレクトリの場所。例: |
SQOOP |
SQOOP_LIBJARS |
SQOOPライブラリjarの場所。たとえば、 |
Hadoop物理スキーマの作成
Hadoopの物理スキーマを作成するには、最初に、標準の手順で、同じHadoopの論理スキーマを作成します。
Hadoop物理スキーマは、『Oracle Data Integratorの管理』の物理スキーマの作成に関する項で説明するように、標準の手順を使用して作成します。
この物理スキーマの論理スキーマは、『Oracle Data Integratorの管理』の論理スキーマの作成に関する項で説明するように標準の手順を使用して作成して、そのスキーマを特定のコンテキストで関連付けます。
Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成
Hadoopジョブを実行するには、Oracle Data Integratorエージェントを構成する必要があります。
物理エージェントの作成に関する詳細は、『Oracle Data Integratorの管理』の物理エージェントの作成に関する項を参照してください。
Oracle Data Integratorエージェントを設定する手順は次のとおりです。
Oracle Loader for Hadoopの構成
Oracle Loader for Hadoopを使用するには、Oracle Data Integratorエージェント・コンピュータにOracle Loader for Hadoopをインストールして構成する必要があります。
Oracle Loader for Hadoopは、HadoopクラスタからOracleデータベースの表にデータを高速にロードするための効率的で高性能なローダーです。
Oracle Loader for Hadoopをインストールして構成するには、次の手順を実行します。
保護されたクラスタに接続するためのOracle Data Integratorの構成
Kerberos認証で保護されるHadoopクラスタでOracle Data Integratorエージェントを実行するには、Kerberos保護クラスタを構成する必要があります。
Kerberos保護クラスタの使用手順:
ローカル・エージェントでHadoopジョブを実行するためのOracle Data Integrator Studioの構成
次の構成ステップを実行し、Oracle Data Integrator Studioのローカル・エージェントでHadoopジョブを実行します。
Oracle Data Integrator Studioインストールのローカル・エージェントでHadoopジョブを実行するには、「Hadoopジョブを実行するためのOracle Data Integratorエージェントの構成」の設定ステップを実行します。そのステップに、次の変更を加えます。
次のHadoopクライアントJarファイルをローカル・マシンにコピーします。
/usr/lib/hadoop/*.jar /usr/lib/hadoop/lib/*.jar /usr/lib/hadoop/client/*.jar /usr/lib/hadoop-hdfs/*.jar /usr/lib/hadoop-mapreduce/*.jar /usr/lib/hadoop-yarn/*.jar /usr/lib/oozie/lib/*.jar /usr/lib/hive/*.jar /usr/lib/hive/lib/*.jar /usr/lib/hbase/*.jar /usr/lib/hbase/lib/*.jar
前述のクラスパスをuserlib
ディレクトリのadditional_path.txt
ファイルに追加します。
次に例を示します。
Linux: $USER_HOME/.odi/oracledi/userlib
ディレクトリ。
Windows: C:\Users\<USERNAME>\AppData\Roaming\odi\oracledi\userlib
ディレクトリ