この章では、Oracle Big Data Connectorsの概要とインストール手順を示し、ユーザーがコネクタにアクセスするのに必要な権限について説明します。
この章の内容は次のとおりです。
Oracle Big Data Connectorsを使用すると、HadoopクラスタとOracle Databaseに格納されているデータ間のデータ・アクセスが簡単になります。Oracle Big Data Applianceまたはコモディティ・ハードウェア上で稼働するHadoopクラスタでの使用に対してライセンス供与されます。
次のコネクタがあります。
Oracle Direct Connector for Hadoop Distributed File System: Oracle DatabaseからHadoop分散ファイルシステム(HDFS)に格納されているデータへのアクセスを可能にします。データをHDFSに保持することも、Oracle Databaseにロードすることもできます。
Oracle Loader for Hadoop: HadoopクラスタからOracle Databaseの表にデータをロードします。
Oracle Data Integrator Application Adapter for Hadoop: グラフィカル・ユーザー・インタフェースを使用して定義されたとおりに、HadoopクラスタからOracle Databaseの表にデータを抽出、変換およびロードします。
Oracle R Connector for Hadoop: ローカルR環境、Oracle Database、Hadoop間のインタフェースを提供し、3つすべてのプラットフォームで高速でインタラクティブな分析を可能にします。Oracle R Connector for Hadoopは単独で機能するよう設計されていますが、分析対象のエンタープライズ・データがOracle Databaseにも格納されている場合、Oracle R Enterpriseとともに使用すると、このコネクタの機能を最大限に活用できます。
各コネクタを使用するには、ソフトウェア・コンポーネントをOracle Database、HadoopクラスタおよびユーザーのPCにインストールする必要がある場合があります。Oracle Databaseでの追加のアクセス権限が必要な場合もあります。
Oracle Direct Connector for Hadoop Distributed File System (Oracle Direct Connector)をインストールする前に、必要なソフトウェアがあることを確認します。
Oracle Direct Connectorには、次のソフトウェアが必要です。
Oracle Databaseリリース11gリリース2 (11.2.0.2または11.2.0.3)。
データ・ポンプ・ファイル形式をサポートするための個別パッチ。このパッチをダウンロードするには、http://support.oracle.com
に移動し、Oracle Bug#13079417を検索します。
Oracle Direct Connectorをインストールするには、次のようにします。
zipファイルをダウンロードします。
orahdfs-
version.zip
をディレクトリに解凍します。解凍したファイルは、例1-1に示すような構造を持ちます。
Oracle DatabaseからHadoopおよびHDFSにアクセスできることを確認します。
Oracleデータベース・アカウントを使用して、Oracle Databaseが稼働しているシステムにログインします。
bashシェルを開き、次のコマンドを発行します。
hadoop fs -ls /user
ファイルのリストが表示されます。そうでない場合、続ける前にOracle DatabaseホストとHadoopクラスタとの間のネットワーク接続を修正する必要があります。
テキスト・エディタでbashスクリプトhdfs_stream
を開き、次の変更を行います。
HADOOP_HOME
: Hadoopホーム・ディレクトリの絶対パスを設定します。
DIRECTHDFS_HOME
: Oracle Direct Connectorインストール・ディレクトリの絶対パスを設定します。
スクリプト内のコメントによって、これらの変更を行うための詳細な手順が示されます。
スクリプトを実行します。使用法の情報が表示されます。そうでない場合、次の点をチェックします。
bashシェル・スクリプト$DIRECTHDFS_HOME/bin/hdfs_stream
に対して読取りと実行の権限があります。
Oracleを実行しているオペレーティング・システム・ユーザーはorahdfs.jar
に対して読取りアクセスできます。
外部表に対するデフォルト・データベース・ディレクトリがない場合、ここでディレクトリを作成します。次のコマンドで、scratch/sales_ext_dir
という名前のディレクトリを作成します。
# mkdir /scratch/sales_ext_dir # chmod 664 /scratch/sales_ext_dir # sqlplus / as sysdba SQL> CREATE OR REPLACE DIRECTORY sales_ext_dir AS '/scratch/sales_ext_dir'
hdfs_stream
を含めるorahdfs-
version/bin
ディレクトリ用のデータベース・ディレクトリを作成します。この例では、Oracle Direct Connectorキットは/etc
にインストールされます。
SQL> CREATE OR REPLACE DIRECTORY hdfs_bin_path AS '/etc/orahdfs-1.0/bin'
Oracle DatabaseユーザーがOracle Direct Connectorを使用するには、次の権限が必要です。
CREATE SESSION
UTL_FILE
PL/SQLパッケージに対してEXECUTE
「zipファイルをダウンロードします。」で作成した外部表用のデフォルト・ディレクトリに対してREAD
およびWRITE
(ステップ0)
例では、ディレクトリの名前はSALES_EXT_DIR
です。
「zipファイルをダウンロードします。」で作成したHDFS_BIN_PATH
ディレクトリに対してEXECUTE
(ステップ0)書込みアクセス権はどのユーザーにも付与しないでください。Oracle Direct Connectorを使用するユーザーにのみEXECUTE
を付与します。
HDFS_BIN_PATH/hdfs_stream
に対してREAD
およびEXECUTE
。Oracle Direct Connectorを使用するユーザーにのみEXECUTE
を付与します。
例1-2に、これらの権限をHDFSUSER
に付与するSQLコマンドを示します。
Oracle Loader for Hadoopをインストールする前に、必要なソフトウェアがあることを確認します。
Oracle Loader for Hadoopには、次のソフトウェアが必要です。
次のいずれかが稼働しているターゲット・データベース・システム
必要なパッチが適用されたOracle Database 10gリリース2 (10.2.0.5)
必要なパッチが適用されたOracle Database 11gリリース2 (11.2.0.2)
Oracle Database 11gリリース2 (11.2.0.3)
注意: Oracle Loader for HadoopをOracle Database 10gリリース2 (10.2.0.5)またはOracle Database 11gリリース2 (11.2.0.2)と組み合せて使用するには、まず、Oracle Bug#11897896に対応する個別パッチを適用する必要があります。このパッチにアクセスするには、http://support.oracle.com に移動し、バグ番号を検索します。 |
Cloudera's Distribution including Apache Hadoop (CDH3)またはApache Hadoop 0.20.2
Oracle Loader for Hadoopは、Oracle Database 11gリリース2クライアント・ライブラリおよびOracle Database 10.2.0.5、11.2.0.2または11.2.0.3に接続するためのOracle Instant Client ライブラリに同梱されています。
Oracle Loader for Hadoopをインストールする手順:
oraloader-1.1.0.0.0.x86_64.zip
アーカイブの中身をHadoopクラスタのディレクトリに展開します。
次のサブディレクトリを含む、oraloader-1.1.0.0.0
という名前のディレクトリが作成されます。
jlib
lib
examples
このガイドでは、変数${OLH_HOME}
を使用して、このインストール・ディレクトリを参照します。
${OLH_HOME}/jlib/*
をHADOOP_CLASSPATH
変数に追加します。
次の各項で、Oracle Data Integrator Application Adapter for Hadoopのインストール要件について説明します。
Application Adapter for Hadoopを使用するには、まず、Oracle Data Integratorが必要です。これは、Oracle Big Data Connectorsとは別にライセンス供与されます。Oracle Data Integratorは、次のOracle Webサイトからダウンロードできます。
http://www.oracle.com/technetwork/middleware/data-integrator/downloads/index.html
Oracle Data Integrator Application Adapter for Hadoopナレッジ・モジュールには、Oracle Data Integrator 11.1.1.6.0以上が必要です。
インストールを実行する前に、システム要件および動作保証のドキュメントを読み、インストール先の環境が、これからインストールする製品の最小インストール要件を満たしていることを確認します。
サポートされているプラットフォームおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。
http://www.oracle.com/technology/products/oracle-data-integrator/index.html
サポートされているテクノロジおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。
http://www.oracle.com/technology/products/oracle-data-integrator/index.html
Oracle R Connector for Hadoopでは、サーバー側と各ユーザーのPCでのソフトウェア環境のインストールが必要です。
Oracle Big Data Applianceでは、追加ソフトウェアのインストールや構成なしにOracle R Connector for Hadoopがサポートされます。
その他のHadoopクラスタでOracle R Connector for Hadoopを使用するには、必要な環境を作成する必要があります。
次のコンポーネントをサードパーティ・サーバーにインストールします。
HadoopクラスタのすべてのノードにRディストリビューション2.13.1とベース・ライブラリ
ダウンロードされ、各RエンジンにインストールされたORHC-DRVパッケージ。Hadoopクラスタの各ノードに存在する必要があります。
install.packages("orhc-drv") library("orhc-drv")
Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)
次のコンポーネントをクライアントPCにインストールします。
Rディストリビューション2.13.1
ORHC Rパッケージ
install.packages("orhc") library("orhc"
Oracle R Enterpriseコンポーネント(オプション)。これによって、Oracle Databaseにアクセスできます。これがない場合、拡張統計アルゴリズムにアクセスせず、Oracle R Connector for Hadoop Clientで、メモリー内Rオブジェクトおよびローカル・データ・ファイルのみ操作できます。次に例を示します。
library(DBI) library(ROracle) library(OREbase) library(OREeda) library(OREgraphics library(OREstats) library(RToXmp)
Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)
サーバーでのHadoopクラスタへのアクセスを可能にするHadoop Client