1 Oracle Big Data Connectorsを使用する前に

この章では、Oracle Big Data Connectorsの概要とインストール手順を示し、ユーザーがコネクタにアクセスするのに必要な権限について説明します。

この章の内容は次のとおりです。

Oracle Big Data Connectorsについて
Oracle Direct Connector for Hadoop Distributed File Systemのインストール
Oracle Loader for Hadoop
Oracle Data Integrator Application Adapter for Hadoop
Oracle R Connector for Hadoop

Oracle Big Data Connectorsについて

Oracle Big Data Connectorsを使用すると、HadoopクラスタとOracle Databaseに格納されているデータ間のデータ・アクセスが簡単になります。Oracle Big Data Applianceまたはコモディティ・ハードウェア上で稼働するHadoopクラスタでの使用に対してライセンス供与されます。

次のコネクタがあります。

Oracle Direct Connector for Hadoop Distributed File System: Oracle DatabaseからHadoop分散ファイルシステム(HDFS)に格納されているデータへのアクセスを可能にします。データをHDFSに保持することも、Oracle Databaseにロードすることもできます。
Oracle Loader for Hadoop: HadoopクラスタからOracle Databaseの表にデータをロードします。
Oracle Data Integrator Application Adapter for Hadoop: グラフィカル・ユーザー・インタフェースを使用して定義されたとおりに、HadoopクラスタからOracle Databaseの表にデータを抽出、変換およびロードします。
Oracle R Connector for Hadoop: ローカルR環境、Oracle Database、Hadoop間のインタフェースを提供し、3つすべてのプラットフォームで高速でインタラクティブな分析を可能にします。Oracle R Connector for Hadoopは単独で機能するよう設計されていますが、分析対象のエンタープライズ・データがOracle Databaseにも格納されている場合、Oracle R Enterpriseとともに使用すると、このコネクタの機能を最大限に活用できます。

各コネクタを使用するには、ソフトウェア・コンポーネントをOracle Database、HadoopクラスタおよびユーザーのPCにインストールする必要がある場合があります。Oracle Databaseでの追加のアクセス権限が必要な場合もあります。

Oracle Direct Connector for Hadoop Distributed File Systemのインストール

Oracle Direct Connector for Hadoop Distributed File System (Oracle Direct Connector)をインストールする前に、必要なソフトウェアがあることを確認します。

必要なソフトウェア

Oracle Direct Connectorには、次のソフトウェアが必要です。

Oracle Databaseリリース11gリリース2 (11.2.0.2または11.2.0.3)。
データ・ポンプ・ファイル形式をサポートするための個別パッチ。このパッチをダウンロードするには、http://support.oracle.comに移動し、Oracle Bug#13079417を検索します。

Oracle Direct Connectorのインストール

Oracle Direct Connectorをインストールするには、次のようにします。

zipファイルをダウンロードします。
orahdfs-version.zipをディレクトリに解凍します。解凍したファイルは、例1-1に示すような構造を持ちます。
Oracle DatabaseからHadoopおよびHDFSにアクセスできることを確認します。
1. Oracleデータベース・アカウントを使用して、Oracle Databaseが稼働しているシステムにログインします。
2. bashシェルを開き、次のコマンドを発行します。
```
hadoop fs -ls /user
```
  ファイルのリストが表示されます。そうでない場合、続ける前にOracle DatabaseホストとHadoopクラスタとの間のネットワーク接続を修正する必要があります。
テキスト・エディタでbashスクリプトhdfs_streamを開き、次の変更を行います。
- HADOOP_HOME: Hadoopホーム・ディレクトリの絶対パスを設定します。
- DIRECTHDFS_HOME: Oracle Direct Connectorインストール・ディレクトリの絶対パスを設定します。
- orahdfs.jar: 適切な絶対パスを設定します。
スクリプト内のコメントによって、これらの変更を行うための詳細な手順が示されます。
スクリプトを実行します。使用法の情報が表示されます。そうでない場合、次の点をチェックします。
- bashシェル・スクリプト$DIRECTHDFS_HOME/bin/hdfs_streamに対して読取りと実行の権限があります。
- Oracleを実行しているオペレーティング・システム・ユーザーはorahdfs.jarに対して読取りアクセスできます。
外部表に対するデフォルト・データベース・ディレクトリがない場合、ここでディレクトリを作成します。次のコマンドで、scratch/sales_ext_dirという名前のディレクトリを作成します。
```
# mkdir /scratch/sales_ext_dir
# chmod 664 /scratch/sales_ext_dir
# sqlplus / as sysdba
SQL> CREATE OR REPLACE DIRECTORY sales_ext_dir AS '/scratch/sales_ext_dir'
```
hdfs_streamを含めるorahdfs-version/binディレクトリ用のデータベース・ディレクトリを作成します。この例では、Oracle Direct Connectorキットは/etcにインストールされます。
```
SQL> CREATE OR REPLACE DIRECTORY hdfs_bin_path AS  '/etc/orahdfs-1.0/bin'
```

例1-1 orahdfsディレクトリの構造

orahdfs-version
   bin/
      hdfs_stream
   jlib/ 
      orahdfs.jar
   log/
   README.txt

Oracle Direct Connectorに対するユーザー・アクセス権の付与

Oracle DatabaseユーザーがOracle Direct Connectorを使用するには、次の権限が必要です。

CREATE SESSION
UTL_FILE PL/SQLパッケージに対してEXECUTE
「zipファイルをダウンロードします。」で作成した外部表用のデフォルト・ディレクトリに対してREADおよびWRITE(ステップ0)

例では、ディレクトリの名前はSALES_EXT_DIRです。
「zipファイルをダウンロードします。」で作成したHDFS_BIN_PATHディレクトリに対してEXECUTE(ステップ0)書込みアクセス権はどのユーザーにも付与しないでください。Oracle Direct Connectorを使用するユーザーにのみEXECUTEを付与します。
HDFS_BIN_PATH/hdfs_streamに対してREADおよびEXECUTE。Oracle Direct Connectorを使用するユーザーにのみEXECUTEを付与します。

例1-2に、これらの権限をHDFSUSERに付与するSQLコマンドを示します。

例1-2 Oracle Direct Connectorに対するユーザー・アクセス権の付与

CONNECT / AS sysdba;
CREATE USER hdfsuser IDENTIFIED BY password;
GRANT CREATE SESSION TO hdfsuser;
GRANT EXECUTE ON SYS.UTL_FILE TO hdfsuser;
GRANT READ, WRITE on DIRECTORY sales_ext_dir TO hdfsuser
GRANT EXECUTE ON DIRECTORY hdfs_bin_path TO hdfsuser;

Oracle Loader for Hadoop

Oracle Loader for Hadoopをインストールする前に、必要なソフトウェアがあることを確認します。

必要なソフトウェア

Oracle Loader for Hadoopには、次のソフトウェアが必要です。

次のいずれかが稼働しているターゲット・データベース・システム

必要なパッチが適用されたOracle Database 10gリリース2 (10.2.0.5)
必要なパッチが適用されたOracle Database 11gリリース2 (11.2.0.2)
Oracle Database 11gリリース2 (11.2.0.3)

注意:

Oracle Loader for HadoopをOracle Database 10gリリース2 (10.2.0.5)またはOracle Database 11gリリース2 (11.2.0.2)と組み合せて使用するには、まず、Oracle Bug#11897896に対応する個別パッチを適用する必要があります。このパッチにアクセスするには、http://support.oracle.comに移動し、バグ番号を検索します。

Cloudera's Distribution including Apache Hadoop (CDH3)またはApache Hadoop 0.20.2
HiveToAvroInputFormatクラスを使用する場合、Hive 0.7.0または0.7.1

インストール手順

Oracle Loader for Hadoopは、Oracle Database 11gリリース2クライアント・ライブラリおよびOracle Database 10.2.0.5、11.2.0.2または11.2.0.3に接続するためのOracle Instant Client ライブラリに同梱されています。

Oracle Loader for Hadoopをインストールする手順:

oraloader-1.1.0.0.0.x86_64.zipアーカイブの中身をHadoopクラスタのディレクトリに展開します。

次のサブディレクトリを含む、oraloader-1.1.0.0.0という名前のディレクトリが作成されます。
- jlib
- lib
- examples
このガイドでは、変数${OLH_HOME}を使用して、このインストール・ディレクトリを参照します。
${OLH_HOME}/jlib/*をHADOOP_CLASSPATH変数に追加します。

Oracle Data Integrator Application Adapter for Hadoop

次の各項で、Oracle Data Integrator Application Adapter for Hadoopのインストール要件について説明します。

システム要件および動作要件
テクノロジ固有の要件

システム要件および動作要件

Application Adapter for Hadoopを使用するには、まず、Oracle Data Integratorが必要です。これは、Oracle Big Data Connectorsとは別にライセンス供与されます。Oracle Data Integratorは、次のOracle Webサイトからダウンロードできます。

http://www.oracle.com/technetwork/middleware/data-integrator/downloads/index.html

Oracle Data Integrator Application Adapter for Hadoopナレッジ・モジュールには、Oracle Data Integrator 11.1.1.6.0以上が必要です。

インストールを実行する前に、システム要件および動作保証のドキュメントを読み、インストール先の環境が、これからインストールする製品の最小インストール要件を満たしていることを確認します。

サポートされているプラットフォームおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technology/products/oracle-data-integrator/index.html

テクノロジ固有の要件

サポートされているテクノロジおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technology/products/oracle-data-integrator/index.html

Oracle R Connector for Hadoop

Oracle R Connector for Hadoopでは、サーバー側と各ユーザーのPCでのソフトウェア環境のインストールが必要です。

サーバー・ソフトウェアのインストール

Oracle Big Data Applianceでは、追加ソフトウェアのインストールや構成なしにOracle R Connector for Hadoopがサポートされます。

その他のHadoopクラスタでOracle R Connector for Hadoopを使用するには、必要な環境を作成する必要があります。

次のコンポーネントをサードパーティ・サーバーにインストールします。

HadoopクラスタのすべてのノードにRディストリビューション2.13.1とベース・ライブラリ
ダウンロードされ、各RエンジンにインストールされたORHC-DRVパッケージ。Hadoopクラスタの各ノードに存在する必要があります。
```
install.packages("orhc-drv")
library("orhc-drv")
```
Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)

クライアント・ソフトウェアのインストール

次のコンポーネントをクライアントPCにインストールします。

Rディストリビューション2.13.1

ORHC Rパッケージ

install.packages("orhc")
library("orhc"

Oracle R Enterpriseコンポーネント(オプション)。これによって、Oracle Databaseにアクセスできます。これがない場合、拡張統計アルゴリズムにアクセスせず、Oracle R Connector for Hadoop Clientで、メモリー内Rオブジェクトおよびローカル・データ・ファイルのみ操作できます。次に例を示します。
```
library(DBI)
library(ROracle)
library(OREbase)
library(OREeda)
library(OREgraphics
library(OREstats)
library(RToXmp)
```
Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)
サーバーでのHadoopクラスタへのアクセスを可能にするHadoop Client