1 Oracle Big Data Connectorsを使用する前に

この章では、Oracle Big Data Connectorsの概要とインストール手順を示し、ユーザーがコネクタにアクセスするのに必要な権限について説明します。

この章の内容は次のとおりです。

Oracle Big Data Connectorsについて
ビッグ・データの概念とテクノロジ
Oracle Big Data Connectorsソフトウェアのダウンロード
Oracle SQL Connector for Hadoop Distributed File Systemの設定
Oracle Loader for Hadoopの設定
Oracle Data Integrator Application Adapter for Hadoopの設定
Oracle R Connector for Hadoopの設定

1.1 Oracle Big Data Connectorsについて

Oracle Big Data Connectorsを使用すると、HadoopクラスタとOracle Databaseに格納されているデータ間のデータ・アクセスが簡単になります。Oracle Big Data Applianceまたはコモディティ・ハードウェア上で稼働するHadoopクラスタでの使用に対してライセンス供与されます。

次のコネクタがあります。

Oracle SQL Connector for Hadoop Distributed File System (旧Oracle Direct Connector for HDFS): Oracle Databaseは、Hadoop Distributed File System (HDFS)ファイルまたはHive表に格納されているデータにアクセスできます。データをHDFSまたはHive表に保持することも、Oracle Databaseにロードすることもできます。Oracle SQL Connector for HDFSは、org.apache.hadoop.util.Toolインタフェースでサポートされる汎用のコマンドライン引数を受け入れるコマンドライン・ユーティリティです。また、Oracle外部表のプリプロセッサも提供します。
Oracle Loader for Hadoop: HadoopクラスタからOracle Databaseの表にデータをすばやく移動するための効率的でパフォーマンスのよいローダーを提供します。Oracle Loader for Hadoopは、必要に応じてデータを事前にパーティション化し、そのデータをデータベース対応形式に変換します。また、データのロードや出力ファイルの作成の前に主キーまたはユーザー定義の列でレコードを任意にソートします。Oracle Loader for Hadoopは、コマンドライン・ユーティリティとして起動するMapReduceアプリケーションです。org.apache.hadoop.util.Toolインタフェースでサポートされる汎用コマンドライン・オプションを受け入れます。
Oracle Data Integrator Application Adapter for Hadoop: グラフィカル・ユーザー・インタフェースを使用して定義されたとおりに、HadoopクラスタからOracle Databaseの表にデータを抽出、変換およびロードします。
Oracle R Connector for Hadoop: ローカルR環境、Oracle Database、Hadoop間のインタフェースを提供し、3つすべてのプラットフォームで高速でインタラクティブな分析を可能にします。Oracle R Connector for Hadoopは単独で機能するよう設計されていますが、分析対象のエンタープライズ・データがOracle Databaseにも格納されている場合、Oracle R Enterpriseとともに使用すると、このコネクタの機能を最大限に活用できます。

それぞれのコネクタでは、Oracle DatabaseおよびHadoopクラスタにソフトウェア・コンポーネントをインストールする必要があります。Oracle Databaseでの追加のアクセス権限が必要な場合もあります。

1.2 ビッグ・データの概念とテクノロジ

エンタープライズでは、複数のソースから生じる大量のデータを参照します。分析した場合にエンタープライズにとってきわめて大きな価値となる膨大な量のデータのほんの一例として、Webログのクリックストリーム・データ、GPS追跡情報、小売事業のデータ、センサー・データおよびマルチメディア・ストリームなどがあります。生のデータ・フィードから取得する非構造化および半構造化情報は、それ自体ほとんど価値はありません。実際に価値のある情報を抽出するには、データを処理する必要があります。処理されたデータは、その後データベースに格納して管理できます。このデータをデータベースの構造化データと一緒に分析することで、新たな理解が得られ、実質的なビジネス利益につながります。

1.2.1 MapReduceとは

MapReduceは、分散システムでデータを処理するための並列プログラミング・モデルです。これは、大量のデータをタイムリに処理して線形的に縮小および拡大できます。特に、非構造化データおよび半構造化データのバッチ処理のメカニズムとして効果的です。MapReduceは、比較的下位の操作を一連のキーと値を通じて計算に抽象化します。

MapReduceジョブを簡単に定義すると、2つのフェーズ(マップ・フェーズとリデュース・フェーズ)が連続的に交代する操作になります。各マップ・フェーズは、入力データの各レコードに変換機能を適用して、キーと値のペアで表現される一連のレコードを作成します。マップ・フェーズからの出力は、リデュース・フェーズへの入力になります。リデュース・フェーズでは、マップ出力レコードはキーと値のセットにソートされるため、セット内のすべてのレコードのキーの値が同じになります。リデューサ関数がセット内のすべてのレコードに適用され、一連の出力レコードがキーと値のペアで作成されます。マップ・フェーズは、各レコードに対して論理的に並列で実行され、リデュース・フェーズは、すべてのキーの値に対して並列で実行されます。

注意:

Oracle Big Data Connectorsは、MapReduceのYet Another Resource Negotiator (YARN)をサポートしていません。

1.2.2 Apache Hadoopとは

Apache Hadoopは、MapReduceプログラミング・モデルに基づく、データ処理ジョブの開発およびデプロイ用ソフトウェア・フレームワークです。中核機能として、Hadoopは、信頼できる共有ストレージおよび分析システム^脚注 1を提供します。分析はMapReduceによって行われます。ストレージは、MapReduceジョブ向けに設計された共有ストレージ・システムであるHadoop Distributed File System (HDFS)によって行われます。

Hadoopエコシステムには、その他にApache Avro (Oracle Loader for Hadoopで使用されるデータ・シリアライズ・システム)などのプロジェクトが複数含まれています。

Cloudera's Distribution including Apache Hadoopは、Oracle Big Data Applianceにインストールされます。この章の設定手順で説明されているように、CDHまたは同等のApache Hadoopコンポーネントが稼働するHadoopクラスタでOracle Big Data Connectorsを使用できます。

1.3 Oracle Big Data Connectorsソフトウェアのダウンロード

Oracle Big Data Connectorsは、Oracle Technology NetworkまたはOracle Software Delivery Cloudからダウンロードできます。

Oracle Technology Networkからダウンロードするには、次の手順を実行します。

ブラウザを使用して次のWebサイトにアクセスします。

http://www.oracle.com/technetwork/bdc/big-data-connectors/downloads/index.html
各コネクタの名前をクリックして、インストール・ファイルを含むzipファイルをダウンロードします。

Oracle Software Delivery Cloudからダウンロードするには、次の手順を実行します。

ブラウザを使用して次のWebサイトにアクセスします。

https://edelivery.oracle.com/
条件と制限事項を受け入れて、「メディア・パック検索」ページを表示します。
検索条件を次のように選択します。

製品パックを選択: Oracle Database

プラットフォーム: Linux x86-64
「実行」をクリックして製品パックの一覧を表示します。
Oracle Big Data Connectors Media Pack for Linux x86-64 (B65965-0x)を選択して、「続行」をクリックします。
各コネクタの「ダウンロード」をクリックして、インストール・ファイルを含むzipファイルをダウンロードします。

1.4 Oracle SQL Connector for Hadoop Distributed File Systemの設定

Oracle SQL Connector for Hadoop Distributed File System (HDFS)は、Oracle Databaseが稼働するシステムにインストールして構成します。また、Hive表がデータソースとして使用される場合、Hiveがインストールされているシステムにインストールして実行します。

Oracle SQL Connector for HDFSをインストールする前に、必要なソフトウェアが揃っていることを確認します。

1.4.1 ソフトウェア要件

Oracle SQL Connector for HDFSには、次のソフトウェアが必要です。

Cloudera's Distribution including Apache Hadoopバージョン3 (CDH3)またはバージョン4 (CDH4)、あるいはApache Hadoop 1.0 (旧0.20.2)。
Java Development Kit (JDK) 1.6_08以上。推奨バージョンについては、Hadoopソフトウェアの代理店(ClouderaまたはApache)に確認してください。
Linuxの場合、Oracle Databaseリリース11gリリース2 (11.2.0.2または11.2.0.3)。
Oracle Data Pumpファイル形式をサポートするためのOracle Databaseの個別パッチ。このパッチをダウンロードするには、http://support.oracle.comにアクセスしてOracle Bug#14557588を検索します。
Hadoopクラスタと同じバージョンのOracle Databaseシステム上のHadoop。CDH3、CDH4またはApache Hadoop 1.0のいずれか。
Hadoopクラスタと同じバージョンのOracle Databaseシステム上のJDK。
Hive 0.7.0、0.7.1または0.9.0 (Hive表にアクセスする場合は必須、それ以外はオプション)。

1.4.2 Hadoopのインストールと構成

Oracle SQL Connector for HDFSは、Hadoopクライアントとして機能します。Oracle SQL Connector for HDFSのMapReduceジョブを実行するために、Oracle DatabaseシステムでHadoopを構成する必要はありません。ただし、Oracle DatabaseシステムにHadoopをインストールして、Hadoopクライアントを使用する場合にかぎり、最小限の構成を行う必要があります。

Oracle DatabaseシステムをHadoop クライアントとして構成するには、次の手順を実行します。

Hadoopクラスタと同じバージョンのCDHまたはApache HadoopをOracle Databaseシステムにインストールして構成します。Oracle Big Data Applianceを使用する場合、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』のリモート・クライアント・アクセスを提供するための手順を完了します。それ以外の場合は、代理店(ClouderaまたはApache)が提供するインストール手順に従います。
Oracle DatabaseからHDFSにアクセスできることを確認します。
1. Oracle Databaseアカウントを使用して、Oracle Databaseが稼働しているシステムにログインします。
2. Bashシェルを開き、次のコマンドを入力します。
```
$HADOOP_HOME/bin/hadoop fs -ls /user
```
  このコマンドでは、$HADOOP_HOMEは、Hadoopのホーム・ディレクトリの絶対パスです。ディレクトリのリストが表示されます。表示されない場合、最初にHadoopクラスタが稼働していることを確認します。問題が続く場合、Oracle DatabaseからHadoopクラスタ・ファイルシステムにアクセスできるようにHadoopクライアント構成を修正する必要があります。

これで、Oracle DatabaseシステムをHadoopクライアントとして使用する準備ができました。Hadoopの他の構成手順は必要ありません。

1.4.3 Oracle SQL Connector for HDFSのインストール

Oracle SQL Connector for HDFSをOracle DatabaseシステムおよびHadoopクラスタ(Hive表にアクセスする場合)にインストールするために、この手順を完了します。

Oracle DatabaseシステムにOracle SQL Connector for HDFSをインストールするには、次の手順を実行します。

Oracle Databaseが稼働するシステムのディレクトリにzipファイルをダウンロードします。
orahdfs-version.zipをディレクトリに解凍します。解凍したファイルの構造は、例1-1のようになります。
hdfs_stream Bashシェル・スクリプトをテキスト・エディタで開き、スクリプトのコメントで示される変更を行います。

hdfs_streamスクリプトは、HDFS外部表のプリプロセッサ・スクリプトです。
HDFSインストール・ディレクトリの場合、Oracle SQL Connectorからhdfs_streamを実行します。次の使用方法の情報が表示されます。
```
$ ./hdfs_stream
Usage: hdfs_stream locationFile
```
表示されない場合、Oracle Databaseを実行しているオペレーティング・システム・ユーザーに次の権限があることを確認します。
- hdfs_streamスクリプトに対する読取り権限と実行権限:
```
$ ls -l OSCH_HOME/bin/hdfs_stream
-rwxr-xr-x 1 oracle oinstall Nov 27 15:51 hdfs_stream
```
  これらの権限が表示されない場合、chmodコマンドを入力して権限を修正します。
```
$ chmod 755 OSCH_HOME/bin/hdfs_stream
```
- OSCH_HOME/jlib/orahdfs.jarに対する読取り権限。
前述のコマンドでは、OSCH_HOMEは、Oracle SQL Connector for HDFSホーム・ディレクトリを表します。
hdfs_streamが存在するorahdfs-version/binディレクトリのデータベース・ディレクトリを作成します。この例では、Oracle SQL Connector for HDFSキットは/etcにインストールされます。
```
SQL> CREATE OR REPLACE DIRECTORY osch_bin_path AS  '/etc/orahdfs-2.0.0/bin'
```

Hive表をサポートするには、HadoopクラスタにOracle SQL Connector for HDFSをインストールします。HDFSファイルのみにアクセスする場合は、この手順を省略できます。

HadoopクラスタにOracle SQL Connector for HDFSをインストールするには、次の手順を実行します。

Hiveがインストールされているシステムのディレクトリにzipファイルをダウンロードします。
orahdfs-version.zipをディレクトリに解凍します。
HiveのJARファイルをHADOOP_CLASSPATH環境変数に追加します。

解凍したファイルの構造は、例1-1のようになります。

例1-1 orahdfsディレクトリの構造

orahdfs-version
   bin/
      hdfs_stream
   jlib/ 
      orahdfs.jar
      osdt_core.jar
      osdt_cert.jar
      oraclepki.jar
      ojdbc6.jar
   log/
   doc/
      README.txt

1.4.4 Oracle SQL Connector for HDFSに対するユーザー・アクセス権の付与

Oracle DatabaseユーザーがOracle SQL Connector for HDFSを使用するには、次の権限が必要です。

CREATE SESSION
CREATE TABLE
UTL_FILE PL/SQLパッケージに対するEXECUTE
Oracle SQL Connector for HDFSのインストール時に作成されるOSCH_BIN_PATHディレクトリに対するREADおよびEXECUTE。書込みアクセス権は誰にも付与しないでください。Oracle SQL Connector for HDFSを使用する予定のユーザーにのみEXECUTEを付与します。

例1-2に、これらの権限をHDFSUSERに付与するSQLコマンドを示します。

例1-2 Oracle SQL Connector for HDFSに対するユーザー・アクセス権の付与

CONNECT / AS sysdba;
CREATE USER hdfsuser IDENTIFIED BY password;
GRANT CREATE SESSION, CREATE TABLE TO hdfsuser;
GRANT EXECUTE ON SYS.UTL_FILE TO hdfsuser;
GRANT READ, EXECUTE ON DIRECTORY OSCH_BIN_PATH TO hdfsuser;

1.5 Oracle Loader for Hadoopの設定

Oracle Loader for Hadoopをインストールする前に、必要なソフトウェアがあることを確認します。

1.5.1 ソフトウェア要件

Oracle Loader for Hadoopには、次のソフトウェアが必要です。

次のいずれかが稼働しているターゲット・データベース・システム

必要なパッチを含むOracle Database 11gリリース2 (11.2.0.2)
Oracle Database 11gリリース2 (11.2.0.3)

注意:

Oracle Database 11gリリース2 (11.2.0.2)でOracle Loader for Hadoopを使用するには、Oracle Bug#11897896に対処する個別パッチを最初に適用する必要があります。このパッチを入手するには、http://support.oracle.comにアクセスしてバグ番号を検索します。

Cloudera's Distribution including Apache Hadoopバージョン3 (CDH3)またはバージョン4 (CDH4)、あるいはApache Hadoop 1.0 (旧0.20.2)。
HiveToAvroInputFormatクラスをサポートする Hive 0.7.0、0.7.1または0.9.0

1.5.2 Oracle Loader for Hadoopのインストール

Oracle Loader for Hadoopは、Oracle Database 11gリリース2クライアント・ライブラリおよびOracle Database 11.2.0.2または11.2.0.3に接続するためのOracle Instant Clientライブラリに同梱されています。

Oracle Loader for Hadoopをインストールするには、次の手順を実行します。

oraloader-version.zipの内容をHadoopクラスタのディレクトリに解凍します。このアーカイブには次の2つのアーカイブが含まれます。
- oraloader-version-1.x86_64.zip: CDH3およびApache Hadoop 1.0で使用
- oraloader-version-2.x86_64.zip: CDH4で使用
Hadoopクラスタのディレクトリに適切なアーカイブを解凍します。

oraloader-versionというディレクトリが次のサブディレクトリとともに作成されます。
```
jlib
lib
examples
```
$OLH_HOMEという変数を作成し、その変数をインストール・ディレクトリに設定します。
$OLH_HOME/jlib/*をHADOOP_CLASSPATH変数に追加します。
Oracle NoSQL Databaseリリース2からデータを読み取る場合、$KVHOME/lib/kvstore-2.0.22.jarをHADOOP_CLASSPATH変数に追加します。

1.6 Oracle Data Integrator Application Adapter for Hadoopの設定

次の各項で、Oracle Data Integrator (ODI) Application Adapter for Hadoopのインストール要件について説明します。

システム要件および動作要件
テクノロジ固有の要件
Oracle Data Integrator Application Adapter for Hadoopの場所
トポロジの設定

1.6.1 システム要件および動作要件

Oracle Data Integrator Application Adapter for Hadoopを使用するには、まず、Oracle Data Integratorが必要です。これは、Oracle Big Data Connectorsとは別にライセンス供与されます。ODIは次のOracle Webサイトからダウンロードできます。

http://www.oracle.com/technetwork/middleware/data-integrator/downloads/index.html

Oracle Data Integrator Application Adapter for Hadoopには、Oracle Data Integrator 11.1.1.6.0以上が必要です。

インストールを実行する前に、システム要件および動作保証のドキュメントを読み、インストール先の環境が、これからインストールする製品の最小インストール要件を満たしていることを確認します。

サポートされているプラットフォームおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technetwork/middleware/data-integrator/overview/index.html

1.6.2 テクノロジ固有の要件

サポートされているテクノロジおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technetwork/middleware/data-integrator/overview/index.html

1.6.3 Oracle Data Integrator Application Adapter for Hadoopの場所

Oracle Data Integrator Application Adapter for Hadoopは、Oracle Data Integrator付属CDのxml-referenceディレクトリで入手できます。

1.6.4 トポロジの設定

トポロジを設定するには、第4章「Oracle Data Integrator Application Adapter for Hadoop」を参照してください。

1.7 Oracle R Connector for Hadoopの設定

Oracle R Connector for Hadoopでは、Hadoop側とクライアントLinuxシステムへのソフトウェア環境のインストールが必要です。

1.7.1 Hadoopへのソフトウェアのインストール

Oracle Big Data Applianceでは、追加ソフトウェアのインストールや構成なしにOracle R Connector for Hadoopがサポートされます。ただし、特定のRパッケージがインストールされていることを確認する必要があります。詳細は、「追加のRパッケージのインストール」を参照してください。

ただし、その他のHadoopクラスタでOracle R Connector for Hadoopを使用するには、必要な環境を作成する必要があります。

1.7.1.1 サードパーティHadoopクラスタのソフトウェア要件

Oracle R Connector for HadoopをサポートするサードパーティHadoopクラスタにいくつかのソフトウェア・コンポーネントをインストールする必要があります。

次のコンポーネントをサードパーティ・サーバーにインストールします。

Cloudera's Distribution including Apache Hadoopバージョン4 (CDH4)またはApache Hadoop 2.0.0。MapReduce 1を使用。

代理店で提供される手順を完了します。
Hive 0.7.1または0.9.0。

「HadoopクラスタへのHiveのインストール」を参照してください。
Oracle Databaseに接続する関数を実行するためのSqoop。Oracle R Connector for Hadoopでは、Sqoopのインストールやロードは必要ありません。

「HadoopクラスタへのSqoopのインストール」を参照してください。
Java Virtual Machine (JVM)、できればJava HotSpot Virtual Machine 6。

次のダウンロード・サイトで提供される手順を完了します。

http://www.oracle.com/technetwork/java/javase/downloads/index.html
HadoopクラスタのすべてのノードにOracle R Distribution 2.15.1とすべてのベース・ライブラリ。

「HadoopクラスタへのRのインストール」を参照してください。
各RエンジンのORCHパッケージ。Hadoopクラスタの各ノードに必要です。

「HadoopクラスタへのORCHパッケージのインストール」を参照してください。
OLHドライバ(オプション)をサポートするOracle Loader for Hadoop。「Oracle Loader for Hadoopの設定」を参照してください。

注意:

HadoopクラスタにHADOOP_HOMEを設定しないでください。CDH4では必要なく、JobTrackerのステータスのチェック時にOracle R Connector for Hadoopと競合します。その結果、エラー「Something is terribly wrong with Hadoop MapReduce.」が発生します。

他のアプリケーションでHADOOP_HOMEを設定する必要がある場合は、/etc/bashrcファイルにHADOOP_LIBEXEC_DIRも設定してください。次に例を示します。

export HADOOP_LIBEXEC_DIR=/usr/lib/hadoop/libexec

1.7.1.2 Hadoopクラスタへの Sqoopのインストール

Sqoopには、Hadoopに対するSQLライクなインタフェースがあり、これはJavaベース環境になります。Oracle R Connector for Hadoopでは、Oracle DatabaseへのアクセスにSqoopが使用されます。

注意:

Oracle DatabaseへのデータのロードにOracle Loader for Hadoopをドライバとして使用する場合もSqoopが必要です。Sqoopは、データベースからHDFSへのデータのコピーや自由形式の問合せのデータベースへの送信などの関数を実行します。OLHドライバでは、Oracle Loader for Hadoopがサポートしない操作の実行にもSqoopが使用されます。

Oracle Databaseで使用するためにSqoopをインストールして構成するには、次の手順を実行します。

Sqoopがサーバーにインストールされていない場合はインストールします。

Cloudera's Distribution including Apache Hadoopについては、次のサイトの『CDH Installation Guide』のSqoopインストール手順を参照してください

http://oracle.cloudera.com/
Oracle Databaseに適したJava Database Connectivity (JDBC)ドライバを次のOracle Technology Networkからダウンロードします

http://www.oracle.com/technetwork/database/features/jdbc/index-091264.html
ドライバのJARファイルを$SQOOP_HOME/libにコピーします。これは、/usr/lib/sqoop/libなどのディレクトリです。
SqoopにOracle Databaseへの接続文字列を指定します。
```
$ sqoop import --connect jdbc_connection_string
```
sqoop import --connect jdbc:oracle:thin@myhost:1521/orclのようになります。

1.7.1.3 HadoopクラスタへのHiveのインストール

Hiveは、HiveQLと呼ばれる問合せ言語によって、代替のストレージおよび取得メカニズムをHDFSファイルに提供します。Oracle R Connector for HadoopではHiveQLのデータ準備と分析機能が使用されますが、R言語構文も使用できます。

Hiveをインストールするには、次の手順を実行します。

代理店(ClouderaまたはApache)で提供されるHiveインストール手順に従います。
インストールが適切に機能することを確認します。

$ hive -H
usage: hive
 -d,--define <key=value>          Variable subsitution to apply to hive
                                  commands. e.g. -d A=B or --define A=B
    --database <databasename>     Specify the database to use
 -e <quoted-query-string>         SQL from command line
 -f <filename>                    SQL from files
 -H,--help                        Print help information
 -h <hostname>                    connecting to Hive Server on remote host
    --hiveconf <property=value>   Use value for given property
    --hivevar <key=value>         Variable subsitution to apply to hive
                                  commands. e.g. --hivevar A=B
 -i <filename>                    Initialization SQL file
 -p <port>                        connecting to Hive Server on port number
 -S,--silent                      Silent mode in interactive shell
 -v,--verbose                     Verbose mode (echo executed SQL to the
                                  console)

コマンドが失敗したり、出力に警告が表示される場合、Hiveインストールを修正します。

1.7.1.4 HadoopクラスタへのRのインストール

次のWebサイトからOracle R Distribution 2.15.1をダウンロードして、インストール手順を入手できます。

http://www.oracle.com/technetwork/indexes/downloads/r-distribution-1532464.html

あるいは、次のComprehensive R Archive Network (CRAN)のWebサイトからRをダウンロードできます。

http://www.r-project.org

1.7.1.5 HadoopクラスタへのORCHパッケージのインストール

ORCHは、Oracle R Connector for Hadoopパッケージの名称です。

ORCHパッケージをインストールするには、次の手順を実行します。

サポートするソフトウェアの環境変数を設定します。

$ setenv JAVA_HOME /usr/lib/jdk6
$ setenv R_HOME /usr/lib64/R
$ setenv SQOOP_HOME /usr/lib/sqoop

ダウンロードしたファイルを解凍します。

$ unzip orch-version.zip
Archive:  orch-linux-x86_64-2.0.zip
 extracting: ORCH2.0/ORCH_2.0_R_x86_64-unknown-linux-gnu.tar.gz
  inflating: ORCH2.0/ORCHcore_2.0_R_x86_64-unknown-linux-gnu.tar.gz
  inflating: ORCH2.0/OREbase_1.3_R_x86_64-unknown-linux-gnu.tar.gz
  inflating: ORCH2.0/OREstats_1.3_R_x86_64-unknown-linux-gnu.tar.gz

新しいディレクトリに変更します。
```
$ cd ORCH2.0
```

次の順序でパッケージをインストールします。

$ R --vanilla CMD INSTALL OREbase_1.3_R_x86_64-unknown-linux-gnu.tar.gz 
$ R --vanilla CMD INSTALL OREstats_1.3_R_x86_64-unknown-linux-gnu.tar.gz 
$ R --vanilla CMD INSTALL ORCHcore_2.0_R_x86_64-unknown-linux-gnu.tar.gz 
$ R --vanilla CMD INSTALL ORCH_2.0_R_x86_64-unknown-linux-gnu.tar.gz

1.7.2 追加RのRパッケージのインストール

Hadoopクラスタでは、すべてのノードにlibpng-develがインストールされている必要があります。この手順では、dcliユーティリティを使用してコマンドを実行します。dcliユーティリティの構文は、『Oracle Big Data Applianceオーナーズ・ガイド』を参照してください。

libpng-develのインストール手順:

任意のOracle Big Data Applianceサーバーにrootとしてログインします。
libpng-develがすでにインストールされているかどうかを確認します。
```
# dcli rpm -qi libpng-devel
bda1node01: package libpng-devel is not installed
bda1node02: package libpng-devel is not installed
     .
     .
     .
```
すべてのサーバーにパッケージがインストール済の場合、この手順は省略できます。
ファイアウォールの外側にプロキシ・サーバー経由で接続する必要がある場合は、HTTP_PROXY環境変数を設定します。
```
# dcli export HTTP_PROXY="http://proxy.example.com"
```

yum構成ファイルをダウンロードします。

# cd /etc/yum.repos.d
# wget http://public-yum.oracle.com/public-yum-el5.repo

テキスト・エディタでpublic-yum-el5.repoを開き、次のように変更します。
- el5_latestの下で、enabled=1と設定します。
- el5_addonsの下で、enabled=1と設定します。
他のOracle Big Data Applianceサーバーにファイルをコピーします。
```
# dcli -d /etc/yum.repos.d -f public-yum-el5.repo
```

すべてのサーバーにパッケージをインストールします。

# dcli yum -y install libpng-devel
bda1node01: Loaded plugins: rhnplugin, security
bda1node01: Repository 'bda' is missing name in configuration, using id
bda1node01: This system is not registered with ULN.
bda1node01: ULN support will be disabled.
bda1node01: http://bda1node01-master.us.oracle.com/bda/repodata/repomd.xml:
bda1node01: [Errno 14] HTTP Error 502: notresolvable
bda1node01: Trying other mirror.
     .
     .
     .
bda1node01: Running Transaction
bda1node01: Installing     : libpng-devel                                 1/2
bda1node01: Installing     : libpng-devel                                 2/2
 
bda1node01: Installed:
bda1node01: libpng-devel.i386 2:1.2.10-17.el5_8  ibpng-devel.x86_64 2:1.2.10-17.el5_8
 
bda1node01: Complete!
bda1node02: Loaded plugins: rhnplugin, security
     .
     .
     .

すべてのサーバーでインストールが正常に終了したことを確認します。

# dcli rpm -qi libpng-devel
bda1node01: Name        : libpng-devel                      Relocations: (not relocatable)
bda1node01: Version     : 1.2.10                                 Vendor: Oracle America
bda1node01: Release     : 17.el5_8                           Build Date: Wed 25 Apr 2012 06:51:15 AM PDT
bda1node01: Install Date: Tue 05 Feb 2013 11:41:14 AM PST    Build Host: ca-build56.us.oracle.com
bda1node01: Group       : Development/Libraries              Source RPM: libpng-1.2.10-17.el5_8.src.rpm
bda1node01: Size        : 482483                                License: zlib
bda1node01: Signature   : DSA/SHA1, Wed 25 Apr 2012 06:51:41 AM PDT, Key ID 66ced3de1e5e0159
bda1node01: URL         : http://www.libpng.org/pub/png/
bda1node01: Summary     : Development tools for programs to manipulate PNG image format files.
bda1node01: Description :
bda1node01: The libpng-devel package contains the header files and static
bda1node01: libraries necessary for developing programs using the PNG (Portable
bda1node01: Network Graphics) library.
     .
     .
     .

1.7.3 Rユーザーへのリモート・クライアント・アクセスの提供

Rユーザーは、Hadoopクラスタで自身のプログラムをMapReduceジョブとして実行しますが、通常、そのプラットフォームでの個別アカウントは保有していません。かわりに、外部Linuxサーバーでリモート・アクセスが提供されます。

1.7.3.1 リモート・クライアント・アクセスのソフトウェア要件

HadoopクラスタへのアクセスをRユーザーに提供するには、次のコンポーネントをLinuxサーバーにインストールします。

Hadoopクラスタと同じバージョンのHadoop。インストールされていない場合、予想外の問題や障害が生じることがあります。
Hadoopクラスタと同じバージョンのSqoop。Oracle Database内外でのデータのコピーをサポートする場合にのみ必要です。
Mahout。Mahout ALS-WSアルゴリズムでorch.ls関数を使用する場合にのみ必要です。
Hadoopクラスタと同じバージョンのJava Development Kit (JDK)。
Rディストリビューション2.13.2とすべてのベース・ライブラリ。
ORCH Rパッケージ。

データベース・オブジェクトにアクセスできるようにするには、Oracle DatabaseへのOracle Advanced Analyticsオプションが必要です。その後、Hadoopクライアントにこの追加コンポーネントをインストールできます。

Oracle R Enterpriseクライアントのパッケージ。

1.7.3.2 Hadoopクライアントとしてのサーバーの構成

クライアントにHadoopをインストールし、HDFSクライアントを使用する場合はHadoopの最小限の構成を行う必要があります。

クライアント・システムにHadoopをインストールして構成するには、次の手順を実行します。

クライアント・システムにCDH3またはApache Hadoop 0.20.2をインストールして構成します。このシステムがOracle Databaseのホストになります。Oracle Big Data Applianceを使用する場合、『Oracle Big Data Applianceソフトウェア・ユーザーズ・ガイド』のリモート・クライアント・アクセスを提供するための手順を完了します。それ以外の場合は、代理店(ClouderaまたはApache)が提供するインストール手順に従います。
Rユーザーでクライアント・システムにログインします。
Bashシェルを開き、次のHadoopファイルシステム・コマンドを入力します。
```
$HADOOP_HOME/bin/hadoop fs -ls /user
```
ファイルのリストが表示されたら終了です。表示されない場合、Hadoopクラスタが稼働していることを確認します。それでも問題が修正されない場合は、クライアントHadoopのインストールをデバッグする必要があります。

1.7.3.3 HadoopクライアントへのSqoopのインストール

Sqoopをインストールして構成する場合、「HadoopクラスタへのSqoopのインストール」で説明する手順と同じ手順をクライアント・システムで完了します。

1.7.3.4 HadoopクライアントへのRのインストール

Oracle R Distributionの次のWebサイトからR 2.13.2をダウンロードして、インストール手順を入手できます。

http://oss.oracle.com/ORD/

終了したら、Linuxサーバーへの接続とRの実行に必要な権限がユーザーにあることを確認します。

また、Rユーザーによるアクセスが簡単になるようにRStudioサーバーもインストールできます。RStudioの次のWebサイトを参照してください。

http://rstudio.org/

1.7.3.5 HadoopクライアントへのORCHパッケージのインストール

「Hadoopへのソフトウェアのインストール」の説明に従って、クライアント・システムでORCHのインストール手順を実行します。

1.7.3.6 Oracle R Enterpriseクライアントのパッケージ(オプション)のインストール

Rを使用したOracle Databaseへの完全なアクセスをサポートするには、Oracle R Enterpriseリリース1.3以上のクライアントのパッケージをインストールします。このパッケージがない場合、Oracle R Connector for Hadoopでは、Oracle R Enterpriseで提供される高度な統計アルゴリズムを利用できません。