ヘッダーをスキップ
Oracle® Big Data Connectorsユーザーズ・ガイド
リリース1 (1.0)
B66474-01
  目次へ移動
目次
索引へ移動
索引

前
 
次
 

1 Oracle Big Data Connectorsを使用する前に

この章では、Oracle Big Data Connectorsの概要とインストール手順を示し、ユーザーがコネクタにアクセスするのに必要な権限について説明します。

この章の内容は次のとおりです。

Oracle Big Data Connectorsについて

Oracle Big Data Connectorsを使用すると、HadoopクラスタとOracle Databaseに格納されているデータ間のデータ・アクセスが簡単になります。Oracle Big Data Applianceまたはコモディティ・ハードウェア上で稼働するHadoopクラスタでの使用に対してライセンス供与されます。

次のコネクタがあります。

各コネクタを使用するには、ソフトウェア・コンポーネントをOracle Database、HadoopクラスタおよびユーザーのPCにインストールする必要がある場合があります。Oracle Databaseでの追加のアクセス権限が必要な場合もあります。

Oracle Direct Connector for Hadoop Distributed File Systemのインストール

Oracle Direct Connector for Hadoop Distributed File System (Oracle Direct Connector)をインストールする前に、必要なソフトウェアがあることを確認します。

必要なソフトウェア

Oracle Direct Connectorには、次のソフトウェアが必要です。

  • Oracle Databaseリリース11gリリース2 (11.2.0.2または11.2.0.3)。

  • データ・ポンプ・ファイル形式をサポートするための個別パッチ。このパッチをダウンロードするには、http://support.oracle.comに移動し、Oracle Bug#13079417を検索します。

Oracle Direct Connectorのインストール

Oracle Direct Connectorをインストールするには、次のようにします。

  1. zipファイルをダウンロードします。

  2. orahdfs-version.zipをディレクトリに解凍します。解凍したファイルは、例1-1に示すような構造を持ちます。

  3. Oracle DatabaseからHadoopおよびHDFSにアクセスできることを確認します。

    1. Oracleデータベース・アカウントを使用して、Oracle Databaseが稼働しているシステムにログインします。

    2. bashシェルを開き、次のコマンドを発行します。

      hadoop fs -ls /user
      

      ファイルのリストが表示されます。そうでない場合、続ける前にOracle DatabaseホストとHadoopクラスタとの間のネットワーク接続を修正する必要があります。

  4. テキスト・エディタでbashスクリプトhdfs_streamを開き、次の変更を行います。

    • HADOOP_HOME: Hadoopホーム・ディレクトリの絶対パスを設定します。

    • DIRECTHDFS_HOME: Oracle Direct Connectorインストール・ディレクトリの絶対パスを設定します。

    • orahdfs.jar: 適切な絶対パスを設定します。

    スクリプト内のコメントによって、これらの変更を行うための詳細な手順が示されます。

  5. スクリプトを実行します。使用法の情報が表示されます。そうでない場合、次の点をチェックします。

    • bashシェル・スクリプト$DIRECTHDFS_HOME/bin/hdfs_streamに対して読取りと実行の権限があります。

    • Oracleを実行しているオペレーティング・システム・ユーザーはorahdfs.jarに対して読取りアクセスできます。

  6. 外部表に対するデフォルト・データベース・ディレクトリがない場合、ここでディレクトリを作成します。次のコマンドで、scratch/sales_ext_dirという名前のディレクトリを作成します。

    # mkdir /scratch/sales_ext_dir
    # chmod 664 /scratch/sales_ext_dir
    # sqlplus / as sysdba
    SQL> CREATE OR REPLACE DIRECTORY sales_ext_dir AS '/scratch/sales_ext_dir'
    
  7. hdfs_streamを含めるorahdfs-version/binディレクトリ用のデータベース・ディレクトリを作成します。この例では、Oracle Direct Connectorキットは/etcにインストールされます。

    SQL> CREATE OR REPLACE DIRECTORY hdfs_bin_path AS  '/etc/orahdfs-1.0/bin'
    

例1-1 orahdfsディレクトリの構造

orahdfs-version
   bin/
      hdfs_stream
   jlib/ 
      orahdfs.jar
   log/
   README.txt

Oracle Direct Connectorに対するユーザー・アクセス権の付与

Oracle DatabaseユーザーがOracle Direct Connectorを使用するには、次の権限が必要です。

  • CREATE SESSION

  • UTL_FILE PL/SQLパッケージに対してEXECUTE

  • 「zipファイルをダウンロードします。」で作成した外部表用のデフォルト・ディレクトリに対してREADおよびWRITE(ステップ0)

    例では、ディレクトリの名前はSALES_EXT_DIRです。

  • 「zipファイルをダウンロードします。」で作成したHDFS_BIN_PATHディレクトリに対してEXECUTE(ステップ0)書込みアクセス権はどのユーザーにも付与しないでください。Oracle Direct Connectorを使用するユーザーにのみEXECUTEを付与します。

  • HDFS_BIN_PATH/hdfs_streamに対してREADおよびEXECUTE。Oracle Direct Connectorを使用するユーザーにのみEXECUTEを付与します。

例1-2に、これらの権限をHDFSUSERに付与するSQLコマンドを示します。

例1-2 Oracle Direct Connectorに対するユーザー・アクセス権の付与

CONNECT / AS sysdba;
CREATE USER hdfsuser IDENTIFIED BY password;
GRANT CREATE SESSION TO hdfsuser;
GRANT EXECUTE ON SYS.UTL_FILE TO hdfsuser;
GRANT READ, WRITE on DIRECTORY sales_ext_dir TO hdfsuser
GRANT EXECUTE ON DIRECTORY hdfs_bin_path TO hdfsuser;

Oracle Loader for Hadoop

Oracle Loader for Hadoopをインストールする前に、必要なソフトウェアがあることを確認します。

必要なソフトウェア

Oracle Loader for Hadoopには、次のソフトウェアが必要です。

  • 次のいずれかが稼働しているターゲット・データベース・システム

    • 必要なパッチが適用されたOracle Database 10gリリース2 (10.2.0.5)

    • 必要なパッチが適用されたOracle Database 11gリリース2 (11.2.0.2)

    • Oracle Database 11gリリース2 (11.2.0.3)


    注意:

    Oracle Loader for HadoopをOracle Database 10gリリース2 (10.2.0.5)またはOracle Database 11gリリース2 (11.2.0.2)と組み合せて使用するには、まず、Oracle Bug#11897896に対応する個別パッチを適用する必要があります。このパッチにアクセスするには、http://support.oracle.comに移動し、バグ番号を検索します。

  • Cloudera's Distribution including Apache Hadoop (CDH3)またはApache Hadoop 0.20.2

  • HiveToAvroInputFormatクラスを使用する場合、Hive 0.7.0または0.7.1

インストール手順

Oracle Loader for Hadoopは、Oracle Database 11gリリース2クライアント・ライブラリおよびOracle Database 10.2.0.5、11.2.0.2または11.2.0.3に接続するためのOracle Instant Client ライブラリに同梱されています。

Oracle Loader for Hadoopをインストールする手順:

  1. oraloader-1.1.0.0.0.x86_64.zipアーカイブの中身をHadoopクラスタのディレクトリに展開します。

    次のサブディレクトリを含む、oraloader-1.1.0.0.0という名前のディレクトリが作成されます。

    • jlib

    • lib

    • examples

    このガイドでは、変数${OLH_HOME}を使用して、このインストール・ディレクトリを参照します。

  2. ${OLH_HOME}/jlib/*HADOOP_CLASSPATH変数に追加します。

Oracle Data Integrator Application Adapter for Hadoop

次の各項で、Oracle Data Integrator Application Adapter for Hadoopのインストール要件について説明します。

システム要件および動作要件

Application Adapter for Hadoopを使用するには、まず、Oracle Data Integratorが必要です。これは、Oracle Big Data Connectorsとは別にライセンス供与されます。Oracle Data Integratorは、次のOracle Webサイトからダウンロードできます。

http://www.oracle.com/technetwork/middleware/data-integrator/downloads/index.html

Oracle Data Integrator Application Adapter for Hadoopナレッジ・モジュールには、Oracle Data Integrator 11.1.1.6.0以上が必要です。

インストールを実行する前に、システム要件および動作保証のドキュメントを読み、インストール先の環境が、これからインストールする製品の最小インストール要件を満たしていることを確認します。

サポートされているプラットフォームおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technology/products/oracle-data-integrator/index.html

テクノロジ固有の要件

サポートされているテクノロジおよびバージョンのリストには、次のOracle Technical Networkからアクセスできます。

http://www.oracle.com/technology/products/oracle-data-integrator/index.html

Oracle R Connector for Hadoop

Oracle R Connector for Hadoopでは、サーバー側と各ユーザーのPCでのソフトウェア環境のインストールが必要です。

サーバー・ソフトウェアのインストール

Oracle Big Data Applianceでは、追加ソフトウェアのインストールや構成なしにOracle R Connector for Hadoopがサポートされます。

その他のHadoopクラスタでOracle R Connector for Hadoopを使用するには、必要な環境を作成する必要があります。

次のコンポーネントをサードパーティ・サーバーにインストールします。

  • HadoopクラスタのすべてのノードにRディストリビューション2.13.1とベース・ライブラリ

  • ダウンロードされ、各RエンジンにインストールされたORHC-DRVパッケージ。Hadoopクラスタの各ノードに存在する必要があります。

    install.packages("orhc-drv")
    library("orhc-drv")
    
  • Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)

クライアント・ソフトウェアのインストール

次のコンポーネントをクライアントPCにインストールします。

  • Rディストリビューション2.13.1

  • ORHC Rパッケージ

    install.packages("orhc")
    library("orhc"
    
  • Oracle R Enterpriseコンポーネント(オプション)。これによって、Oracle Databaseにアクセスできます。これがない場合、拡張統計アルゴリズムにアクセスせず、Oracle R Connector for Hadoop Clientで、メモリー内Rオブジェクトおよびローカル・データ・ファイルのみ操作できます。次に例を示します。

    library(DBI)
    library(ROracle)
    library(OREbase)
    library(OREeda)
    library(OREgraphics
    library(OREstats)
    library(RToXmp)
    
  • Java Virtual Machine(できれば、Java Hotspot Virtual Machine 6)

  • サーバーでのHadoopクラスタへのアクセスを可能にするHadoop Client