ヘッダーをスキップ
Oracle® Big Data Connectorsユーザーズ・ガイド
リリース2 (2.3)
E48215-03
索引
次
目次
タイトルおよび著作権情報
はじめに
対象読者
ドキュメントのアクセシビリティについて
関連ドキュメント
テキストの表記規則
構文の表記規則
Oracle Big Data Connectorsユーザーズ・ガイドのこのリリースでの変更点
Oracle Big Data Connectorsリリース2 (2.3)の変更点
Oracle Big Data Connectorsリリース2 (2.2)の変更点
Oracle Big Data Connectorsリリース2 (2.0)の変更点
第I部 設定
1
Oracle Big Data Connectorsを使用する前に
1.1
Oracle Big Data Connectorsについて
1.2
ビッグ・データの概念とテクノロジ
1.2.1
MapReduceとは
1.2.2
Apache Hadoopとは
1.3
Oracle Big Data Connectorsソフトウェアのダウンロード
1.4
Oracle SQL Connector for Hadoop Distributed File Systemの設定
1.4.1
ソフトウェア要件
1.4.2
Oracle DatabaseシステムへのHadoopクライアントのインストールと構成
1.4.3
Oracle SQL Connector for HDFSのインストール
1.4.4
Hive表のサポート
1.4.5
Oracle Databaseに対するユーザー・アクセス権の付与
1.4.6
Oracle Databaseシステムへのユーザー・アカウントの設定
1.4.7
セキュアなHadoopクラスタでのOracle SQL Connector for HDFSの使用
1.5
Oracle Loader for Hadoopの設定
1.5.1
ソフトウェア要件
1.5.2
Oracle Loader for Hadoopのインストール
1.5.3
オフライン・データベース・モードのサポート
1.5.4
セキュアなHadoopクラスタでのOracle Loader for Hadoopの使用
1.6
Oracle Data Integrator Application Adapter for Hadoopの設定
1.6.1
システム要件および動作要件
1.6.2
テクノロジ固有の要件
1.6.3
Oracle Data Integrator Application Adapter for Hadoopの場所
1.6.4
トポロジの設定
1.7
Oracle XQuery for Hadoopの設定
1.7.1
ソフトウェア要件
1.7.2
Oracle XQuery for Hadoopのインストール
1.7.3
ファイル・パスのトラブルシューティング
1.8
Oracle R Advanced Analytics for Hadoopの設定
1.8.1
Hadoopへのソフトウェアのインストール
1.8.1.1
サードパーティHadoopクラスタのソフトウェア要件
1.8.1.2
HadoopクラスタへのSqoopのインストール
1.8.1.3
HadoopクラスタへのHiveのインストール
1.8.1.4
HadoopクラスタへのRのインストール
1.8.1.5
HadoopクラスタへのORCHパッケージのインストール
1.8.2
追加のRパッケージのインストール
1.8.3
Rユーザーへのリモート・クライアント・アクセスの提供
1.8.3.1
リモート・クライアント・アクセスのソフトウェア要件
1.8.3.2
Hadoopクライアントとしてのサーバーの構成
1.8.3.3
HadoopクライアントへのSqoopのインストール
1.8.3.4
HadoopクライアントへのRのインストール
1.8.3.5
HadoopクライアントへのORCHパッケージのインストール
1.8.3.6
Oracle R Enterpriseクライアントのパッケージ(オプション)のインストール
第II部 Oracle Databaseのコネクタ
2
Oracle SQL Connector for Hadoop Distributed File System
2.1
Oracle SQL Connector for HDFSについて
2.2
Oracle SQL Connector for HDFSを使用する前に
2.3
システムへのOracle SQL Connector for HDFSの構成
2.4
ExternalTableコマンドライン・ツールの使用方法
2.4.1
外部表の概要
2.4.2
ExternalTableコマンドライン・ツールの構文
2.5
外部表の作成
2.5.1
ExternalTableツールによる外部表の作成
2.5.2
データ・ポンプ形式ファイルからの外部表の作成
2.5.2.1
必須プロパティ
2.5.2.2
オプションのプロパティ
2.5.2.3
データ・ポンプ形式ファイルのXMLファイルのプロパティの定義
2.5.2.4
例
2.5.3
Hive表からの外部表の作成
2.5.3.1
Hive表の要件
2.5.3.2
データ型のマッピング
2.5.3.3
必須プロパティ
2.5.3.4
オプションのプロパティ
2.5.3.5
Hive表のXMLファイルのプロパティの定義
2.5.3.6
例
2.5.4
デリミタ付きテキスト・ファイルからの外部表の作成
2.5.4.1
データ型のマッピング
2.5.4.2
必須プロパティ
2.5.4.3
オプションのプロパティ
2.5.4.4
デリミタ付きテキスト・ファイルのXMLファイルのプロパティの定義
2.5.4.5
例
2.5.5
SQLでの外部表の作成
2.6
HDFSデータ・パスの公開
2.7
場所ファイルのメタデータと内容のリスト
2.8
外部表の説明
2.9
ExternalTableツールで生成された外部表の詳細
2.9.1
構成可能な列マッピングの概要
2.9.1.1
デフォルトの列マッピング
2.9.1.2
すべての列のオーバーライド
2.9.1.3
1つの列のオーバーライド
2.9.1.4
マッピングのオーバーライドの例
2.9.2
場所ファイルとは
2.9.3
並列処理の有効化
2.9.4
場所ファイルの管理
2.9.5
場所ファイルの名前
2.10
Oracle SQL Connector for HDFSの構成
2.10.1
構成ファイルの作成
2.10.2
Oracle SQL Connector for HDFS構成プロパティ・リファレンス
2.11
HDFS内のデータの問合せのパフォーマンスに関するヒント
3
Oracle Loader for Hadoop
3.1
Oracle Loader for Hadoopとは
3.2
操作モードの概要
3.2.1
オンライン・データベース・モード
3.2.2
オフライン・データベース・モード
3.3
Oracle Loader for Hadoopを使用する前に
3.4
ターゲット表の作成
3.4.1
ターゲット表でサポートされるデータ型
3.4.2
ターゲット表でサポートされるパーティション化方式
3.5
ジョブ構成ファイルの作成
3.6
ターゲット表のメタデータの概要
3.6.1
オンライン・データベース・モードの接続詳細の指定
3.6.2
ターゲット表メタデータの生成(オフライン・データベース・モードの場合)
3.6.2.1
OraLoaderMetadataユーティリティ
3.7
入力形式の概要
3.7.1
デリミタ付きテキスト入力形式
3.7.1.1
DelimitedTextInputFormatの概要
3.7.1.2
必須の構成プロパティ
3.7.1.3
オプションの構成プロパティ
3.7.2
複合テキスト入力形式
3.7.2.1
RegexInputFormatの概要
3.7.2.2
必須の構成プロパティ
3.7.2.3
オプションの構成プロパティ
3.7.3
Hive表入力形式
3.7.3.1
HiveToAvroInputFormatの概要
3.7.3.2
必須の構成プロパティ
3.7.4
Avro入力形式
3.7.4.1
構成プロパティ
3.7.5
Oracle NoSQL Database入力形式
3.7.5.1
KVAvroInputFormatの概要
3.7.5.2
必須の構成プロパティ
3.7.6
カスタム入力形式
3.7.6.1
カスタム入力形式の実装の概要
3.7.6.2
エラー処理の概要
3.7.6.3
データ・サンプリングのサポート
3.7.6.4
InputFormatのサンプル・ソース・コード
3.8
ターゲット表列への入力フィールドのマッピング
3.8.1
自動マッピング
3.8.2
手動マッピング
3.8.3
ローダー・マップ・ファイルの変換
3.9
出力形式の概要
3.9.1
JDBC出力書式
3.9.1.1
JDBCOutputFormatの概要
3.9.1.2
構成プロパティ
3.9.2
Oracle OCIダイレクト・パス出力形式
3.9.2.1
OCIOutputFormatの概要
3.9.2.2
構成プロパティ
3.9.3
デリミタ付きテキスト出力形式
3.9.3.1
DelimitedTextOutputFormatの概要
3.9.3.2
構成プロパティ
3.9.4
Oracle Data Pump出力形式
3.9.4.1
DataPumpOutputFormatの概要
3.10
ローダー・ジョブの実行
3.10.1
Hive入力形式のJARファイルの指定
3.10.2
Oracle NoSQL Database入力形式のJARファイルの指定
3.10.3
ジョブのレポート作成
3.11
拒否されたレコードの処理
3.11.1
拒否されたレコードの不正なファイルへのロギング
3.11.2
ジョブの拒否制限の設定
3.12
パーティション化表にデータをロードする場合のロード・バランシング
3.12.1
サンプリング機能の使用方法
3.12.2
ロード・バランシングのチューニング
3.12.3
サンプリング動作のチューニング
3.12.4
Oracle Loader for Hadoopがサンプラのパーティション化スキームを使用するのはどのような場合か
3.12.5
メモリーの問題の解決
3.12.6
サンプリング機能のプロパティの値が無効な場合
3.13
Oracleエンジニアド・システム間の通信の最適化
3.14
Oracle Loader for Hadoop構成プロパティ・リファレンス
3.15
同梱されているソフトウェアのサードパーティ・ライセンス
3.15.1
Apache Licensed Code
3.15.2
Apache Avro 1.7.3
3.15.3
Apache Commons Mathematics Library 2.2
3.15.4
Jackson JSON 1.8.8
4
Oracle Data Integrator Application Adapter for Hadoop
4.1
概要
4.1.1
概念
4.1.2
ナレッジ・モジュール
4.1.3
セキュリティ
4.2
トポロジの設定
4.2.1
ファイル・データソースの設定
4.2.2
Hiveデータソースの設定
4.2.3
Hadoopジョブを実行するためのOracle Data Integratorエージェントの設定
4.2.4
ローカル・エージェントでHadoopジョブを実行するためのOracle Data Integrator Studioの構成
4.3
統合プロジェクトの設定
4.4
HiveモデルのリバースエンジニアリングからのOracle Data Integratorモデルの作成
4.4.1
モデルの作成
4.4.2
Hive表のリバースエンジニアリング
4.5
インタフェースの設計
4.5.1
ファイルからHiveへのデータのロード
4.5.2
Hive内のデータの検証と変換
4.5.2.1
IKM Hive Control Append
4.5.2.2
CKM Hive
4.5.2.3
IKM Hive Transform
4.5.3
HiveおよびHDFSからOracle Databaseへのデータのロード
第III部 Oracle XQuery for Hadoop
5
Oracle XQuery for Hadoopの使用
5.1
Oracle XQuery for Hadoopとは
5.2
Oracle XQuery for Hadoopを使用する前に
5.2.1
基本的な手順
5.2.2
例: Hello World!
5.3
アダプタについて
5.3.1
Oracle XQuery for Hadoopの関数について
5.3.2
Avroファイル・アダプタについて
5.3.3
Oracle Databaseアダプタについて
5.3.4
Oracle NoSQL Databaseアダプタについて
5.3.5
順序ファイル・アダプタについて
5.3.6
テキスト・ファイル・アダプタについて
5.3.7
XMLファイル・アダプタについて
5.3.8
Oracle XQuery for Hadoopで使用する他のモジュールについて
5.4
XQuery変換の作成
5.4.1
XQuery変換の要件
5.4.2
XQuery言語のサポートについて
5.4.3
Hadoop分散キャッシュのデータへのアクセス
5.4.4
XQueryからのカスタムJava関数の呼出し
5.4.5
ユーザー定義のXQueryライブラリ・モジュールおよびXMLスキーマのアクセス
5.4.6
XQuery変換の例
5.5
問合せの実行
5.5.1
Oracle XQuery for Hadoopのオプション
5.5.2
汎用オプション
5.5.3
ローカルでの問合せの実行について
5.6
Oracle XQuery for Hadoopの構成プロパティ
5.7
同梱されているソフトウェアのサードパーティ・ライセンス
5.7.1
Apache Licensed Code
5.7.2
ANTLR 3.2
5.7.3
Apache Ant 1.7.1
5.7.4
Apache Avro 1.7.3、1.7.4
5.7.5
Apache Xerces
5.7.6
Apache XMLBeans 2.5
5.7.7
Jackson 1.8.8
5.7.8
Woodstox XML Parser 4.2
6
Oracle XQuery for Hadoopリファレンス
Avroファイル・アダプタ
Avroファイルを読み取る組込み関数
avro:collection-avroxml
avro:get
Avroコンテナ・ファイルを読み取るカスタム関数
Avroファイルを書き込むカスタム関数
AvroとXML間の値の変換について
XMLとしてのAvroの読取り
AvroとしてのXMLの書込み
Oracle Databaseアダプタ
Oracle Databaseに書き込むカスタム関数
%oracle-property注釈および対応するOracle Loader for Hadoop構成プロパティ
Oracle NoSQL Databaseアダプタ
Oracle NoSQL Databaseアダプタを使用するための前提条件
Oracle NoSQL Databaseに対して読取りおよび書込みを実行する組込み関数
kv:collection-text
kv:collection-text
kv:collection-text
kv:collection-avroxml
kv:collection-avroxml
kv:collection-avroxml
kv:collection-xml
kv:collection-xml
kv:collection-xml
kv:collection-binxml
kv:collection-binxml
kv:collection-binxml
kv:collection-binxml
kv:put-text
kv:put-xml
kv:put-binxml
kv:get-text
kv:get-avroxml
kv:get-xml
kv:get-binxml
kv:key-range
kv:key-range
Oracle NoSQL Databaseアダプタの例
Oracle NoSQL Databaseから値を読み取るカスタム関数
Oracle NoSQL Databaseから単一値を取得するためのカスタム関数
Oracle NoSQL Databaseに書き込むカスタム関数
Oracle NoSQL Databaseアダプタの構成プロパティ
順序ファイル・アダプタ
順序ファイルの読取りおよび書込みを実行する組込み関数
seq:collection
seq:collection-xml
seq:collection-binxml
seq:put
seq:put
seq:put-xml
seq:put-xml
seq:put-binxml
seq:put-binxml
順序ファイル・アダプタの関数の例
順序ファイルを読み取るカスタム関数
順序ファイルを書き込むカスタム関数
テキスト・ファイル・アダプタ
テキスト・ファイルの読取りおよび書込みを実行する組込み関数
text:collection
text:collection-xml
text:put
text:put-xml
text:trace
テキスト・ファイル・アダプタの関数の例
テキスト・ファイルを読み取るカスタム関数
テキスト・ファイルを書き込むカスタム関数
テキスト・ファイル関数の例
XMLファイル・アダプタ
XMLファイルを読み取る組込み関数
xmlf:collection
xmlf:collection
XMLファイル・アダプタの関数の例
XMLファイルを読み取るカスタム関数
JSONモジュール
JSONを読み取る組込み関数
json:parse-as-xml
json:get
JSON関数の例
ユーティリティ・モジュール
期間、日付および時間の関数
文字列関数
Hadoopモジュール
シリアライズ注釈
7
Oracle XML Extensions for Hive
7.1
XML Extensions for Apache Hiveとは
7.2
Hive拡張の使用
7.3
XML表の作成
7.3.1
XML表に対するHiveのCREATE TABLE構文
7.3.2
CREATE TABLEの例
7.3.2.1
簡単な例
7.3.2.2
詳細な例
Apache HiveのXML関数ライブラリ
関数のオンライン・マニュアル
外部ファイルへのHiveアクセスについて
データ型変換について
xml_query
xml_query_as_
primitive
xml_exists
xml_table
第IV部 Oracle R Advanced Analytics for Hadoop
8
Oracle R Advanced Analytics for Hadoopの使用
8.1
Oracle R Advanced Analytics for Hadoopについて
8.2
HDFSファイルへのアクセス
8.3
Apache Hiveへのアクセス
8.3.1
HiveのORE関数
8.3.2
Hiveでサポートされる一般的なR関数
8.3.3
Hiveデータ型のサポート
8.3.4
Hiveアクセスの使用上の注意
8.3.5
例: Oracle R Advanced Analytics for HadoopへのHive表のロード
8.4
Oracle Databaseへのアクセス
8.4.1
Oracle Databaseアクセスの使用上の注意
8.4.2
Oracle R EnterpriseでOracle R Advanced Analytics for Hadoopを使用する場合のシナリオ
8.5
Oracle R Advanced Analytics for Hadoopの分析関数
8.6
ORCH mapred.configクラス
8.7
Oracle R Advanced Analytics for Hadoopの例とデモ
8.7.1
デモの使用方法
8.7.2
例の使用方法
8.8
Oracle R Advanced Analytics for Hadoopのセキュリティ上の注意
9
ORCHライブラリ・リファレンス
9.1
アルファベット順の関数
9.2
カテゴリ別の関数
9.2.1
接続
9.2.2
データのコピー
9.2.3
ファイルの調査
9.2.4
MapReduce関数の記述
9.2.5
デバッグ・スクリプト
9.2.6
Hiveデータの使用方法
9.2.7
分析関数の記述
hadoop.exec
hadoop.run
hdfs.attach
hdfs.cd
hdfs.cp
hdfs.describe
hdfs.download
hdfs.exists
hdfs.get
「hdfs.head」
hdfs.id
hdfs.ls
hdfs.mkdir
hdfs.mv
hdfs.parts
hdfs.pull
hdfs.push
hdfs.put
hdfs.pwd
hdfs.rm
hdfs.rmdir
hdfs.root
hdfs.sample
「hdfs.setroot」
hdfs.size
「hdfs.tail」
hdfs.upload
is.hdfs.id
orch.connect
orch.connected
orch.dbcon
orch.dbg.lasterr
orch.dbg.off
orch.dbg.on
orch.dbg.output
orch.dbinfo
orch.disconnect
orch.dryrun
orch.export
orch.keyval
orch.keyvals
orch.pack
orch.reconnect
orch.temp.path
orch.unpack
orch.version
索引