用語集
Apache HBase
CDHクラスタ内に格納されている大量の疎データに対して、ランダムな読取り/書込みアクセス権を提供するオープンソースの列指向データベース。キーによる値の高速ルックアップを備え、1秒当たり何千件もの挿入、更新、削除操作を実行できます。
Apache Hive
CDHのオープンソース・データ・ウェアハウスで、HDFS内に格納されているデータのデータ要約、アドホック問合せおよびデータ分析をサポートします。HiveQLと呼ばれるSQLライクな言語を使用します。インタプリタによって、HiveQL問合せからMapReduceコードが生成されます。
Hiveを使用することにより、MapReduceプログラムをJavaで記述しないですみます。
「Hive Thrift」、「MapReduce」も参照してください。
Apache Spark
大規模なデータを処理するための高速エンジン。Java、ScalaおよびPythonアプリケーションをサポートします。インメモリー・クラスタ・コンピューティングにプリミティブを提供するため、特に機械学習アルゴリズムに適しています。MapReduceと比べて、最大で100倍速いパフォーマンスが約束されます。
Apache Sqoop
HDFSまたはHiveと構造化データベースとの間でデータのインポートとエクスポートを行うコマンドライン・ツール。Sqoopという名前は、"SQL to Hadoop"に由来します。Oracle R Advanced Analytics for Hadoopでは、Sqoopの実行可能ファイルを使用して、HDFSとOracle Databaseの間のデータ移行を行います。
ASR
Oracle Auto Service Requestは、ハードウェアの状態を監視し、問題を検出すると自動的にサービス・リクエストを生成するソフトウェア・ツールです。
「OASM」も参照してください。
CDH
Cloudera's Distribution including Apache Hadoopは、Oracle Big Data ApplianceにインストールされるApache Hadoopおよび関連コンポーネントです。
Cloudera Hue
Hadoop User Experienceは、複数のアプリケーション(HDFSファイル・ブラウザ、ジョブ・ブラウザ、アカウント管理ツール、MapReduceジョブ・デザイナ、Hiveウィザードなど)を含むCDHのWebユーザー・インタフェースです。Cloudera ManagerでHueを実行します。
「HDFS」、「Apache Hive」も参照してください。
Cloudera Manager
Cloudera Managerを使用すると、クラスタ内のCDHサービスを監視、診断および管理できます。
Oracle Big Data Appliance上のCloudera ManagerエージェントはOracle Enterprise Managerに情報も提供するため、この情報を使用してソフトウェアとハードウェアの両方を監視できます。
Cloudera Navigator
Hiveメタデータや、HDFS、HiveまたはHBaseを介してアクセスされるHDFSデータなど、Hadoopに格納されているデータへのアクセス権と監査アクセス権を検証します。
クラスタ
連携して機能するように構成された、ネットワーク上のサーバーのグループ。サーバーは、マスター・ノードまたはワーカー・ノードのいずれかです。
Oracle Big Data Applianceのラック内にあるすべてのサーバーがクラスタを構成します。サーバー1、2および3はマスター・ノードです。サーバー4から18はワーカー・ノードです。
「Hadoop」を参照してください。
Hadoop
ファイルを格納し、サーバーのグループ全体でワークロードを分散するバッチ処理インフラストラクチャ。Oracle Big Data Applianceでは、Cloudera's Distribution including Apache Hadoop (CDH)を使用します。
HDFS
Hadoop Distributed File Systemは、ストリーミング型のデータ・アクセス・パターンによって、非常に大きなデータ・ファイル(メガバイトからペタバイト)を格納するために設計された、オープンソース・ファイル・システムです。HDFSは、これらのファイルを複数のデータ・ブロックに分割し、そのブロックをCDHクラスタ全体に分散します。
1つのデータ・セットが1台のコンピュータのストレージ容量よりも大きい場合は、複数のコンピュータにまたがって分割する必要があります。分散ファイル・システムでは、コンピュータのネットワーク全体にわたって、データ・セットのストレージを管理できます。
「クラスタ」も参照してください。
Hive Thrift
Hive問合せで使用するCDHへのリモート・アクセス用のリモート・プロシージャ・コール(RPC)インタフェースです。
「CDH」、「Apache Hive」も参照してください。
HotSpot
Oracleが保守および配布するJava仮想マシン(JVM)。頻繁に実行されるコードを自動的に最適化して、優れたパフォーマンスを実現します。HotSpotは、Oracle Big Data Applianceスタックのその他のコンポーネントの標準JVMです。
MapReduce
分散システム上でデータを処理する並列プログラミング・モデル。MapReduce 1とYARN (MapReduce 2)の2つのバージョンのMapReduceを使用できます。Oracle Big Data Appliance 3.0以上のデフォルトのバージョンはYARNです。
MapReduceプログラムには、次の機能が含まれています。
-
マッパー: データ・セットのレコードを処理します。
-
リデューサ: 複数のマッパーからの出力をマージします。
-
コンバイナ: リデューサに送信する前に、マッパーからの結果セットを最適化します(オプションであり、すべてのアプリケーションでサポートされているわけではありません)。
「Apache YARN」も参照してください。
MySQLデータベース
SQLベースのリレーショナル・データベース管理システム。Cloudera Manager、Oracle Data Integrator、HiveおよびOozieは、Oracle Big Data Appliance上で、MySQL Databaseをメタデータ・リポジトリとして使用します。
NodeManager
各ノード上で実行され、ResourceManagerによって割り当てられたタスクを実行するサービスです。YARNのみ。
「ResourceManager」、「YARN」も参照してください。
OASM
Oracle Automated Service Managerは、Oracle Sunハードウェア・システムの状態を監視するサービスです。以前は、Sun Automatic Service Manager (SASM)と呼ばれていました。
Oracle Database Instant Client
標準のOracle DatabaseクライアントなしでOracleアプリケーションを実行できるようにするスモール・フットプリント・クライアントです。
Oracle Linux
Oracle Linuxは、OracleによるLinuxオペレーティング・システムの商用版です。Oracle Linuxは、サポート契約を結んでいなくても、無料でダウンロード、使用および再配布できます。
Oracle R Enterprise
Oracle Advanced Analytics Optionのコンポーネント。これを使用すると、RユーザーはRコマンドおよびスクリプトを実行して、Oracleデータベースに格納されているデータの統計分析やグラフ分析ができます。
Pig
大規模なデータ・セットを分析するためのオープンソース・プラットフォームで、次のものから構成されます。
-
Pig Latinスクリプト言語
-
Pig LatinスクリプトをMapReduceジョブに変換するPigインタプリタ
Pigは、クライアント・アプリケーションとして動作します。
「MapReduce」も参照してください。
Puppet
クラスタ全体にソフトウェア・コンポーネントをデプロイおよび構成するための構成管理ツール。Oracle Big Data Applianceの初期ソフトウェア・インストールでは、Puppetを使用します。
Puppetツールは、Puppetエージェント(通常は単にPuppetと呼ばれる)、Puppetマスター・サーバー、コンソールおよびクラウド・プロビジョナの各コンポーネントで構成されます。
Puppetエージェント、Puppetマスターも参照してください。
Puppetエージェント
主にPuppetマスターから構成を取得して、それを適用するサービスです。Puppetエージェントは、Oracle Big Data Appliance内の各サーバー上で動作します。
Puppet、Puppetマスターも参照してください。