用語集

Apache Flume

ほぼあらゆるソースからHDFSやHBaseなどのデータ・ストアにデータを収集して集計するための分散サービス。

Apache HBase

CDHクラスタ内に格納されている大量の疎データに対して、ランダムな読取り/書込みアクセス権を提供するオープンソースの列指向データベース。キーによる値の高速ルックアップを備え、1秒当たり何千件もの挿入、更新、削除操作を実行できます。

Apache Hive

CDHのオープンソース・データ・ウェアハウスで、HDFS内に格納されているデータのデータ要約、アドホック問合せおよびデータ分析をサポートします。HiveQLと呼ばれるSQLライクな言語を使用します。インタプリタによって、HiveQL問合せからMapReduceコードが生成されます。

Hiveを使用することにより、MapReduceプログラムをJavaで記述しないですみます。

「Hive Thrift」、「MapReduce」も参照してください。

Apache Sentry

HiveおよびImpala SQL問合せエンジンと統合され、Hadoopに格納されているデータおよびメタデータに対するファイングレイン認証の機能を備えています。

Apache Solr

全文検索、ファセット検索、地理空間検索およびヒットの強調表示を含むエンタープライズ検索プラットフォームを提供します。

Apache Spark

大規模なデータを処理するための高速エンジン。Java、ScalaおよびPythonアプリケーションをサポートします。インメモリー・クラスタ・コンピューティングにプリミティブを提供するため、特に機械学習アルゴリズムに適しています。MapReduceと比べて、最大で100倍速いパフォーマンスが約束されます。

Apache Sqoop

HDFSまたはHiveと構造化データベースとの間でデータのインポートとエクスポートを行うコマンドライン・ツール。Sqoopという名前は、"SQL to Hadoop"に由来します。Oracle R Advanced Analytics for Hadoopでは、Sqoopの実行可能ファイルを使用して、HDFSとOracle Databaseの間のデータ移行を行います。

Apache YARN

MapReduceの更新バージョン。MapReduce 2とも呼ばれます。この略語は、Yet Another Resource Negotiatorを表します。

ASR

Oracle Auto Service Requestは、ハードウェアの状態を監視し、問題を検出すると自動的にサービス・リクエストを生成するソフトウェア・ツールです。

「OASM」も参照してください。

バランサ

クラスタ内のすべてのノードに、設定範囲内でほぼ同量のデータが格納されるようにするサービス。データは、ノード内のディスク間ではなく、クラスタ内のノード間で分散されます。

CDH

Cloudera's Distribution including Apache Hadoopは、Oracle Big Data ApplianceにインストールされるApache Hadoopおよび関連コンポーネントです。

Cloudera Hue

Hadoop User Experienceは、複数のアプリケーション(HDFSファイル・ブラウザ、ジョブ・ブラウザ、アカウント管理ツール、MapReduceジョブ・デザイナ、Hiveウィザードなど)を含むCDHのWebユーザー・インタフェースです。Cloudera ManagerでHueを実行します。

「HDFS」、「Apache Hive」も参照してください。

Cloudera Impala

大規模並列処理が可能な問合せエンジン。データを移動または変換することなく、HDFSとHBaseのデータに対するSQL問合せのパフォーマンスが向上します。

Cloudera Manager

Cloudera Managerを使用すると、クラスタ内のCDHサービスを監視、診断および管理できます。

Oracle Big Data Appliance上のCloudera ManagerエージェントはOracle Enterprise Managerに情報も提供するため、この情報を使用してソフトウェアとハードウェアの両方を監視できます。

Cloudera Navigator

Hiveメタデータや、HDFS、HiveまたはHBaseを介してアクセスされるHDFSデータなど、Hadoopに格納されているデータへのアクセス権と監査アクセス権を検証します。

Cloudera Search

Hadoopに格納されているデータに対する検索およびナビゲーション・ツールとして機能します。Apache Solrに基づきます。

Cloudera's Distribution including Apache Hadoop (CDH)

「CDH」を参照してください。

クラスタ

連携して機能するように構成された、ネットワーク上のサーバーのグループ。サーバーは、マスター・ノードまたはワーカー・ノードのいずれかです。

Oracle Big Data Applianceのラック内にあるすべてのサーバーがクラスタを構成します。サーバー1、2および3はマスター・ノードです。サーバー4から18はワーカー・ノードです。

「Hadoop」を参照してください。

DataNode

HDFSにデータを格納する、CDHクラスタ内のサーバー。DataNodeは、NameNodeによって割り当てられたファイル・システム操作を実行します。

HDFS、NameNodeも参照してください。

Flume

「Apache Flume」を参照してください。

Hadoop

ファイルを格納し、サーバーのグループ全体でワークロードを分散するバッチ処理インフラストラクチャ。Oracle Big Data Applianceでは、Cloudera's Distribution including Apache Hadoop (CDH)を使用します。

Hadoop Distributed File System (HDFS)

「HDFS」を参照してください。

Hadoop User Experience (Hue)

「Cloudera Hue」を参照してください。

HBase

「Apache HBase」を参照してください。

HDFS

Hadoop Distributed File Systemは、ストリーミング型のデータ・アクセス・パターンによって、非常に大きなデータ・ファイル(メガバイトからペタバイト)を格納するために設計された、オープンソース・ファイル・システムです。HDFSは、これらのファイルを複数のデータ・ブロックに分割し、そのブロックをCDHクラスタ全体に分散します。

1つのデータ・セットが1台のコンピュータのストレージ容量よりも大きい場合は、複数のコンピュータにまたがって分割する必要があります。分散ファイル・システムでは、コンピュータのネットワーク全体にわたって、データ・セットのストレージを管理できます。

「クラスタ」も参照してください。

Hive

「Apache Hive」を参照してください。

Hive Thrift

Hive問合せで使用するCDHへのリモート・アクセス用のリモート・プロシージャ・コール(RPC)インタフェースです。

「CDH」、「Apache Hive」も参照してください。

HiveQL

Hiveで使用されるSQLライクな問合せ言語です。

「Apache Hive」も参照してください。

HotSpot

Oracleが保守および配布するJava仮想マシン(JVM)。頻繁に実行されるコードを自動的に最適化して、優れたパフォーマンスを実現します。HotSpotは、Oracle Big Data Applianceスタックのその他のコンポーネントの標準JVMです。

Hue

「Cloudera Hue」を参照してください。

Impala

「Cloudera Impala」を参照してください。

Java HotSpot仮想マシン

「HotSpot」を参照してください。

JobTracker

タスクをCDHクラスタ内の特定のノード(データを格納するノードが望ましい)に割り当てるサービスです。MRv1のみ。

Hadoop、MapReduceも参照してください。

Kerberos

悪質な偽装の防止に効果的なネットワーク認証プロトコル。Massachusetts Institute of Technology (MIT)で開発されました。

Mahout

Apache Mahoutは、クラスタリング、分類、およびバッチベースの共同フィルタに必要なコア・アルゴリズムを含むマシン・ラーニング・ライブラリです。

MapReduce

分散システム上でデータを処理する並列プログラミング・モデル。MapReduce 1とYARN (MapReduce 2)の2つのバージョンのMapReduceを使用できます。Oracle Big Data Appliance 3.0以上のデフォルトのバージョンはYARNです。

MapReduceプログラムには、次の機能が含まれています。

マッパー: データ・セットのレコードを処理します。
リデューサ: 複数のマッパーからの出力をマージします。
コンバイナ: リデューサに送信する前に、マッパーからの結果セットを最適化します(オプションであり、すべてのアプリケーションでサポートされているわけではありません)。

「Apache YARN」も参照してください。

MySQLデータベース

SQLベースのリレーショナル・データベース管理システム。Cloudera Manager、Oracle Data Integrator、HiveおよびOozieは、Oracle Big Data Appliance上で、MySQL Databaseをメタデータ・リポジトリとして使用します。

NameNode

HDFS内のすべてのファイルのディレクトリを保持し、CDHクラスタ内でのデータの格納場所を追跡するサービスです。

「HDFS」も参照してください。

Navigator

「Cloudera Navigator」を参照してください。

ノード

CDHクラスタ内のサーバーです。

「クラスタ」も参照してください。

NodeManager

各ノード上で実行され、ResourceManagerによって割り当てられたタスクを実行するサービスです。YARNのみ。

「ResourceManager」、「YARN」も参照してください。

NoSQL Database

Oracle NoSQL Databaseを参照してください。

OASM

Oracle Automated Service Managerは、Oracle Sunハードウェア・システムの状態を監視するサービスです。以前は、Sun Automatic Service Manager (SASM)と呼ばれていました。

Oozie

CDHにおけるデータ処理のジョブを管理するための、オープンソースのワークフローおよびコーディネーション・サービスです。

Oracle Database Instant Client

標準のOracle DatabaseクライアントなしでOracleアプリケーションを実行できるようにするスモール・フットプリント・クライアントです。

Oracle Linux

Oracle Linuxは、OracleによるLinuxオペレーティング・システムの商用版です。Oracle Linuxは、サポート契約を結んでいなくても、無料でダウンロード、使用および再配布できます。

Oracle NoSQL Database

高速なデータ問合せ(通常はキー検索による)をサポートする、分散型のキー値データベースです。

Oracle R Distribution

統計分析とグラフ作成に対応したオープンソースの言語および環境Rの、Oracle対応ディストリビューションです。

Oracle R Enterprise

Oracle Advanced Analytics Optionのコンポーネント。これを使用すると、RユーザーはRコマンドおよびスクリプトを実行して、Oracleデータベースに格納されているデータの統計分析やグラフ分析ができます。

Pig

大規模なデータ・セットを分析するためのオープンソース・プラットフォームで、次のものから構成されます。

Pig Latinスクリプト言語
Pig LatinスクリプトをMapReduceジョブに変換するPigインタプリタ

Pigは、クライアント・アプリケーションとして動作します。

「MapReduce」も参照してください。

Puppet

クラスタ全体にソフトウェア・コンポーネントをデプロイおよび構成するための構成管理ツール。Oracle Big Data Applianceの初期ソフトウェア・インストールでは、Puppetを使用します。

Puppetツールは、Puppetエージェント(通常は単にPuppetと呼ばれる)、Puppetマスター・サーバー、コンソールおよびクラウド・プロビジョナの各コンポーネントで構成されます。

Puppetエージェント、Puppetマスターも参照してください。

Puppetエージェント

主にPuppetマスターから構成を取得して、それを適用するサービスです。Puppetエージェントは、Oracle Big Data Appliance内の各サーバー上で動作します。

Puppet、Puppetマスターも参照してください。

Puppetマスター

主に、Puppetエージェントに構成を提供するサービスです。

Puppet、Puppetエージェントも参照してください。

ResourceManager

タスクをCDHクラスタ内の特定のノード(データを格納するノードが望ましい)に割り当てるサービスです。YARNのみ。

「Hadoop」、「YARN」も参照してください。

Search

「Cloudera Search」を参照してください。

Sentry

「Apache Sentry」を参照してください。

Solr

「Apache Solr」を参照してください。

Spark

「Apache Spark」を参照してください。

Sqoop

「Apache Sqoop」を参照してください。

表

Hiveでは、HDFS内に格納されているディレクトリ内のすべてのファイルです。

「HDFS」も参照してください。

TaskTracker

各ノード上で実行され、JobTrackerサービスによって割り当てられたタスクを実行するサービスです。MRv1のみ。

「JobTracker」も参照してください。

Whirr

Apache Whirrは、クラウド・サービスを実行するための一連のライブラリです。

YARN

「Apache YARN」を参照してください。

ZooKeeper

CDHの分散プロセス向けのMapReduce 1の一元的なコーディネーション・サービスで、構成情報とネーミングを保持し、分散同期サービスとグループ・サービスを提供します。