プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

SparkおよびHadoopとのBDD統合

Hadoopには、BDDがデータの処理および管理に必要な多くのコンポーネントおよびツールが用意されています。 Hadoop Distributed File System (HDFS)にはソース・データが格納され、Hadoop SparkがYARN上に格納されて、すべてのデータ処理ジョブが実行されます。 この項では、BDDをSparkおよびHadoop環境に適合させる方法について説明します。

Hadoopは、あらゆる種類のデータの格納、アクセスおよび分析を行うためのプラットフォームです: 構成済、非構造化およびインターネットからのデータ。 IT組織、特に大量のデータを含む組織では広範囲に採用されています。

データ・サイエンティストとして、多くの場合、次の2種類のアナリティクス作業を行う必要があります:
  • 運用アナリティクスでは、モデル適合とそのアナリティクスを操作できます。 そのため、マシン指向モデル用のコードを記述し、そのモデルに対してスケールで問合せを発行し、リアルタイムの受信更新をデータに反映できます。 そのような作業には、Hadoopエコシステムへの依存が伴います。 Big Data Discoveryでは、Spark環境を離れずに、残りの作業が実行されるようにすることができます。 BDDでは、Hadoopデータに対して企業品質の高いビジネス・インテリジェンス機能が直接サポートされ、多数のコンカレント・リクエストが発生し、戻される結果の待機時間が短くなります。
  • 探索アナリティクスでは、アドホックな質問に回答して洞察を得るRなど、対話型の統計環境を使用できます。 また、BDDを使用すると、データをBDDからHadoopにエクスポートして、Hadoopデプロイメント内の他のツールをさらに調査することができます。

SparkとHadoopを密接に組み合せることで、Oracle Big Data Discoveryは、問合せ処理のパフォーマンスが高い、重要度に大きなスケールで任意のデータのデータ検出を実現します。

Hadoopディストリビューションについて

Big Data Discoveryは、HDFSに格納された大量のデータで動作します。 Hadoopディストリビューションは製品の前提条件で、製品によって提供される機能にとって重要です。

BDDは、特定のHadoopディストリビューションにパッケージ化されているHDFS、Hive、SparkおよびYARNコンポーネントを使用します。 Hadoopのバージョン・サポートおよびパッケージの詳細は、「インストレーション・ガイド」を参照してください。

Hadoopインフラストラクチャ内のBDD

Big Data Discoveryは、Hadoop内でネイティブに使用可能なデータを認識します。

BDDは、Hiveにある企業のデータ・ソースすべてのリストを保守し、HCatalogに登録されます。 新規データが到着すると、BDDはStudio 「カタログ」でデータをリストし、それをプロファイリングおよびエンリッチメント・メタデータで装飾します。さらに探索するためにこのデータを取得するときに、そのサンプルを取得します。 また、自動的に生成された、このデータの最も興味深い特徴を示す強力なビジュアライゼーションのリストを提供することで、ソース・データをさらに詳しく探索できます。 これにより、有用なソース・データ・セットを特定するのに要する時間やデータ・セットの準備時間を短縮でき、チームがアナリティクスに費やした時間が短縮され、インサイトや新しいアイデアを把握できます。

BDDは、Hadoopエコシステムの一部としてデータ・インフラストラクチャに埋め込まれます。 次のわかりやすく説明します:
  • BDDクラスタ・デプロイメント内のノードは、サイトの既存のHadoopクラスタとハードウェア・インフラストラクチャを共有できます。 サイトの既存のHadoopクラスタは、BDDのデータ処理中心のコンポーネントがデプロイされるHadoopノードのサブセットよりサイズが大きい場合があります。
  • ソースHive表がBDDによって検出されると、自動索引付け、データ・プロファイリングおよびエンリッチメントが実行されます。 これにより、データを分析する前に、従来の方法でデータをシステムにクリーニングおよびロードする必要がなくなります。
  • BDDは分散問合せの評価を高いスケールで実行し、分析中にデータと対話できるようにします。
    BDDのStudioコンポーネントも、Hadoop ecosystemの一部であるという利点を活用します:
    • この機能を使用すると、インサイトを処理する必要がなくなります。 - これは、データ検出、サンプリング、プロファイリングおよびエンリッチメントによって実現されます。
    • データ・セット間のリンクを作成できます。
    • Hadoopへのアクセスを、データ分析の追加処理エンジンとして利用します。

HadoopおよびSpark ecosystemとBDDの統合の利点

Big Data Discoveryは、探索、準備および分析するデータを格納する既存のHadoopクラスタのノードのサブセットに直接デプロイされます。

BDDにより、Hadoopクラスタ自体のデータを分析することで、企業のシステム間でのデータの移動コストがなくなります。 - 企業が数百テラ・バイトのデータの処理を開始した場合に非常に重要になるコスト。 さらに、HDFSとのBDDの緊密な統合によって、データが元のファイル形式でHadoopクラスタに入るとすぐに、プロファイリング、エンリッチおよび索引付けのデータが可能になります。 データ・セットを確認する時間によって、BDDはすでにデータ・セットを探索および分析用に準備しています。 BDDは、Sparkのリソース管理機能を利用して、最適なパフォーマンスと値を提供する様々なワークロード・クラスタを実行できるようにします。

最後に、HadoopエコシステムとBDDを直接統合することにより、BDDで行われたデータ準備と、Hadoop (ORAAH)用のOracle R Advanced Analyticsやその他のサード・パーティ・ツールなどのツールで行われた拡張データ分析との移行が合理化されます。 BDDを使用すると、クリーンアップされたサンプリング済データ・セットをHive表としてエクスポートし、ORAAHでの分析にすぐに使用できるようにできます。 BDDは、データをファイルとしてエクスポートし、Hadoopに登録することもできます。これにより、データを将来のカスタム分析に使用できるようになります。