このトピックでは、BDDがHadoop環境にどのように適合するかについて説明します。
Hadoopは、ログやモノのインターネットのデータなど、構造化データ、非構造化データまたは他のデータを含むあらゆる種類のデータを格納、アクセスおよび分析するためのプラットフォームです。HadoopはIT組織によって幅広く採用されており、Hadoopプラットフォームに追加されるデータ・セットが急増しています。
Oracle Big Data DiscoveryをHadoopと組み合わせることにより、問合せ処理のパフォーマンスを高く維持しながら、非常に大規模なスケールであらゆるデータの検出を実現できます。
Big Data Discoveryは、Hadoop内でネイティブに使用可能なデータに自動的にアクセスします。
BDDでは、Hive内で見つかりHCatalogに登録されている会社のデータ・ソースすべてのリストが管理されます。新しいデータが到着すると、Studioのカタログ内にリストされ、プロファイリングおよびエンリッチメント・メタデータを使用して装飾され、このデータをさらなる調査のために選択すると、そのサンプルが作成されます。また、このデータについて最も関心のある特性を表すために自動的に生成される強力な可視化データが提供されるため、ソース・データをさらに調査することもできます。これにより、役に立つソース・データ・セットを識別するために費やされる時間や、データ・セットの準備にかかる時間を節約できるとともに、チームが洞察力を高めたり新しいアイデアを生み出すために行う分析に要する時間を増やすことが可能になります。
自動索引付け、データ・プロファイリングおよびエンリッチメントは、ソースHive表がBDDによって検出されたときに実行されます。これにより、データを分析する前にクリーニングしてシステムにロードするという従来の方法が不要になります。
BDDでは、分散問合せ評価が大きいスケールで実行されるため、データを分析しながら操作できます。
Big Data Discoveryは、調査、準備および分析するデータを格納する既存のCDHクラスタ内のノードのサブセットに直接デプロイされます。
BDDでは、Hadoopクラスタ自体のデータを分析することにより、企業の各システムの周囲に存在するデータの移動に要するコスト(企業が数百TBのデータの処理を開始する際に法外に高くなるコスト)が解消されます。また、BDDをHDFSと密接に統合することにより、データが元のファイル形式でHadoopクラスタ内に入力されると同時にデータのプロファイリング、エンリッチメントおよび索引付けが可能になります。データ・セットを参照しようと思ったときには、すでに調査および分析の準備が整っています。BDDでは、Hadoopのリソース管理機能が活用されるため、混合ワークロード・クラスタを実行し、最適なパフォーマンスと価値を実現できます。
最後に、BDDをHadoopエコシステムと直接統合することにより、BDDで行われるデータ準備と、Oracle R Advanced Analytics for Hadoop (ORAAH)や他のサードパーティ・ツールなどのツールで行われる詳細なデータ分析との間の移行がスムーズになります。BDDでは、クリーニングおよびサンプリングされたデータ・セットをHive表としてエクスポートできるため、ユーザーがORAAHで即時使用することが可能になります。BDDではまた、データをファイルとしてエクスポートしてHadoopに登録できるため、将来のカスタム分析でも使用可能になります。
Big Data Discoveryでは、HDFS内にすでに格納されている可能性がある大量のデータを処理できます。Hadoopディストリビューションはこの製品の前提条件であり、この製品に用意されている機能に不可欠です。Cloudera CDHは、Apache Hadoopおよびその関連プロジェクトのうち、世界中で最も普及している信頼性の高い完全なディストリビューションです。CDHはApacheによって100%ライセンスされたオープン・ソースであるとともに、統合バッチ処理、インタラクティブSQL、インタラクティブ検索およびロールベースのアクセス制御を実現できる唯一のHadoopソリューションです。
CDHは、スケーラブルな記憶域および分散コンピューティングといったHadoopのコア要素とともに、追加コンポーネント(ユーザー・インタフェースなど)や、企業に必要な機能(セキュリティなど)を提供します。特に、BDDでは、HDFS、Hive、OozieおよびSparkコンポーネントを使用します。これらはすべて、使いやすいWebユーザー・インタフェースとともにCDHディストリビューション内にパッケージ化されています。