Hadoopベースのデータ・レイクについて学ぶ

Oracle Big Data Serviceは、Apache Ambari、Apache Hadoop、Apache HBase、Apache Hive、Apache Spark、およびビッグ・データを操作および保護するためのその他のサービスを含むHadoopスタックを提供します。

Big Data Serviceは、企業がワークロードをクラウドに移行し、オンプレミス・ソリューションとの互換性を保証することをシンプルにします。これにより、データをObject Storageに移行し、コストを節約でき、コンピュート・リソースをストレージから切り離すことができます。BDSには、OCIコンソール、OCI CLI、REST APIまたはSDKを使用してアクセスできます。BDSクラスタにデプロイされているものをカスタマイズするための完全なアクセス権が付与されます。

Oracle Cloud SQLは、HDFS、Kafkaおよびオブジェクト・ストレージのデータに対してOracle SQL問合せを開始できる、使用可能なアドオン・サービスです。すべてのユーザー、アプリケーションまたはアナリティクス・ツールがデータ・ストアと連携して、データの移動を最小限に抑え、問合せを高速化できます。BDSは、データ統合、データ・サイエンスおよびその他の分析サービスで動作します。開発者は、Oracle SQLを使用してデータにアクセスできます。企業はデータのサイロを排除し、データ・レイクを他の企業のデータ・ソースから分離しないようにすることができます。

データ・レイクハウスについて

Oracle Lakehouseパターンは、データ・ウェアハウスおよびデータ・レイクの最適な要素を組み合せたものです。複数のOracleクラウド・サービスが連携してデータの移動、統一されたガバナンスとともに動作する統合プラットフォームを提供し、ユース・ケースやプリファレンスに基づいて最適なオープン・ソースおよび商用ツールを使用できます。

data-lake-house.pngの説明が続きます
図data-lake-house.pngの説明

Oracle Lakehouseのパターンの主要要素には次のものがあります。

  • データ・ウェアハウスとデータ・レイク・パターンの統合。
  • データのサイロ化を解消-必要に応じてウェアハウスとレイクの間でデータを簡単に移行。
  • メタデータとガバナンスの統合
  • 一般的なオープン・ソース・ツールおよび商用ツールのサポート。
  • 様々なデータ・ソース、データ・フォーマットおよびデータ・タイプ(構造化、半構造化、非構造化)のサポート
  • ビッグ・データ・アナリティクス、SQLおよびBI、データ・サイエンス、機械学習など、多様なデータ・コンシューマとワークロードをサポートします。

このプレイブックで使用されるプラットフォームの主要なサービスは次のとおりです。

ビッグ・データ

Oracle Big Dataは、Hadoop環境をクラスタで提供します。ビッグ・データにより、Hadoopクラスタを高可用性および安全にするプロセスが簡略化されます。Oracleのベスト・プラクティスに基づき、ビッグ・データは高可用性とセキュリティを実装し、高度なHadoopスキルの必要性を低減します。ビッグ・データは、一般的に使用されるHadoopコンポーネントを提供するため、企業がワークロードをクラウドに移行し、オンプレミス・ソリューションとの互換性を確保することができます。

データ・カタログ

Oracle Cloud Infrastructureデータ・カタログは、エンタープライズ・データの完全管理のセルフサービス・データ検出およびガバナンス・ソリューションです。データ・カタログは、分析するデータを検索および検索するために不可欠です。データ・プロフェッショナルがデータの発見とデータ・ガバナンスのサポートを支援します。

データ・カタログを単一のコラボレーション環境として使用し、技術、ビジネスおよび運用メタデータを管理します。パブリックまたはプライベートIPアドレスを使用してアクセス可能な、サポートされている様々なデータ・ソースから技術メタデータを収集できます。このメタデータを整理、検索、アクセス、理解、拡張およびアクティブ化できます。オンデマンドまたはスケジュールベースの自動収集を利用して、データ・カタログが常に最新情報を持つようにします。Oracle Cloudのセキュリティ、信頼性、パフォーマンスおよびスケールのすべてを享受できます。

データ・フロー

Oracle Cloud Infrastructure Data Flowは、Apache Sparkアプリケーションを実行するための完全に管理されたサービスです。データ・フロー・アプリケーションは、Sparkアプリケーション、その依存性、デフォルト・パラメータおよびデフォルトの実行時リソース指定で構成される再利用可能なテンプレートです。APIゲートウェイおよび使用可能なファンクションを介してREST APIを使用して、データ・フローとアプリケーション開発ライフサイクルのすべての側面を管理し、Apache Sparkジョブをトラッキングおよび実行することができます。

データ・フローでは、開発者がアプリケーション開発に重点を置くことができるため、迅速なアプリケーション配信がサポートされます。アプリケーションを実行するためのログ管理および実行時環境を提供します。アプリケーションとワークフローを統合し、ユーザー・インタフェースを介してAPIにアクセスできます。インフラストラクチャ、クラスタ・プロビジョニング、ソフトウェアのインストール、ストレージ、セキュリティを設定する必要がなくなります。

Autonomous Data Warehouse

Oracle Autonomous Data Warehouseは、データ・ウェアハウスのワークロード用に最適化された、自動運転、自己保護および自己修復が可能なデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成、およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングを処理します。

データ統合

Oracle Cloud Infrastructure Data Integrationは、データ・サイエンスとアナリティクスのデータを取り込み、変換するための完全管理型のサーバーレス・クラウド・サービスです。データ統合により、Oracleのデータ・フロー・デザイナを使用したデータ・サイエンスと分析用のデータ・レイクとウェアハウスに、複雑なデータ抽出、変換およびロード・プロセス(ETL/E-LT)を簡略化できます。ルールベースの統合フローにより、自動化されたスキーマ・ドリフト保護が提供されるため、統合フローの中断を回避し、データ・スキーマの進化に伴ってメンテナンスを削減できます。

データ・サイエンス

Oracle Cloud Infrastructure Data Scienceは、Oracle Cloud Infrastructureで機械学習モデルの作成、トレーニング、デプロイおよび管理を行うための、完全に管理されたサーバーレス・プラットフォームです。データ・サイエンティストは、Oracleによって拡張されたOracleのAccelerated Data Science (ADS)ライブラリを自動機械学習(AutoML)、モデル評価およびモデルの説明に使用できます。

「アナリティクス」

Oracle Analytics Cloudは、コラボレーティブな分析を調査および実行するための完全な機能をユーザー、ワークグループおよびエンタープライズに提供する、スケーラブルで安全なパブリック・クラウド・サービスです。Oracle Analytics Cloudには、迅速なセットアップ、容易なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能もあります。