クラウドベースのデータ・レイクの推奨パターン

ユースケースに応じて、データ・レイクをObject StorageまたはHadoop上に構築できます。どちらも、既存のエンタープライズ・データとツールと拡張し、シームレスに統合できます。組織のGreenfieldまたは移行パターンを考慮します。完全に新しい実装を計画するか、既存のビッグ・データ・ソリューションをOracle Cloudに移行するかに基づいて、Greenfieldまたは移行パターンを選択します。

次のワークフローは、要件に基づいて推奨されるパターンを示しています。

data-lake-solution-pattern.pngの説明が続きます
図data-lake-solution-pattern.pngの説明

ノート:

このドキュメントでは、Hadoop (CDH)のCloudera Distribution of Hadoop (CDH)に基づいて、Big Data Appliance (BDA)およびBig Data Cloud Services (BDCS)クラスタのOCIへの移行に重点を置いています。ただし、この推奨事項は、他のオンプレミスおよびクラウドのHadoopディストリビューションに適用されます。

Oracle Cloudで新たなデータ・プラットフォームを構築(未開拓領域)

Greenfieldプロジェクト用にOracle Cloudでデータ・レイクを構築するためのオプションは2つあります。HDFSベースのデータ・レイクにはビッグ・データ・サービス(BDS)を使用します。HDFSを使用せずに、オブジェクト・ストレージ・ベースのデータ・レイクにOCIクラウド・ネイティブ・データ・サービスを使用します。

Cloud Native Data Services

OCI Object Storageでデータ・レイクを構築し、Cloud Native Data and AIサービスを使用します。これらのサービスには、データ・フローデータ統合Autonomous Data Warehouseデータ・カタログおよびデータ・サイエンスが他にもいくつか含まれています。

Oracleでは、新しいデータ・レイクを構築するために次のサービスを推奨しています。

  • あらゆる種類のRAWデータに対応するデータ・レイク・ストアとしてのObject Storage
  • Sparkバッチ・プロセスおよびエフェメラルSparkクラスタのデータ・フロー・サービス
  • データ収集およびETLジョブ用のデータ統合・サービス
  • Autonomous Data Warehouse(ADW)でレイヤー・データを提供および提示
  • データ検出およびガバナンス用のデータ・カタログ

Oracleでは、新しいデータ・レイクを構築するために、次の追加サービスを推奨しています。

  • リアルタイム・データを管理するストリーミング・サービス
  • Data Transfer Appliance (DTA)サービスによる1回かぎりのデータ一括転送
  • 変更データ・キャプチャ(CDC)データとストリーミング分析用のGoldenGateサービス
  • 機械学習要件のためのデータ・サイエンス・サービス
  • BI、アナリティクスおよびレポート要件用のOracle Analytics Cloud (OAC)サービス

Big Data Service

Oracle Big Data Service (BDS)を使用して、HDFSでデータ・レイクを構築します。BDSは、HDFS、Hive、HBase、Spark、Oozieなど、最も一般的に使用されるHadoopコンポーネントを提供します。

Oracleでは、Hadoopクラスタを使用して新しいデータ・レイクを構築するために、次のサービスを推奨しています。

  • データ収集およびETLジョブ用のデータ統合・サービス
  • Data Transfer Appliance (DTA)サービスによる1回かぎりのデータ一括転送
  • GoldenGateサービス(CDCデータ用)とストリーミング分析用
  • データ検出およびガバナンス用のデータ・カタログ・サービス
  • 機械学習要件のためのデータ・サイエンス・サービス
  • BI、分析、レポート要件のためのOACサービス
  • HDFSおよびその他のHadoopコンポーネントのBDS

グリーンフィールド・パターン・ワークフロー

新しいデータ・レイクを構築する場合は、テストと検証を通じて、要件から次のワークフローに従ってください。

  1. 要件: OCIでの新規環境の要件をリストします
  2. 評価:必要なOCIサービスおよびツールの評価
  3. 設計:ソリューション・アーキテクチャを設計してOCIのサイズを設定
  4. 計画:時間とリソースをマップする詳細な計画を作成します。
  5. プロビジョニング: OCIで必要なリソースをプロビジョニングおよび構成します
  6. 実装:データおよびアプリケーション・ワークロードの実装
  7. パイプラインの自動化:自動化のためのワークフロー・パイプラインのオーケストレーションおよびスケジュール設定
  8. テストおよび検証:エンドツーエンド・ソリューションの検証、機能、パフォーマンス・テストを実行します。

Oracle Cloudで既存のデータ・プラットフォームを移行

既存のBDA、BDCSおよびその他のHadoopクラスタをオンプレミスまたはクラウド環境からOracle Cloud Infrastructure (OCI)に移行できます。Hadoopの既存のクラスタをOracleクラウドベースのデータ・レイクに移行するには、再構築、プラットフォームの再構築または再ホストのいずれかを選択します。

パターンの再構築

Hadoopクラスタを使用せず、Oracle Cloud Infrastructure (OCI)のクラウド・ネイティブ・サービスに移行する場合は、再構築パターンを使用します。クリーンなスライスから始めて、アーキテクトに最初からOCIで導入を始めます。スタック内のすべての主要コンポーネントに対して、マネージド型のクラウド・ネイティブ・サービスを利用できます。たとえば、データ・フローデータ・カタログデータ統合、ストリーミング、データ・サイエンス、ADWおよびOACを使用してスタックを構築します。

Oracleでは、Hadoopクラスタを使用せずに、次のサービスをクラウドベースのデータ・レイクに移行することをお薦めします。

  • あらゆる種類のRAWデータに対応するデータ・レイク・ストアとしてのObject Storageサービス

    ノート:

    オブジェクト・ストレージは、HDFSの代わりに、HadoopまたはSparkクラスタ内でHDFSストアとして、HDFSコネクタとともに使用できます。
  • データ収集およびETLジョブ用のデータ統合・サービス
  • リアルタイム・データを管理するストリーミング・サービスであり、自己管理型KafkaまたはFlumeサービスを置き換えることができます
  • 1回かぎりのデータ一括転送用データ転送アプライアンス
  • GoldenGate(CDCデータとストリーミング分析用)
  • Sparkバッチ・プロセスおよびエフェメラルSparkクラスタのデータ・フロー・サービス
  • ADWでレイヤー・データを提供およびプレゼンテーション
  • データ検出およびガバナンス用のデータ・カタログ・サービス
  • 機械学習要件のデータ・サイエンス・サービス
  • BI、分析、レポート要件のためのOACサービス

再プラットフォーム・パターン

クラウドでHadoopクラスタを使用し、一部のコンポーネントをクラウド・ネイティブ・サービスに置き換える場合は、プラットフォーム再構築移行パターンを使用します。HDFSおよびその他のHadoopコンポーネントに対してビッグ・データ・サービスを使用し、追加のマネージド・クラウド・ネイティブ・サービスを使用してスタックを再設計します。

再プラットフォーム・パターンを使用するには、スタックの再設計が必要になる場合があります。

  • OCIにBDSとともにサーバーレス・クラウド・ネイティブ・サービスを含める
  • 可能な場合、マネージド・クラウド・ネイティブ・サービスを活用

これらのコンポーネントの一部は必要に応じて置き換えることができます。

  • HDFSおよびその他のHadoopコンポーネント(Hive、HBase、KafkaおよびOozieなど)のBDS
  • データ収集およびETLジョブ用のデータ統合・サービス
  • 1回限りのデータ一括転送のためのData Transfer Applianceサービス
  • GoldenGateサービス(CDCデータ用)とストリーミング分析用
  • データ検出およびガバナンス用のデータ・カタログ・サービス
  • 機械学習要件のデータ・サイエンス・サービス
  • BI、分析、レポート要件のためのOACサービス

再ホスト・パターン

Big Data Service (BDS)を使用して、BDA、BDCSおよびその他のHadoopクラスタを移行し、HDFSでデータ・レイクを構築します。リホスト・パターンを使用する場合、リフト・アンド・シフト・アプローチを使用できます。HDFS、Hive、HBase、Spark、Oozieなどの一般的に使用されるすべてのHadoopコンポーネントは、BDSによって提供される管理対象Hadoopクラスタで使用できます。

移行パターン・ワークフロー

データ・レイクをOracle Cloudに移行する場合、このワークフローを要件から新しい環境に切り分けて実行します。

  1. 検出および要件:現在のシステムを検出およびカタログ化して、新しいOCI環境の要件をリストします
  2. 評価:必要なOCIサービスおよびツールの評価
  3. 設計:ソリューション・アーキテクチャを設計してOCIのサイズを設定
  4. 計画:時間とリソースをマップする詳細な計画を作成します。
  5. プロビジョニング: OCIで必要なリソースをプロビジョニングおよび構成します
  6. データの移行:選択したOCIサービスのデータ・ストレージへのデータおよびメタデータの転送
  7. ワークロードの移行:選択した移行パターンを使用してワークロードおよびアプリケーションをOCIサービスに移行します
  8. パイプラインの自動化:自動化のためのワークフロー・パイプラインのオーケストレーションおよびスケジュール設定
  9. テストおよび検証:最後のOCI環境の機能テストおよび検証を計画します。
  10. カット・オーバー:ソース環境をオフにして、新しいOCIベースの環境のみを使用するようカット・オーバーします