クラウドベースのデータ・レイクの推奨パターン
ユースケースに応じて、データ・レイクをObject StorageまたはHadoop上に構築できます。どちらも、既存のエンタープライズ・データとツールと拡張し、シームレスに統合できます。組織のGreenfieldまたは移行パターンを考慮します。完全に新しい実装を計画するか、既存のビッグ・データ・ソリューションをOracle Cloudに移行するかに基づいて、Greenfieldまたは移行パターンを選択します。
次のワークフローは、要件に基づいて推奨されるパターンを示しています。

図data-lake-solution-pattern.pngの説明
ノート:
このドキュメントでは、Hadoop (CDH)のCloudera Distribution of Hadoop (CDH)に基づいて、Big Data Appliance (BDA)およびBig Data Cloud Services (BDCS)クラスタのOCIへの移行に重点を置いています。ただし、この推奨事項は、他のオンプレミスおよびクラウドのHadoopディストリビューションに適用されます。
Oracle Cloudで新たなデータ・プラットフォームを構築(未開拓領域)
Greenfieldプロジェクト用にOracle Cloudでデータ・レイクを構築するためのオプションは2つあります。HDFSベースのデータ・レイクにはビッグ・データ・サービス(BDS)を使用します。HDFSを使用せずに、オブジェクト・ストレージ・ベースのデータ・レイクにOCIクラウド・ネイティブ・データ・サービスを使用します。
Cloud Native Data Services
OCI Object Storageでデータ・レイクを構築し、Cloud Native Data and AIサービスを使用します。これらのサービスには、データ・フロー、データ統合、Autonomous Data Warehouse、データ・カタログおよびデータ・サイエンスが他にもいくつか含まれています。
Oracleでは、新しいデータ・レイクを構築するために次のサービスを推奨しています。
- あらゆる種類のRAWデータに対応するデータ・レイク・ストアとしてのObject Storage
- Sparkバッチ・プロセスおよびエフェメラルSparkクラスタのデータ・フロー・サービス
- データ収集およびETLジョブ用のデータ統合・サービス
- Autonomous Data Warehouse(ADW)でレイヤー・データを提供および提示
- データ検出およびガバナンス用のデータ・カタログ
Oracleでは、新しいデータ・レイクを構築するために、次の追加サービスを推奨しています。
- リアルタイム・データを管理するストリーミング・サービス
- Data Transfer Appliance (DTA)サービスによる1回かぎりのデータ一括転送
- 変更データ・キャプチャ(CDC)データとストリーミング分析用のGoldenGateサービス
- 機械学習要件のためのデータ・サイエンス・サービス
- BI、アナリティクスおよびレポート要件用のOracle Analytics Cloud (OAC)サービス
Big Data Service
Oracle Big Data Service (BDS)を使用して、HDFSでデータ・レイクを構築します。BDSは、HDFS、Hive、HBase、Spark、Oozieなど、最も一般的に使用されるHadoopコンポーネントを提供します。
Oracleでは、Hadoopクラスタを使用して新しいデータ・レイクを構築するために、次のサービスを推奨しています。
- データ収集およびETLジョブ用のデータ統合・サービス
- Data Transfer Appliance (DTA)サービスによる1回かぎりのデータ一括転送
- GoldenGateサービス(CDCデータ用)とストリーミング分析用
- データ検出およびガバナンス用のデータ・カタログ・サービス
- 機械学習要件のためのデータ・サイエンス・サービス
- BI、分析、レポート要件のためのOACサービス
- HDFSおよびその他のHadoopコンポーネントのBDS
グリーンフィールド・パターン・ワークフロー
新しいデータ・レイクを構築する場合は、テストと検証を通じて、要件から次のワークフローに従ってください。
- 要件: OCIでの新規環境の要件をリストします
- 評価:必要なOCIサービスおよびツールの評価
- 設計:ソリューション・アーキテクチャを設計してOCIのサイズを設定
- 計画:時間とリソースをマップする詳細な計画を作成します。
- プロビジョニング: OCIで必要なリソースをプロビジョニングおよび構成します
- 実装:データおよびアプリケーション・ワークロードの実装
- パイプラインの自動化:自動化のためのワークフロー・パイプラインのオーケストレーションおよびスケジュール設定
- テストおよび検証:エンドツーエンド・ソリューションの検証、機能、パフォーマンス・テストを実行します。
Oracle Cloudで既存のデータ・プラットフォームを移行
パターンの再構築
Hadoopクラスタを使用せず、Oracle Cloud Infrastructure (OCI)のクラウド・ネイティブ・サービスに移行する場合は、再構築パターンを使用します。クリーンなスライスから始めて、アーキテクトに最初からOCIで導入を始めます。スタック内のすべての主要コンポーネントに対して、マネージド型のクラウド・ネイティブ・サービスを利用できます。たとえば、データ・フロー、データ・カタログ、データ統合、ストリーミング、データ・サイエンス、ADWおよびOACを使用してスタックを構築します。
Oracleでは、Hadoopクラスタを使用せずに、次のサービスをクラウドベースのデータ・レイクに移行することをお薦めします。
- あらゆる種類のRAWデータに対応するデータ・レイク・ストアとしてのObject Storageサービス
ノート:
オブジェクト・ストレージは、HDFSの代わりに、HadoopまたはSparkクラスタ内でHDFSストアとして、HDFSコネクタとともに使用できます。 - データ収集およびETLジョブ用のデータ統合・サービス
- リアルタイム・データを管理するストリーミング・サービスであり、自己管理型KafkaまたはFlumeサービスを置き換えることができます
- 1回かぎりのデータ一括転送用データ転送アプライアンス
- GoldenGate(CDCデータとストリーミング分析用)
- Sparkバッチ・プロセスおよびエフェメラルSparkクラスタのデータ・フロー・サービス
- ADWでレイヤー・データを提供およびプレゼンテーション
- データ検出およびガバナンス用のデータ・カタログ・サービス
- 機械学習要件のデータ・サイエンス・サービス
- BI、分析、レポート要件のためのOACサービス
再プラットフォーム・パターン
クラウドでHadoopクラスタを使用し、一部のコンポーネントをクラウド・ネイティブ・サービスに置き換える場合は、プラットフォーム再構築移行パターンを使用します。HDFSおよびその他のHadoopコンポーネントに対してビッグ・データ・サービスを使用し、追加のマネージド・クラウド・ネイティブ・サービスを使用してスタックを再設計します。
再プラットフォーム・パターンを使用するには、スタックの再設計が必要になる場合があります。
- OCIにBDSとともにサーバーレス・クラウド・ネイティブ・サービスを含める
- 可能な場合、マネージド・クラウド・ネイティブ・サービスを活用
これらのコンポーネントの一部は必要に応じて置き換えることができます。
- HDFSおよびその他のHadoopコンポーネント(Hive、HBase、KafkaおよびOozieなど)のBDS
- データ収集およびETLジョブ用のデータ統合・サービス
- 1回限りのデータ一括転送のためのData Transfer Applianceサービス
- GoldenGateサービス(CDCデータ用)とストリーミング分析用
- データ検出およびガバナンス用のデータ・カタログ・サービス
- 機械学習要件のデータ・サイエンス・サービス
- BI、分析、レポート要件のためのOACサービス
再ホスト・パターン
Big Data Service (BDS)を使用して、BDA、BDCSおよびその他のHadoopクラスタを移行し、HDFSでデータ・レイクを構築します。リホスト・パターンを使用する場合、リフト・アンド・シフト・アプローチを使用できます。HDFS、Hive、HBase、Spark、Oozieなどの一般的に使用されるすべてのHadoopコンポーネントは、BDSによって提供される管理対象Hadoopクラスタで使用できます。
移行パターン・ワークフロー
データ・レイクをOracle Cloudに移行する場合、このワークフローを要件から新しい環境に切り分けて実行します。
- 検出および要件:現在のシステムを検出およびカタログ化して、新しいOCI環境の要件をリストします
- 評価:必要なOCIサービスおよびツールの評価
- 設計:ソリューション・アーキテクチャを設計してOCIのサイズを設定
- 計画:時間とリソースをマップする詳細な計画を作成します。
- プロビジョニング: OCIで必要なリソースをプロビジョニングおよび構成します
- データの移行:選択したOCIサービスのデータ・ストレージへのデータおよびメタデータの転送
- ワークロードの移行:選択した移行パターンを使用してワークロードおよびアプリケーションをOCIサービスに移行します
- パイプラインの自動化:自動化のためのワークフロー・パイプラインのオーケストレーションおよびスケジュール設定
- テストおよび検証:最後のOCI環境の機能テストおよび検証を計画します。
- カット・オーバー:ソース環境をオフにして、新しいOCIベースの環境のみを使用するようカット・オーバーします