WANdisco LiveData MigratorによるHadoopデータのOracleへの移行の自動化について学ぶ
Oracle Cloud Infrastructure Lakehouseは、複数のOracleクラウド・サービスの統合プラットフォームを提供し、簡単に移動できるデータと統合ガバナンスを実現し、ユース・ケースおよびプリファレンスに基づいて最適なオープンソースおよび商用ツールを使用できます。
アーキテクチャ
WANdisco LiveData Migratorは、既存のオンプレミス・データ・レイク、SparkおよびHadoop環境からOracle Cloud Infrastructure (OCI)へのデータおよびメタデータの大規模移動を自動化します。WANdiscoのLiveData機能を活用すると、ソース・データがアクティブな変更中、本番システムの停止時間やビジネス中断を必要とせずにデータ移行が発生し、完全で継続的なデータ移行をサポートできます。
次の図は、OCIの最新データ・プラットフォームの機能アーキテクチャを示しています。

図modern-data-platform.pngの説明
Modern-data-platform-oracle.zip
- データは、運用データベース、エンタープライズ・アプリケーション、その他のアプリケーション、外部のイベントやセンサーから収集されます。
- データは、Oracle GoldenGate、Oracle Cloud Infrastructure Data Integration、WANdiscoなどのパートナ・アプリケーションおよびApacheやKafkaなどのオープン・ソース・アプリケーションを通じてOracle Cloud Infrastructure Lakehouseに転送されます。
- データは、OCI内のOracle Analytics Cloud、Oracle Cloud Infrastructure Data Science、Oracle Cloud Infrastructure AI ServicesおよびOracle Machine Learningによって、OCI外のアプリケーションによって使用されます。
このアーキテクチャでは、次のコンポーネントがサポートされます。
- Oracle Cloud Infrastructure GoldenGate
Oracle Cloud Infrastructure GoldenGateは、オンプレミスまたは任意のクラウドに存在するソースからのデータの取込みを可能にするフルマネージド・サービスであり、GoldenGate CDCテクノロジを活用して、Oracle Autonomous Data Warehouseへのデータの取込みと配信をリアルタイムおよび大規模にリアルタイムで効率よく取得し、関連情報をコンシューマにできるだけ迅速に提供できるようにします。
- 統合
Oracle Integrationは、アプリケーションの統合、プロセスの自動化、ビジネス・プロセスに関するインサイトの取得、およびビジュアル・アプリケーションの作成が可能な完全管理サービスです。
- WANdisco LiveDataマイグレータ
WANdisco LiveData Migratorは、既存のオンプレミス・データ・レイク、SparkおよびHadoop環境からのデータおよびメタデータの大規模な移動を自動化して、オンプレミスからライブ・データを大規模に移行します。LiveData Migratorは停止時間を必要とせず、移行前、移行中および移行後にデータに加えられた変更を移行します。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouseは、データ・ウェアハウス・ワークロード向けに最適化された、自動運転、自己保護、自己修復が可能なデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成、およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングが処理されます。
-
Oracle Cloud Infrastructure AIサービス
Oracle Cloud Infrastructure AI Servicesは、開発者がアプリケーションや事業運営にAIを簡単に適用できるようにする、事前構築済の機械学習モデルを備えたサービスのコレクションです。モデルはカスタム・トレーニングが可能で、より正確なビジネス結果を得ることができます。組織内のチームは、サービス間でモデル、データセットおよびデータ・ラベルを再利用できます。OCI AI Servicesにより、開発者はアプリケーション開発を遅くすることなく、簡単に機械学習をアプリに追加できます。
-
Oracle Machine Learning
Oracle Machine Learningサービスは、Oracle Autonomous Databaseでの機械学習モデルの管理およびデプロイメントのための共通フレームワークを提供します。データ・サイエンティスト向けの機械学習モデルの作成とデプロイメントを加速し、データを専用機械学習システムに移動する必要性を排除します。
- Object Storageデータ・レイク
オブジェクト・ストレージを使用すると、データベース・バックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データにすばやくアクセスできます。安全かつセキュアに保存して、インターネットから直接またはクラウド・プラットフォーム内部からデータを取得できます。パフォーマンスまたはサービスの信頼性を低下させることなく、シームレスにストレージを拡張できます。迅速、即時、頻繁にアクセスする必要があるホット・ストレージには、標準ストレージを使用します。長期間保持し、めったにアクセスしない「コールド」ストレージにはアーカイブ・ストレージを使用します。
データ・レイクは、構造化データおよび非構造化データを格納する場所であり、多様なソースから大量に多様なデータを編成する手段でもあります。データ・レイクは、個人、特にビジネスとテクノロジにおいて、広範なデータ探索と発見の実行が望まれているため、ますます重要になっています。データを1か所にまとめて、そのほとんどを1か所にまとめると、簡単になります。
- データ・カタログ
Oracle Cloud Infrastructureデータ・カタログは、エンタープライズ・データの完全管理のセルフサービス・データ検出およびガバナンス・ソリューションです。データ・エンジニア、データ・サイエンティスト、データ・スチュワードおよびチーフ・データ担当者は、組織の技術メタデータ、ビジネス・メタデータおよび運用メタデータを管理するための単一のコラボレーション環境を提供します。
- 「アナリティクス」
Oracle Analytics Cloudは、スケーラブルでセキュアなパブリック・クラウド・サービスであり、最新のAI駆動のセルフサービス・アナリティクス機能を使用して、データ準備、ビジュアライゼーション、エンタープライズ・レポート、拡張分析および自然言語処理と生成を実現します。Oracle Analytics Cloudには、高速設定、容易なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も用意されています。
- Oracle Cloud Infrastructure Streamingサービス
Oracle Cloud Infrastructure Streamingサービス(OSS)は、大量のデータ・ストリームをリアルタイムで取り込んで消費するための、スケーラブルで耐久性の高い完全に管理されたソリューションです。Streamingは、パブリッシュ/サブスクライブのメッセージング・モデルでデータが連続して順番に生成され、処理されるユースケースに使用します。
Oracle Cloud Infrastructure Lakehouseについて
組織は、Oracle Cloud Infrastructure Lakehouseで既存のオープン・ソース・データ・レイクを簡単に移行したり、Oracle Big Data ServiceやOracle Cloud Infrastructure Data Flowなどの完全に管理されたサービスを使用して新しいオープン・ソース・データ・レイクを構築できます。Spark、HIVE、Hbaseなど、多くのサービスを簡単にOCIにデプロイしてスケーリングできます。
Oracle Big Data Serviceでは、完全に構成された、セキュアで高可用性を備えた専用Apache HadoopクラスタとSparkクラスタが、必要に応じて提供されます。企業がワークロードをクラウドに移行しやすくなり、オンプレミス・ソリューションとの互換性を確保するために、一般的に使用されるHadoopコンポーネントが提供されます。
Oracle Cloud Infrastructure Data Flowは、完全に管理されたサーバーレスSparkサービスであり、インフラストラクチャ概念がゼロのSparkワークロードに集中できます。開発者はインフラストラクチャ管理ではなくアプリケーション開発に重点を置くことができるため、迅速なアプリケーション提供が可能になります。
多くの組織は、オンプレミスのデータ・レイクを移行してOracle Cloud Infrastructure Lakehouseアーキテクチャを活用しようとしています。ただし、オンプレミスHadoop環境からクラウドへのデータ・レイクの移行は、適切なサポートがなければ困難になる可能性があります。
LiveData Migratorを使用したApache Hadoopデータの移行について
Apache Hadoopデータ移行は、通常、これらのシステムで発生するデータの量およびデータの量変更のために困難です。
従来のデータ移行アプローチは、一括転送デバイスやDistCp (分散コピー)などのオープンソース・ツールなど、静的データ転送用に設計されたツールを利用します。これらは、移行プロセス中にデータ変更が行われないようにオンプレミス・システムを停止するか、移行の責任者が変更を識別して、新しいデータおよび変更されたデータを移行するためのカスタム・ソリューションを開発する必要があるかのいずれかです。これにより、データ移行に時間とリスクが加わり、業界アナリストによると、時間の経過、予算の超過または完全に失敗するデータ移行イニシアチブの60%以上になります。
- Cloudera(CDPを含む) (Cloudera Data Platform)
- CDH(Cloudera Data Hub)
- HDP (Hortonworks Data Platform) HDFSバージョン2.6以上
ソース・システムは、Oracle Big Data Applianceまたはカスタム・ハードウェア構成で実行できます。