瞭解如何使用 WANdisco LiveData Migrator 將 Hadoop 資料移轉到 Oracle
Oracle Cloud Infrastructure Lakehouse 提供多個 Oracle 雲端服務整合的平台,可輕鬆移轉資料和統一治理,並根據您的使用案例和偏好,提供使用最佳開放原始碼和商業工具的功能。
架構
WANdisco LiveData 移轉程式可將資料與描述資料的大型移動自動化,從現有的企業內部部署資料湖、Spark 及 Hadoop 環境到 Oracle Cloud Infrastructure (OCI)。運用 WANdisco 的 LiveData 功能,即可在來源資料經歷主動變更時進行資料移轉,而不需要任何生產系統停機或業務中斷,並且支援完整和連續的資料移轉。
下圖說明 OCI 現代化資料平台的功能架構。

Modern-data-platform.png 圖解說明
Modern-data-platform-oracle.zip
- 資料是從作業資料庫、企業應用系統、其他應用系統以及外部事件和感測器進行收集。
- 資料會透過 Oracle GoldenGate、Oracle Cloud Infrastructure Data Integration、合作夥伴應用系統 (例如 WANdisco) 及開源 App (例如 Apache 和 Kafka) 傳輸至 Oracle Cloud Infrastructure Lakehouse。
- OCI 和 OCI 之外的應用系統內 Oracle Analytics Cloud、Oracle Cloud Infrastructure Data Science、Oracle Cloud Infrastructure AI Services 以及 Oracle Machine Learning 都會使用資料。
此架構支援下列元件:
- Oracle Cloud Infrastructure GoldenGate
Oracle Cloud Infrastructure GoldenGate 是一個完全受管理的服務,可讓來自位於企業內部或任何雲端的資料來源擷取資料,運用 GoldenGate CDC 技術,即時且大規模地將資料擷取至 Oracle Autonomous Data Warehouse,讓用戶可以快速取得相關資訊。
- 整合
Oracle Integration 是一個完全託管的服務,可讓您整合應用系統、自動化流程、深入瞭解業務流程,以及建立視覺化應用系統。
- WANdisco LiveData 移轉程式
WANdisco LiveData 移轉程式可將資料與描述資料的大型移動自動化,從現有的企業內部部署資料湖、Spark 及 Hadoop 環境進行大規模的移轉,將即時資料從企業內部部署移轉到 OCI。LiveData 移轉程式不需要停機,因此會移轉在移轉前、移轉期間和移轉後對資料所做的變更。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一項自我驅動、自我保護、自我修復的資料庫服務,專為資料倉儲工作負載最佳化。您不需要設定或管理任何硬體,或安裝任何軟體。Oracle Cloud Infrastructure 可處理建立資料庫,以及備份、打補丁、升級和調整資料庫。
-
Oracle Cloud Infrastructure AI 服務
Oracle Cloud Infrastructure AI 服務是一個包含預先建置機器學習模型的服務集合,可讓開發者更輕鬆地將 AI 套用至應用系統和業務作業。您可以自訂模型,獲得更準確的業務結果。組織內的團隊可以跨服務重複使用模型、資料集和資料標籤。OCI AI 服務讓開發人員在不拖慢應用程式開發的情況下,輕鬆將機器學習新增至 App。
-
Oracle Machine Learning
Oracle Machine Learning 服務提供機器學習模型管理與部署 Oracle Autonomous Database 的通用架構。它不需要將資料移到專用的機器學習系統,就能加快對資料分析師建立及部署機器學習模型的速度。
- 物件儲存資料湖
物件儲存可讓您快速存取任意內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料,以及影像和影片等豐富內容。您可以安全地儲存資料,然後直接從網際網路或雲端平台內擷取資料。順暢調整儲存體,不會發生任何效能或服務可靠性的降低情形。使用標準的「熱門」儲存空間,快速、立即、經常存取。將封存儲存體用於您長期保留的「冷」儲存體,極少或罕見地存取。
資料湖是一種儲存結構化與非結構化資料的地方,也是一種從不同來源組織大量高度多樣化資料的方法。資料湖越來越重要,尤其是商業和技術方面,想要執行廣泛的資料探索和探索。將資料集中至單一位置或大部分位置,使資料變得更簡單。
- 資料目錄
Oracle Cloud Infrastructure 資料目錄是企業資料完全託管的自助服務資料探索與治理解決方案。它提供資料工程師、資料科學家、資料管理者以及資料主管的單一協同合作環境,用來管理組織的技術、業務和作業描述資料。
- 分析
Oracle Analytics Cloud 是一個可擴展且安全的公有雲服務,可讓商業分析師使用現代化的 AI 功能,提供資料準備、視覺化、企業報告、擴增分析和自然語言處理和世代的資料準備、增強功能。透過 Oracle Analytics Cloud,您還可以取得彈性的服務管理功能,包括快速設定、輕鬆調整規模並修正,以及自動化生命週期管理。
- Oracle Cloud Infrastructure Streaming 服務
Oracle Cloud Infrastructure Streaming 服務 (OSS) 提供完全託管、可擴展且持久的解決方案,可讓您即時擷取及使用大量資料串流。針對在發布 / 訂閱訊息傳遞模型中以持續且循序方式產生及處理資料的所有使用案例使用串流處理。
關於 Oracle Cloud Infrastructure Lakehouse
組織可以使用 Oracle Cloud Infrastructure Lakehouse 中完全託管的服務 (例如 Oracle Big Data Service 和 Oracle Cloud Infrastructure Data Flow),輕鬆移轉現有或建立新的開源資料湖。您可以在 OCI 上輕鬆部署及調整 Spark、HIVE、Hbase 及更多的服務。
Oracle Big Data Service 可依需求提供完全設定、安全、高可用性且專用的 Apache Hadoop 和 Spark 叢集。它提供常見的 Hadoop 元件,讓企業能夠輕鬆將工作負載搬移至雲端,並確保與企業內部部署解決方案的相容性。
Oracle Cloud Infrastructure Data Flow 是完全託管的無伺服器 Spark 服務,您可以將焦點放在具備零基礎架構概念的 Spark 工作負載。由於開發者能夠專注於 App 開發而非基礎架構管理,因此能夠快速交付應用程式。
許多組織打算移轉企業內部部署資料湖,以便運用 Oracle Cloud Infrastructure Lakehouse 架構。不過,若要將企業內部部署 Hadoop 環境的資料湖移轉至雲端,必須事先獲得適當的支援。
關於使用 LiveData Migrator 移轉 Apache Hadoop 資料
Apache Hadoop 資料移轉相當困難,因為這些系統通常會發生資料量和資料量變更。
傳統的資料移轉方法會依據為靜態資料傳輸設計的工具 (例如大量傳輸裝置或開放原始碼工具,例如 DistCp (分散式複製)。這些功能要求企業內部部署系統應停止運作,以防止移轉過程中發生資料變更,或要求負責移轉的人員識別變更,以及開發客製化解決方案來移轉新資料和變更的資料。這不僅增加了資料移轉的時間和風險,也由於業界分析師的緣故,將導致超過 60% 的資料移轉計畫隨時間推移、超過預算,或甚至一起失敗。
- Cloudera,包括 CDP (Cloudera Data Platform)
- CDH (Cloudera Data Hub)
- HDP (Hortonworks Data Platform) HDFS 2.6 和更新版本
來源系統可以執行於 Oracle Big Data Appliance 或自訂硬體組態。