雲端資料湖的建議模式

視您的使用案例而定,資料湖可以建立在物件儲存或 Hadoop 上。這兩者都可以與現有的企業資料和工具進行擴展和緊密整合。請考慮使用綠色欄位或您組織的移轉模式。根據您計畫完全新的實行或將現有的大數據解決方案移轉至 Oracle Cloud,選擇綠色欄位或移轉樣式。

下列工作流程會根據您的需求顯示建議的樣式。

data-lake-solution-pattern.png 的描述如下
data-lake-solution-pattern.png 圖解描述

備註:

本文件中,我們會根據 Hadoop (CDH) 的 Cloudera 發行套件,將 Big Data Appliance (BDA) 和 Big Data Cloud Services (BDCS) 叢集移轉至 OCI。不過,此處的建議適用於其他內部部署和雲端 Hadoop 發行套件。

在 Oracle Cloud 上建置新資料平台 (Greenfield)

您可以使用兩個選項在 Oracle Cloud 中建立格林值欄位專案的資料湖。HDFS 式資料湖請使用 Big Data Service (BDS)。針對以物件儲存為基礎的資料湖使用 OCI 雲端原生資料服務,而不使用 HDFS。

雲端原生資料服務

在 OCI 物件儲存中建立資料湖,並使用雲端原生資料與 AI 服務。這些服務包括資料流程資料整合、Autonomous Data Warehouse資料目錄以及資料學,以及一些其他部分。

Oracle 建議這些服務建立新的資料湖:

  • 物件儲存作為各種原始資料的資料湖存放區
  • Spark 批次處理與臨時 Spark 叢集的資料流程服務
  • 擷取資料和 ETL 工作的資料整合服務
  • 用於提供服務和呈現圖層資料的 Autonomous Data Warehouse (ADW)
  • 資料尋找與管控的資料目錄

Oracle 建議這些額外的服務來建立新的資料湖:

  • 即時資料之受管理擷取的串流服務
  • 用於單次大量傳輸資料的資料傳輸設備 (DTA) 服務
  • 「變更資料擷取 (CDC)」資料和串流分析的 GoldenGate 服務
  • 機器學習需求的資料科學服務
  • 適用於 BI、分析及報表需求的 Oracle Analytics Cloud (OAC) 服務

大數據服務

使用 Oracle Big Data Service (BDS) 在 HDFS 中建立您的資料湖。BDS 提供大多數常用的 Hadoop 元件,包括 HDFS、Hive、HBase、Spark 以及 Oozie。

Oracle 建議這些服務使用 Hadoop 叢集建立新的資料湖:

  • 擷取資料和 ETL 工作的資料整合服務
  • 用於單次大量傳輸資料的資料傳輸設備 (DTA) 服務
  • CDC 資料和串流分析的 GoldenGate 服務
  • 用於資料尋找與管控的資料目錄服務
  • 機器學習需求的資料科學服務
  • BI、分析及報表需求的 OAC 服務
  • HDFS 適用的 BDS 和其他 Hadoop 元件

綠色欄位樣式工作流程

當您建立新的資料湖時,請透過測試和驗證,遵循此工作流程的需求:

  1. 需求:列出 OCI 中新環境的需求
  2. 估:評估必要的 OCI 服務和工具
  3. 計:設計您的解決方案架構及調整 OCI 大小
  4. 劃:建立時間與資源的詳細計劃映射
  5. 建:佈建及設定 OCI 中的必要資源
  6. 行:實行您的資料和應用程式工作負載
  7. 自動化管線:協調與排定自動化的工作流程管線
  8. 測試並驗證:執行端對端解決方案的驗證、功能和效能測試

移轉 Oracle Cloud 上的現有資料平台

您可以將現有的 BDA、BDCS 和其他 Hadoop 叢集從內部部署或雲端環境移轉至 Oracle Cloud Infrastructure (OCI)。選擇下列其中一個否決的移轉樣式:重新建立、重新執行或重新管理,將現有的 Hadoop 叢集移轉至 Oracle 雲端資料湖

重建樣式

如果您不想使用 Hadoop 叢集,並且想要移轉至 Oracle Cloud Infrastructure (OCI) 中的雲端原生服務,請使用「重新建立」樣式。從清潔的斜線開始架構,並開始在 OCI 中從頭開始實行。針對堆疊中的所有主要元件運用受管理的雲端原生服務。例如,使用資料流程資料目錄、資料整合、串流處理、資料科學、ADW 以及 OAC 建立堆疊。

Oracle 建議將這些服務移轉至不含 Hadoop 叢集的雲端資料湖:

  • 作為所有原始資料類型之資料湖存放區的物件儲存服務

    備註:

    您可以將物件儲存與 HDFS 連線器搭配使用,作為 HDFS 存放區,以取代 Hadoop 或 Spark 叢集內的 HDFS。
  • 擷取資料和 ETL 工作的資料整合服務
  • 適用於即時資料受管理擷取的串流服務,可取代您自行管理的 Kafka 或 Flume 服務
  • 用於單次大量傳輸資料的資料傳輸設備
  • CDC 資料和串流分析的 GoldenGate
  • Spark 批次處理與臨時 Spark 叢集的資料流程服務
  • 用於提供服務和展示層資料的 ADW
  • 用於資料尋找與管控的資料目錄服務
  • 機器學習需求的資料科學服務
  • BI、分析及報表需求的 OAC 服務

重新計畫樣式

如果您想要在雲端使用 Hadoop 叢集,並以雲端原生服務取代部分元件,請使用 Replatform 移轉樣式。針對 HDFS 和其他 Hadoop 元件使用大數據服務,並使用我們的其他受管理雲端原生服務重新設計部分堆疊。

您可能需要重新設計堆疊,才能使用 Replatform 樣式。

  • 在 OCI 中包含無伺服器雲端原生服務與 BDS
  • 盡可能運用受管理的雲端原生服務

您可以根據需要來取代部分元件。

  • HDFS 和其他 Hadoop 元件 (例如 Hive、HBase、Kafka 以及 Oozie) 適用的 BDS
  • 擷取資料和 ETL 工作的資料整合服務
  • 用於單次大量傳輸資料的資料傳輸設備服務
  • CDC 資料和串流分析的 GoldenGate 服務
  • 用於資料尋找與管控的資料目錄服務
  • 機器學習需求的資料科學服務
  • BI、分析及報表需求的 OAC 服務

重新過帳模式

移轉您的 BDA、BDCS 和其他 Hadoop 叢集,以使用大數據服務 (BDS) 在 HDFS 中建立您的資料湖。使用「重新張貼」模式時,您可以使用提升與移位方法。BDS 提供的受管理 Hadoop 叢集中提供所有常用的 Hadoop 元件 (包括 HDFS、Hive、HBase、Spark 以及 Oozie)。

移轉樣式工作流程

當您將資料湖移轉至 Oracle Cloud 時,請透過切換至新環境,遵循此工作流程的需求。

  1. 尋找和需求:尋找並編製目前系統的目錄,以列出新 OCI 環境的需求
  2. 估:評估必要的 OCI 服務和工具
  3. 計:設計您的解決方案架構及調整 OCI 大小
  4. 劃:建立時間與資源的詳細計劃映射
  5. 建:佈建及設定 OCI 中的必要資源
  6. 移轉資料:將資料和中繼資料傳輸至選取的 OCI 服務資料儲存
  7. 移轉工作負載:使用您選取的移轉樣式,將您的工作負載和應用程式移轉至 OCI 服務
  8. 自動化管線:協調與排定自動化的工作流程管線
  9. 測試與驗證:規劃最終 OCI 環境的功能與效能測試與驗證
  10. 換:關閉來源環境並轉換成僅使用以 OCI 為基礎的新環境