選取解決方案樣式的考量

在雲端實行資料湖時,請考量我們建議的設計樣式,將您目前的資料湖移轉至 Oracle Cloud。

準備移轉專案

將資料移轉至 Oracle Cloud 時,您應該規劃您的專案與人員配置。收集網路和儲存的相關資訊,並在選取解決方案樣式之前加權優勢和缺點。為移轉範圍中的系統和應用程式建立高階描述。

請根據您的環境、時間表及團隊的技能層次考慮我們的建議。

規劃您的專案與範圍。識別您的專案團隊,包括專案管理員、應用程式擁有者、大數據工程師、基礎架構與安全性的 OCI 工程師,以及開發人員。確定您包括應用程式開發人員和效能,以及測試工程師。決定關鍵日期與專案里程碑。

請使用下列範例來建立系統和應用程式的高階描述。

元件 說明
大數據設備 (BDA)

正在執行發行 CDH 的 BDA 設備

24 節點 BDA (6x Dev、6x DR、12x Prod)

  • 2x 22-Core Xeon
  • 2x40 IB、4x10 Ethernet
  • 96 TB 磁碟和 256 GB RAM
用途
  • 300TB HDFS (擷取 500 GB/天)
  • 30% CPU
  • 1 TB RAM
  • 線上 24x7
環境

生產、開發、災害復原

解決方案元件
  • Hive
  • HBase
  • HDFS
  • Spark (Scala)
  • Kerberos 和 Active Directory
  • Sqoop
  • Oozie
  • 分析:OBIEE
  • 連線至外部來源的 JDBC 驅動程式

網路和儲存的注意事項

規劃資料湖移轉時,請收集所有網路和儲存資產的相關資訊,並決定將資料移轉至 OCI 最合適的方法。

下表提供 OCI 資料移轉選項的一般高階指引。

移轉來源 資料磁碟區< 1 TB 資料量介於 1 到 50 TB 之間 資料磁碟區> 50 TB
Big Data Appliance (BDA) 或企業內部部署自行管理的 Hadoop 叢集

硬體 VPN 通道

(如果無法使用 FastConnect)

FastConnect (偏好)

如果頻寬大於 100 Mbps,就可以使用硬體 VPN 通道
資料傳輸設備
Big Data Cloud Service (BDCS) 軟體 VPN 通道

根據您的組織需求與限制,選取其中一個選項。資料傳輸所需的時間取決於您選擇的移轉方法。

  • 對於使用單一資料傳輸設備的離線傳輸,一次最多可以傳輸 150 TB 的資料,每個資料傳輸工作可以傳輸多個設備。包含出貨時間,移轉需要幾天才能完成。
  • 若要使用 VPN 通道或 FastConnect 透過網際網路進行線上資料傳輸,您可以使用此公式取得大約所需的時間:

    Number of days = (Total Bytes)/(Megabits per second * 125 * 1000 * Network Utilization * 60 seconds * 60 minutes * 24 hours)

    使用此公式可透過 100%的網路使用率,以 1 Gbps FastConnect 連線傳輸高達 50 TB 的資料,資料傳輸將在 6 天內完成。如果已設定較低的磁碟區,您也可以使用 FastConnect。使用 10 Gbps FastConnect 時,時間將是 1/10th。

  • 對於以 10 個 Mbps 連線和 80%網路使用量傳輸 1 TB 的 VPN 通道,資料傳輸將需要約 13 天。或者,如果您的網路連線低於此連線能力或非常可靠,請使用資料傳輸設備。

下表根據資料集的連線頻寬和大小,顯示 OCI 的大約資料上傳時間。

資料集大小 10 Mbps 100 Mbps 1 Gbps 10 Gbps 資料傳輸服務
10 TB 92 天 9 天 22 小時 2 小時 1 週
100 TB 1,018 天 101 天 10 天 24 小時 1 週
500 TB 5,092 天 509 天 50 天 5 天 1 週
1 PB 10,185 天 1,018 天 101 天 10 天 2 週

設計解決方案架構

規劃解決方案模式時,請考量下表中的優點與缺點,然後再做決定。

解決方案樣式 優點 缺點
雲端原生項目 (Greenfield)
  • 您可以轉換成現代和未來的堆疊
  • 持續最少的營運與管理負荷
  • 大多數客戶的最大投資報酬率 (ROI) 與最低成本選項
  • 某些功能可能會有間隔需要您自己導入的特定元件
  • 實行所需的工作多於部分其他樣式
大數據服務 (Greenfield)
  • 您可以利用受管理的資料與 AI 服務,從降低成本與營運經常費用獲益
  • 當您轉換成 Oracle Cloud 時,可作為長期與短期解決方案
  • 實行所需的工作多於部分其他樣式
重建 (移轉)
  • 您可以轉換成現代和未來的堆疊
  • 持續最少的營運與管理負荷
  • 大部分客戶的最大投資報酬率與最低成本選項
  • 您可能需要自行實行某些元件的功能可能會有差異
  • 實行所需的工作多於部分其他樣式
重新計畫表單 (移轉)
  • 您可以利用受管理的資料與 AI 服務,從降低成本與營運經常費用獲益
  • 轉換成 Oracle Cloud 時,可作為長期與短期解決方案
  • 實行所需的工作多於部分其他樣式
重新張貼 (移轉)
  • 功能最小中斷
  • 使用狀況檢視點沒有可學習的新功能
  • 您的營運與支援責任增加
  • 現有的授權可能無效

解決方式模式選取的複查條件

當您決定最適合組織使用的模式時,請考慮這些條件。考慮條件,例如現代化的相對程度、投資報酬率 (ROI) 及所有權成本總計 (TCO) 節省金額、簡化與持續時間、持續成本、營運效率、彈性、擴展性、可用性及現有代碼的相對變更。

下表列出一些高階條件,以協助您決定哪些模式符合您組織的需求。

解決方案樣式 相對現代化程度 投資報酬率與 TCO 節省金的相對潛力 導入的相對簡易與持續時間 相對進行中成本-導覽、營運效率 相對彈性、擴展性和可用性 現有代碼與工作流程的相對變更
雲端原生項目 (Greenfield) 高 (最佳) 高 (最佳) 中 (較佳) 高 (最佳) 高 (最佳)
大數據服務 (Greenfield) 中 (較佳) 中 (較佳) 中 (較佳) 中 (較佳) 中 (較佳)
重建 (移轉) 高 (最佳) 高 (最佳) 低 (良好) 高 (最佳) 高 (最佳) 高 (良好)
重新計畫表單 (移轉) 中 (較佳) 中 (較佳) 中 (較佳) 中 (較佳) 中 (較佳) 中 (較佳)
重新張貼 (移轉) 低 (良好) 低 (良好) 高 (最佳) 低 (良好) 低 (良好) 低 (最佳)

視您的環境需求、時間表及團隊技能而定,Oracle 建議使用最符合您需求的模式。

當您決定組織最合適的解決方案時,請考慮這些點。

  • 許多客戶在其雲端採用歷程中使用一個以上的樣式。
  • 實際的排名取決於特定的客戶相關資訊環境和使用案例。
  • 沒有符合客戶所有需求的單一模式。
  • 其他條件包括客戶偏好設定、專長及唯一需求。