使用 WANdisco LiveData 移轉程式將 Hadoop 移轉至 Oracle

LiveData 移轉程式部署在 Hadoop 叢集的邊緣節點上。只需幾分鐘即可執行部署,不會影響目前的生產作業。使用者可以使用命令行、REST API 或使用者介面 (UI) 立即開始使用產品,以執行移轉。

關於移轉 Hadoop 資料

以下是 Apache Hadoop 與雲端移轉有關的典型步驟:

下圖說明流程架構與元件。

hadoop-lakehouse-migration.png 說明如下
hadoop-lakehouse-migration.png 圖解說明

hadoop-lakehouse-migration-oracle.zip

  1. 尋找:識別要移轉至雲端的資料集與工作負載。
  2. 計畫:開發執行移轉之階段的計畫與時間軸。
  3. 資料移轉:執行將資料從企業內部部署的 Hadoop 環境移轉至雲端。
  4. 工作負載移轉:執行將工作量和 (或) 應用系統從企業內部部署環境移轉至雲端的工作負載。
  5. 新的分析開發:開始開發新的分析、AI 和機器學習,藉此利用新的雲端環境。
  6. 評量與動作:執行分析以評量 KPI、評估績效、進行預測,以及讓業務能夠適當採取行動。

為了嘗試並簡化雲端移轉作業,許多組織會選擇遵循「原封不動移轉」的移轉策略。此策略會假設在不對資料或應用程式進行任何變更的情況下,即可執行移轉。邏輯就是「將它們隨著雲端而移動。」此假設導致許多失敗的專案或專案超過其時間與成本。它需要將現有系統關機,以確保不會發生資料變更,也需要組織花時間開發自訂解決方案來處理資料變更。除了這個策略之外,組織還需要組織同時執行所有應用系統和資料的大邦切換,而第二,它無法利用新的雲端功能。

WANdisco 提供資料優先方法以進行資料湖移轉。資料優先方法的重點在於快速移動資料,不會嘗試同時移轉所有現有的應用程式。這些焦點讓資料分析師更快地運用,以便從第一天開始使用移轉的資料。實現更快速的洞察力和全新的 AI 創新。組織可證明雲端移轉的投資報酬率加快,但現有的企業內部部署生產環境工作負載仍可繼續執行,不受影響。這個方法也提供靈活的應用程式與工作負載移轉選項。它可避免任何大港方法,同時為組織提供時間將新雲端環境的工作負載最佳化,確保新系統以最佳方式執行,並充分利用這些新功能。組織可以視需要進行平行測試,以確保不會體驗任何隱藏的成本,而且資料優先方法也能夠讓他們決定某些應用系統是否不需要全部移轉,而是用新的開發取代。

定義來源和目標

在部署期間,WANdisco LiveData Migrator 會自動發現來源 Apache Hadoop 分散式檔案系統 (HDFS) 叢集,因此您只需要定義目標環境。

  1. 部署 WANdisco LiveData 移轉程式
    在部署期間,LiveData Migrator 會自動尋找來源 HDFS 叢集。
  2. 定義目標環境的檔案系統組態。
    1. 檔案系統類型:從可用檔案系統類型清單中選取。
      若為 Oracle,如果目標是使用 Oracle Oracle Big Data Service (Oracle BDS),檔案系統類型可以是 Oracle Cloud Infrastructure Object StorageApache Hadoop (Oracle BDS),其運用 Oracle 的 Apache Hadoop 發行軟體。
    2. 顯示名稱:輸入檔案系統的顯示名稱。
      例如,Oracle BDS Target
    3. 預設檔案系統 (FS):輸入檔案系統位址。
      例如,hdfs://localhost:8020
    4. 使用者:定義要執行移轉動作的檔案系統使用者名稱。例如,hdfs
  3. 來源 HDFS 的 Kerberos 組態若套用至目標,請確定來源與目標之間已啟用跨範圍認證。
  4. 視需要定義具有相關索引鍵與值的其他組態特性值。
    例如,對於「組態特性覆寫」,請輸入索引鍵和值。
    • 鍵值:dfs.client.use.datanode.hostname;值:true
    • 鍵值:dfs.datanode.use.datanode.hostname;值:true

定義移轉

移轉會將現有資料從來源傳輸至定義的目標。WANdisco LiveData 移轉程式會在移轉來源資料時移轉對來源資料所做的任何變更,並確保目標與這些變更保持在最新狀態。這麼做會繼續執行移轉。

使用者通常會建立多個移轉,以便依路徑從來源檔案系統選取特定內容。您也可以定義多個移轉目標,同時移轉至多個獨立檔案系統。

若要建立移轉,請提供移轉名稱,選取來源和目標檔案系統,並指定要移轉的來源檔案系統路徑。或者,您可以套用排除項目來指定應從移轉排除的資料規則,也可以套用其他選擇性組態設定值。

LiveData Migrator 也支援將 Hive 描述資料從來源移轉至目標描述資料存放區。LiveData Migrator 透過使用本機或遠端描述資料代理程式連線至描述資料存放區。接著,描述資料規則會用來定義要從來源移轉至目標的描述資料。

定義移轉時,您可以指定自動開始移轉,並判斷是否應為即時移轉,這意味著它會持續將任何從來源到目標的持續變更套用。

  1. 定義移轉設定。
    1. 輸入移轉的名稱。
    2. 從清單中選取一個來源。例如,CDH-SRC
    3. 從清單中選取一個目標。例如,Oracle BDS Target
    4. 輸入來源的目錄路徑。例如,/Data_Lake_Directory
  2. 複查預設排除項目。視需要按一下管理排除來進行變更。
  3. 選取覆寫設定值。
  4. 選取您的移轉選項。選取自動啟動移轉即時移轉
    • 自動啟動移轉:資料移轉將會自動啟動。如果未選取,則必須使用「開始移轉」選項手動啟動移轉。
    • 即時移轉:移轉將持續執行,並隨著從來源到目標發生,即時複製任何變更。如果未選取,就會執行一次性移轉。
  5. 按一下建立
    資料將立即從來源移轉至目標。

監督及管理移轉

使用 WANdisco 使用者介面 (UI) 來監督和管理移轉。

  1. 登入 WANdisco UI。
  2. 瀏覽至儀表板以檢視正在移動之資料的頻寬使用狀況、進行中的移轉,以及描述資料移轉。

    其他移轉度量可用來更進一步瞭解移轉進度、尚未處理的事件、尚未移轉的事件,以及要掃描的路徑。

  3. 若要管理現有的移轉,請使用 WANdisco UI 和命令行介面。
    可用的動作包括:
    • 指定與移除現有移轉的排除項目
    • 啟動、停止及繼續移轉
    • 刪除移轉
    • 將移轉重設為啟動之前的狀態
    • 監督失敗的作業,以查看失敗的日期 / 時間、路徑以及原因