驗證容錯移轉和容錯回復行為

設定 VMware vSAN 延伸叢集之後,必須驗證容錯移轉和容錯移轉工作流程,以確保業務連續性和災難復原就緒。本節概述在主要位置模擬失敗以及從次要位置進行測試復原的步驟,然後將服務回復至「主要位置」。

模擬容錯移轉事件

模擬主要區域的失敗:

  1. 關閉主要區域主機
    • 您可以使用 OCI 主控台,強制關閉主要區域中的所有 VMware ESXi 主機。
  2. 觀察次要地點的 HA 復原
    • 從次要區域的堡壘主機 VM,連線至其中一個 VMware ESXi 主機。
    • 請注意,管理和工作負載 VM 會透過 VMware vSphere HA 自動開啟電源。
  3. 更新網路製程
    • 從主要區域的 DRG 分離 VCN-MGMT-Active
    • VCN-MGMT-Failover 附加至次要區域中的 DRG
  4. 修改 VCN-MGMT-Failover 中的路由表
    • 將路由表更新為指向以下目標的流量:
      • 10.16.0.0/16 (主要 VCN)
      • 10.17.0.0/16 (次要 VCN)
      • 172.30.0.0/16 (覆蓋網路或外部資源)
      • 朝向次要區域中的 DRG。
  5. 檢查連線
    • 使用網路分析器或類似的診斷工具來驗證 vSphere 元件的連線能力。
    • 確認 vCenter 可運作,並且將「主要區域」主機顯示為無法使用。
    • 使用測試 VM 驗證 East-West (內部網站) 和 North-South (外部) 連線。
    • 透過次要區域的 NAT 閘道,確保網際網路存取能如預期般運作。

    藉由最佳化的路由與組態設定,VM 可在偵測失敗後的 15 分鐘內復原並恢復運作。網路更新與確認通常會在 5 分鐘內完成。

執行失敗回復

「主要區域」回復並恢復運作之後,請依照下列步驟將服務回復為原始狀態:

  1. 回復並重新啟動主要主機
    • 開啟先前關閉的 VMware ESXi 主機。
    • 線上之後,請透過 OCI 主控台執行完整重新啟動,或使用透過 SSH 重新啟動 services.sh 以手動重新啟動系統服務以確保穩定性。
  2. vMotion VM 回到主要主機
    • 將所有工作負載和管理 VM 從次要區域主機移轉至主要區域主機。

      附註:

      VM 會因為此階段有未經調整的路由而暫時中斷網路。
  3. 重新設定網路路由
    • 從次要區域的 DRG 分離 VCN-MGMT-Failover
    • VCN-MGMT-Active 重新附加至主要區域中的 DRG。
    • 不需要變更路由表,因為現有項目在先前的組態中仍然有效。
  4. 確認作業狀態
    • 從主要區域的堡壘主機驗證 VM 和服務連線能力。
    • 確認 HA、vMotion 和 VMware vSAN 作業會如預期般繼續。
    • 所有路由和原則現在都應該反映容錯移轉前的狀態。

這會完成跨 OCI 專用區域之 VMware vSAN 延伸叢集的組態和驗證,包括成功模擬容錯移轉和容錯移轉案例。