驗證容錯移轉和容錯回復行為
設定 VMware vSAN 延伸叢集之後,必須驗證容錯移轉和容錯移轉工作流程,以確保業務連續性和災難復原就緒。本節概述在主要位置模擬失敗以及從次要位置進行測試復原的步驟,然後將服務回復至「主要位置」。
模擬容錯移轉事件
模擬主要區域的失敗:
- 關閉主要區域主機
- 您可以使用 OCI 主控台,強制關閉主要區域中的所有 VMware ESXi 主機。
- 觀察次要地點的 HA 復原
- 從次要區域的堡壘主機 VM,連線至其中一個 VMware ESXi 主機。
- 請注意,管理和工作負載 VM 會透過 VMware vSphere HA 自動開啟電源。
- 更新網路製程
- 從主要區域的 DRG 分離
VCN-MGMT-Active
。 - 將
VCN-MGMT-Failover
附加至次要區域中的 DRG 。
- 從主要區域的 DRG 分離
- 修改
VCN-MGMT-Failover
中的路由表- 將路由表更新為指向以下目標的流量:
10.16.0.0/16
(主要 VCN)10.17.0.0/16
(次要 VCN)172.30.0.0/16
(覆蓋網路或外部資源)- 朝向次要區域中的 DRG。
- 將路由表更新為指向以下目標的流量:
- 檢查連線
- 使用網路分析器或類似的診斷工具來驗證 vSphere 元件的連線能力。
- 確認 vCenter 可運作,並且將「主要區域」主機顯示為無法使用。
- 使用測試 VM 驗證 East-West (內部網站) 和 North-South (外部) 連線。
- 透過次要區域的 NAT 閘道,確保網際網路存取能如預期般運作。
藉由最佳化的路由與組態設定,VM 可在偵測失敗後的 15 分鐘內復原並恢復運作。網路更新與確認通常會在 5 分鐘內完成。
執行失敗回復
「主要區域」回復並恢復運作之後,請依照下列步驟將服務回復為原始狀態:
- 回復並重新啟動主要主機
- 開啟先前關閉的 VMware ESXi 主機。
- 線上之後,請透過 OCI 主控台執行完整重新啟動,或使用透過 SSH 重新啟動
services.sh
以手動重新啟動系統服務以確保穩定性。
- vMotion VM 回到主要主機
- 將所有工作負載和管理 VM 從次要區域主機移轉至主要區域主機。
附註:
VM 會因為此階段有未經調整的路由而暫時中斷網路。
- 將所有工作負載和管理 VM 從次要區域主機移轉至主要區域主機。
- 重新設定網路路由
- 從次要區域的 DRG 分離
VCN-MGMT-Failover
。 - 將
VCN-MGMT-Active
重新附加至主要區域中的 DRG。 - 不需要變更路由表,因為現有項目在先前的組態中仍然有效。
- 從次要區域的 DRG 分離
- 確認作業狀態
- 從主要區域的堡壘主機驗證 VM 和服務連線能力。
- 確認 HA、vMotion 和 VMware vSAN 作業會如預期般繼續。
- 所有路由和原則現在都應該反映容錯移轉前的狀態。
這會完成跨 OCI 專用區域之 VMware vSAN 延伸叢集的組態和驗證,包括成功模擬容錯移轉和容錯移轉案例。