建立延伸的 VMware vSAN 叢集

所有先決條件組態都完成之後,您現在可以繼續建立 VMware vSAN 延伸叢集。此步驟會正式化 OCI Dedicated Region A 和 OCI Dedicated Region B 之間主機的連線,以及部署在第三個區域的 Witness 節點之間的連線。

您可以使用快速啟動精靈,或直接瀏覽至 VMware vCenter UI 中的叢集、設定、vSAN、容錯域及延伸叢集

在此處理期間設定下列項目:

  • 指定 OCI 專用區域主機容錯域 1
  • OCI 專用區域 B 主機指派給容錯域 2
  • 指定法定證人主機 (先前新增)

如需詳細資訊,請參閱 Stretched Cluster RequirementsVMware vSAN Stretched Cluster Guide

建立延伸叢集之後:

  • 執行 vSAN 狀況檢查以驗證叢集完整性。
  • 解決任何網路相關錯誤 (例如 MTU 不相符或路由問題)。

附註:

在某些主機上,您可能會從原始叢集遇到過時的 vSAN 物件。請參閱本指南以移除它們:如何刪除 vSAN 資料存放區中的無法存取物件

完成時,叢集應該報告高 90s 的 vSAN 狀況分數,指出成功的延伸組態。

設定 NSX

延伸 VMware vSAN 叢集後,請更新 VMware NSX 以支援跨網站覆疊網路。此步驟可確保兩個區域的 ESXi 主機可以使用其個別的傳輸區域透過 NSX 通道進行通訊。

複製 NSX TEP 組態
  • NSX TEP IP 集區OCI 專用區域 B NSX Manager 複製到 OCI 專用區域 A NSX Manager。
  • 為了避免 IP 與 OCI 專用區域 B 中仍存在的管理 ESXi 主機發生衝突,請將 OCI 專用區域 A 中的新 IP 集區設定為從 .10 開始。

    範例:在 OCI Dedicated Region A NSX Manager 中,為 OCI Dedicated Region B 主機建立範圍為 .10 –。20 的 TEP 集區,以確保與現有 IP 沒有重疊。

OCI 專用區域 A 中建立 OCI 專用區域 B 上行連結設定檔
  • OCI 專用區域 NSX Manager 中,特別為 OCI 專用區域 B 主機定義新的 Uplink 設定檔
  • 使用正確的 VLAN ID ,並確定複製順序符合 OCI Dedicated Region B 組態。
準備 NSX 的主機
  • 使用 OVERLAY-TZVLAN-TZ 作為傳輸區域。
  • 在主機準備期間,根據主機來自 OCI Dedicated Region A 或 OCI Dedicated Region B,指派適當的 Uplink Profile

    注意:在某些情況下,特別是在容錯移轉事件之後,NSX 通道介面可能未正確啟動。解決此情況的方法:

    • 重新啟動受影響的 ESXi 主機 or
    • 透過主機上的 SSH 執行 services.sh 重新啟動。

    這可確保所有 NSX 服務都以正確的順序啟動,並回復通道穩定性。

建立 NSX 重疊區段
  • 建立四個 NSX 重疊區段
  • 確定兩個網站中所有 ESXi 主機都可以看見並同步這些區段。
配置 DHCP (可選擇)
  • 選擇性地設定新覆疊區段的 DHCP 設定值
  • 本手冊先前已經設定過 DNS 設定值,不需要在此處重複。
驗證端對端重疊連線
  • 部署四個虛擬機,在兩個區域的每個主機上放置一個虛擬機。
  • 將個別 VM 在個別區段範圍內的靜態 IP 位址指派給每個 VM。
  • 在 VM 之間偵測區段閘道,以驗證跨延伸環境的 L3 覆疊連線。

啟用重疊 VM 的外部連線

若要允許 VMware NSX 覆疊 VM 存取外部網路,請設定相關 VLAN 的 NAT 規則和路由。

VCN-MGMT-ActiveVCN-MGMT-Failover 中,更新 NSX 邊緣 Uplink 1 VLAN 的 NAT 組態:

  • 在兩個區域中使用相同的外部存取 IP,與在 OCI 專用區域 A 部署期間使用的 IP 相符。
  • 確認使用的 IP 是 NSX Manager 中可見之 NSX Edge 節點的 HA VIP

同時更新 vSphere VLAN 的外部存取規則:

  • 同時在兩個 VCN 中設定 vcenter-vip、nsxt-manager-vip 及 HCX-manager-vip (若使用 HCX) 的 NAT 規則。

DNS 轉送支援

覆疊 VM 通常使用 NSX-T 中定義的 DNS 轉送器 (例如 192.168.253.253)。若要遞送這些 DNS 查詢:

  1. 建立 NAT 閘道的專用路由表
  2. 定義靜態路由:
    • 目的地:10.x.x.x (重疊 VM 子網路)
    • 目標:NAT 閘道
    • DNS 轉送器 IP:192.168.253.253

必須在兩個網站中複製此組態。將新的路由表與 NAT 閘道建立關聯,以實現一致的行為。

將 ESXi 主機 VLAN 重新指定給浮動 VCN

在目前的設定中,每個 ESXi 主機都佈建了兩個實體 NIC,每個實體 NIC 都與一組透過 VNIC 附件設定的預設 VLAN 關聯至 VCN-Primary ( OCI 專用區域 A) 和 VCN-Secondary ( OCI 專用區域 B)。這些 VNIC 是使用附加至個別 VCN 的次要 CIDR 區塊 (172.45.0.0/16) 來設定。

若要完成轉換至延展的配置,所有標籤為 200 和更高版本 (例如,對於 vSphere、HCX、NSX Edge 等) 的 VLAN 都必須移轉至浮動 VCN:
  • OCI 專用區域 A 中的 VCN-MGMT-Active
  • OCI Dedicated Region B 中的 VCN-MGMT-Failover

將 VNIC 移轉至浮動 VCN

請針對兩個 SDDC 中的每個 ESXi 主機執行下列步驟:
  1. 存取 ESXi 主機詳細資訊:在 OCI 主控台中,前往運算 ESXi 主機
  2. Delete Existing VNIC Attachments: For each host, delete the VNICs associated with VLANs 201 and above from VCN-Primary or VCN-Secondary.

    附註:

    此為必要步驟,因為當舊 VLAN 存在時,無法為相同的 VNIC 建立新的 VNIC。
  3. 重新建立浮動 VCN 中的 VNIC:
    • 為相應浮動 VCN 中的每個 VLAN 建立新的 VNIC:
      • OCI 專用區域 A 中使用 VCN-MGMT-Active
      • OCI Dedicated Region B 中使用 VCN-MGMT-Failover
    • 選取標記適當 -NEW 字尾的 VLAN,以區別它與原始字尾。

    每個主機的兩個 VNIC 重複此程序。我們建議採用系統化方法:從 vnic0 開始,再到 vnic1 開始,再到 VLAN 201 完成更換作業,然後再繼續進行下一個 VLAN。

    次要網站主機的特殊考量

    主要網站中移轉主機的 VNIC 之後,請重複次要網站中所有主機的處理作業。不過,請注意一個關鍵詳細資訊:

    • 次要網站中的 vSphere 管理元件最初建置在暫時 VLAN 上 (例如 VLAN-Stretched-Cls-Mgmt-vSphere-TEMP)。
    • 轉換期間,此暫時 VLAN 可保持原位。這不會影響延伸的 vSAN 功能,並在需要時提供對 vCenter 和 NSX 元件的備用存取。

    保留此暫時 VLAN 可確保在 VNIC 和網路移轉工作流程期間,能夠進行不中斷的管理存取。

    連線影響與復原

    在 VNIC 更新期間,預期會暫時中斷連線至 vCenter、NSX Manager 或 ESXi 主機的連線。為確保復原:

    1. 確認 DRG 連附項:確認適當的管理 VCN (作用中和容錯移轉) 已連附至其各自的動態路由閘道 (DRG)
    2. 更新路由表:
      • 將每個管理 VCN 中的主要路由表更新為指向 DRG。
      • 更新堡壘主機子網路路由表,確保管理流量在 VCN 與各區域之間均正確遞送。
    3. 驗證存取:
      • 更新路由之後,必須回復對堡壘主機之所有管理介面的存取。
      • 如果任何資源仍然無法連線,請再次檢查 NSG 規則和 VCN 之間的路由傳輸。

    vNIC 後續移轉清除

    VNIC 移轉完成後:

    • 將所有未使用的 VLAN 從屬於 172.45.0.0/16 CIDR 區塊的 VCN-PrimaryVCN-Secondary 移除。
    • 將次要 CIDR (172.45.0.0/16) 從 VCN-Primary 切離,因為它已不再使用。

    OCI 只會在沒有任何作用中資源 (VNIC、子網路或 VLAN) 使用 CIDR 取消連附時進行。

    • 由於 Oracle Cloud VMware Solution 服務已不再追蹤最初部署於 VCN-Primary 中的元件,因此您可能會在 OCI 主控台的 SDDC 資源頁面中看到警告指標

    更新新 VCN 附件的路由

    1. VCN-MGMT-Active 附加至 OCI 專用區域 A 中的 DRG。
    2. 更新路由表
      • 對於 VCN-MGMT-Active:將預設路由 (0.0.0.0/0) 指向 DRG。
      • 對於 VCN-Primary 中的堡壘主機子網路:請更新其路由表以指向 DRG,以確保其仍可存取 VMware vCenter 和 VMware NSX Manager。

    進行這些變更之後,即使基礎介面現在位於不同的 VCN 中, OCI Dedicated Region A 中的 VMware vCenter 和 VMware NSX Manager 還是可以從堡壘主機連線。

設定 DRS 相關性規則、HA 和 VMware vSAN 儲存原則

延展的叢集在兩個網站都完全恢復運作,而且網路穩定之後,請設定分散式資源排程器 (DRS)、高可用性 (HA),然後將網站感知 VMware vSAN 儲存原則指派給工作負載和管理虛擬機器 (VM)。

這些組態可確保跨容錯域的最佳 VM 放置位置,並在網站失敗期間啟用自動復原。

將 VM 移轉至延伸叢集

首先,請先將所有管理 VM測試工作負載 VM 移轉至新建立的延伸叢集

  • 使用 vMotion 將 VM 從其原始網站特定叢集移至延伸叢集。
  • 如果正確設定所有項目 (網路、儲存、連接埠群組),則 VM 移轉應完成且沒有任何問題。

如果預設 NSX DRS 規則存在且設為必須,請將其移除。這些可能會干擾 HA 作業,並防止 NSX Edge 節點和 NSX Manager VM 容錯移轉。

建立 VM 和主機群組

定義工作負載位置的相關性群組:

  1. 建立主機群組
    • 屬於主要網站的群組主機。
    • 屬於次要網站的群組主機。
  2. 建立 VM 群組
    • 必須位於每個網站之主機上的群組管理 VM (例如 vCenter、NSX 管理程式、NSX 邊緣節點、HCX 管理程式及其他 (如果適用)。
    • 同樣地,將所有工作負載 VM 群組在一起 (如果是所有測試 VM)。

定義 VM/ 主機相關性規則

定義群組之後:

  • 建立 VM 至主機相關性規則,讓 VM 維持在其目標網站中的主機上。
  • 使用在主機上執行 VM 規則,在容錯移轉案例中提供高可用性彈性。
  • 為管理 VM 和工作負載 VM 群組建立這類規則。

此設定可確保在一般作業期間,每個網站代管其預期的工作負載,但可在主機或網站失敗時自動復原。

實現高可用性 (HA)
  • 確保建立相關性規則之後,叢集層級的 HA 已啟用
  • 「主機失敗」事件時「重新啟動 VM」的預設選項,可確保 VM 在發生未預期的失敗期間重新啟動,包括完整網站中斷。

建立並套用延伸的 vSAN 儲存原則

為確保雙方站點間的資料備援以延展的配置,請定義新的 vSAN Storage-Based Policy Management (SBPM) 原則。此原則將控制 VM 資料如何分散至容錯域和目擊者網站。

在原則中設定下列位置規則

  • 儲存類型:vSAN
  • 網站災害容錯能力:網站鏡射 – 延伸叢集
  • 容忍失敗:沒有資料備援
  • 每個物件的磁碟分割數:1
  • 物件的 IOPS 限制:0

將所有其他選項保留為預設值。

一旦建立原則,就可以:

  1. 套用原則至延伸叢集內的所有測試和管理 VM。
  2. 導覽至監視、vSAN、重新同步物件,以觀察並追蹤重新同步處理。
  3. 重新同步完成後,請確認物件位置以確認原則如預期般運作:
    • 主要網站上有一個複本物件
    • 第二個複本物件位於次要網站
    • 目擊者元件位於遠端目擊者區域

所有 VM 一開始會顯示為不符合規範。選取每個 VM 或一組 VM,並手動指定新建立的延伸原則,以使其符合規範。

此外,瀏覽至監督、vSAN、重新同步物件和虛擬物件。重新同步處理作業完成後,您應該注意到每個 VM 的虛擬物件都會正確分配到「主要網站」、「次要網站」和「目擊者」節點,以驗證完全遵守延伸叢集設計。