建立延伸的 VMware vSAN 叢集
所有先決條件組態都完成之後,您現在可以繼續建立 VMware vSAN 延伸叢集。此步驟會正式化 OCI Dedicated Region A 和 OCI Dedicated Region B 之間主機的連線,以及部署在第三個區域的 Witness 節點之間的連線。
您可以使用快速啟動精靈,或直接瀏覽至 VMware vCenter UI 中的叢集、設定、vSAN、容錯域及延伸叢集。
在此處理期間設定下列項目:
- 指定 OCI 專用區域主機給容錯域 1
- 將 OCI 專用區域 B 主機指派給容錯域 2
- 指定法定證人主機 (先前新增)
如需詳細資訊,請參閱 Stretched Cluster Requirements 和 VMware vSAN Stretched Cluster Guide 。
建立延伸叢集之後:
- 執行 vSAN 狀況檢查以驗證叢集完整性。
- 解決任何網路相關錯誤 (例如 MTU 不相符或路由問題)。
附註:
在某些主機上,您可能會從原始叢集遇到過時的 vSAN 物件。請參閱本指南以移除它們:如何刪除 vSAN 資料存放區中的無法存取物件完成時,叢集應該報告高 90s 的 vSAN 狀況分數,指出成功的延伸組態。
設定 NSX
延伸 VMware vSAN 叢集後,請更新 VMware NSX 以支援跨網站覆疊網路。此步驟可確保兩個區域的 ESXi 主機可以使用其個別的傳輸區域透過 NSX 通道進行通訊。
- 將 NSX TEP IP 集區從 OCI 專用區域 B NSX Manager 複製到 OCI 專用區域 A NSX Manager。
- 為了避免 IP 與 OCI 專用區域 B 中仍存在的管理 ESXi 主機發生衝突,請將 OCI 專用區域 A 中的新 IP 集區設定為從 .10 開始。
範例:在 OCI Dedicated Region A NSX Manager 中,為 OCI Dedicated Region B 主機建立範圍為 .10 –。20 的 TEP 集區,以確保與現有 IP 沒有重疊。
- 在 OCI 專用區域 NSX Manager 中,特別為 OCI 專用區域 B 主機定義新的 Uplink 設定檔。
- 使用正確的 VLAN ID ,並確定複製順序符合 OCI Dedicated Region B 組態。
- 使用 OVERLAY-TZ 與 VLAN-TZ 作為傳輸區域。
- 在主機準備期間,根據主機來自 OCI Dedicated Region A 或 OCI Dedicated Region B,指派適當的 Uplink Profile 。
注意:在某些情況下,特別是在容錯移轉事件之後,NSX 通道介面可能未正確啟動。解決此情況的方法:
- 重新啟動受影響的 ESXi 主機 or
- 透過主機上的 SSH 執行
services.sh
重新啟動。
這可確保所有 NSX 服務都以正確的順序啟動,並回復通道穩定性。
- 建立四個 NSX 重疊區段。
- 確定兩個網站中所有 ESXi 主機都可以看見並同步這些區段。
- 選擇性地設定新覆疊區段的 DHCP 設定值。
- 本手冊先前已經設定過 DNS 設定值,不需要在此處重複。
- 部署四個虛擬機,在兩個區域的每個主機上放置一個虛擬機。
- 將個別 VM 在個別區段範圍內的靜態 IP 位址指派給每個 VM。
- 在 VM 之間偵測區段閘道,以驗證跨延伸環境的 L3 覆疊連線。
啟用重疊 VM 的外部連線
若要允許 VMware NSX 覆疊 VM 存取外部網路,請設定相關 VLAN 的 NAT 規則和路由。
在 VCN-MGMT-Active
和 VCN-MGMT-Failover
中,更新 NSX 邊緣 Uplink 1 VLAN 的 NAT 組態:
- 在兩個區域中使用相同的外部存取 IP,與在 OCI 專用區域 A 部署期間使用的 IP 相符。
- 確認使用的 IP 是 NSX Manager 中可見之 NSX Edge 節點的 HA VIP 。
同時更新 vSphere VLAN 的外部存取規則:
- 同時在兩個 VCN 中設定 vcenter-vip、nsxt-manager-vip 及 HCX-manager-vip (若使用 HCX) 的 NAT 規則。
DNS 轉送支援
覆疊 VM 通常使用 NSX-T 中定義的 DNS 轉送器 (例如 192.168.253.253
)。若要遞送這些 DNS 查詢:
- 建立 NAT 閘道的專用路由表。
- 定義靜態路由:
- 目的地:
10.x.x.x
(重疊 VM 子網路) - 目標:NAT 閘道
- DNS 轉送器 IP:
192.168.253.253
- 目的地:
必須在兩個網站中複製此組態。將新的路由表與 NAT 閘道建立關聯,以實現一致的行為。
將 ESXi 主機 VLAN 重新指定給浮動 VCN
在目前的設定中,每個 ESXi 主機都佈建了兩個實體 NIC,每個實體 NIC 都與一組透過 VNIC 附件設定的預設 VLAN 關聯至 VCN-Primary
( OCI 專用區域 A) 和 VCN-Secondary
( OCI 專用區域 B)。這些 VNIC 是使用附加至個別 VCN 的次要 CIDR 區塊 (172.45.0.0/16
) 來設定。
- OCI 專用區域 A 中的
VCN-MGMT-Active
- OCI Dedicated Region B 中的
VCN-MGMT-Failover
將 VNIC 移轉至浮動 VCN
- 存取 ESXi 主機詳細資訊:在 OCI 主控台中,前往運算 ESXi 主機。
- Delete Existing VNIC Attachments: For each host, delete the VNICs associated with VLANs 201 and above from VCN-Primary or VCN-Secondary.
附註:
此為必要步驟,因為當舊 VLAN 存在時,無法為相同的 VNIC 建立新的 VNIC。 - 重新建立浮動 VCN 中的 VNIC:
- 為相應浮動 VCN 中的每個 VLAN 建立新的 VNIC:
- 在 OCI 專用區域 A 中使用
VCN-MGMT-Active
- 在 OCI Dedicated Region B 中使用
VCN-MGMT-Failover
- 在 OCI 專用區域 A 中使用
- 選取標記適當 -NEW 字尾的 VLAN,以區別它與原始字尾。
對每個主機的兩個 VNIC 重複此程序。我們建議採用系統化方法:從 vnic0 開始,再到 vnic1 開始,再到 VLAN 201 完成更換作業,然後再繼續進行下一個 VLAN。
次要網站主機的特殊考量
在主要網站中移轉主機的 VNIC 之後,請重複次要網站中所有主機的處理作業。不過,請注意一個關鍵詳細資訊:
- 次要網站中的 vSphere 管理元件最初建置在暫時 VLAN 上 (例如 VLAN-Stretched-Cls-Mgmt-vSphere-TEMP)。
- 轉換期間,此暫時 VLAN 可保持原位。這不會影響延伸的 vSAN 功能,並在需要時提供對 vCenter 和 NSX 元件的備用存取。
保留此暫時 VLAN 可確保在 VNIC 和網路移轉工作流程期間,能夠進行不中斷的管理存取。
連線影響與復原
在 VNIC 更新期間,預期會暫時中斷連線至 vCenter、NSX Manager 或 ESXi 主機的連線。為確保復原:
- 確認 DRG 連附項:確認適當的管理 VCN (作用中和容錯移轉) 已連附至其各自的動態路由閘道 (DRG) 。
- 更新路由表:
- 將每個管理 VCN 中的主要路由表更新為指向 DRG。
- 更新堡壘主機子網路路由表,確保管理流量在 VCN 與各區域之間均正確遞送。
- 驗證存取:
- 更新路由之後,必須回復對堡壘主機之所有管理介面的存取。
- 如果任何資源仍然無法連線,請再次檢查 NSG 規則和 VCN 之間的路由傳輸。
vNIC 後續移轉清除
VNIC 移轉完成後:
- 將所有未使用的 VLAN 從屬於
172.45.0.0/16
CIDR 區塊的VCN-Primary
和VCN-Secondary
移除。 - 將次要 CIDR (
172.45.0.0/16
) 從VCN-Primary
切離,因為它已不再使用。
OCI 只會在沒有任何作用中資源 (VNIC、子網路或 VLAN) 使用 CIDR 取消連附時進行。
- 由於 Oracle Cloud VMware Solution 服務已不再追蹤最初部署於
VCN-Primary
中的元件,因此您可能會在 OCI 主控台的 SDDC 資源頁面中看到警告指標。
更新新 VCN 附件的路由
- 將
VCN-MGMT-Active
附加至 OCI 專用區域 A 中的 DRG。 - 更新路由表:
- 對於
VCN-MGMT-Active
:將預設路由 (0.0.0.0/0
) 指向 DRG。 - 對於
VCN-Primary
中的堡壘主機子網路:請更新其路由表以指向 DRG,以確保其仍可存取 VMware vCenter 和 VMware NSX Manager。
- 對於
進行這些變更之後,即使基礎介面現在位於不同的 VCN 中, OCI Dedicated Region A 中的 VMware vCenter 和 VMware NSX Manager 還是可以從堡壘主機連線。
- 為相應浮動 VCN 中的每個 VLAN 建立新的 VNIC:
設定 DRS 相關性規則、HA 和 VMware vSAN 儲存原則
延展的叢集在兩個網站都完全恢復運作,而且網路穩定之後,請設定分散式資源排程器 (DRS)、高可用性 (HA),然後將網站感知 VMware vSAN 儲存原則指派給工作負載和管理虛擬機器 (VM)。
這些組態可確保跨容錯域的最佳 VM 放置位置,並在網站失敗期間啟用自動復原。
將 VM 移轉至延伸叢集
首先,請先將所有管理 VM 和測試工作負載 VM 移轉至新建立的延伸叢集:
- 使用 vMotion 將 VM 從其原始網站特定叢集移至延伸叢集。
- 如果正確設定所有項目 (網路、儲存、連接埠群組),則 VM 移轉應完成且沒有任何問題。
如果預設 NSX DRS 規則存在且設為必須,請將其移除。這些可能會干擾 HA 作業,並防止 NSX Edge 節點和 NSX Manager VM 容錯移轉。
建立 VM 和主機群組
定義工作負載位置的相關性群組:
- 建立主機群組:
- 屬於主要網站的群組主機。
- 屬於次要網站的群組主機。
- 建立 VM 群組:
- 必須位於每個網站之主機上的群組管理 VM (例如 vCenter、NSX 管理程式、NSX 邊緣節點、HCX 管理程式及其他 (如果適用)。
- 同樣地,將所有工作負載 VM 群組在一起 (如果是所有測試 VM)。
定義 VM/ 主機相關性規則
定義群組之後:
- 建立 VM 至主機相關性規則,讓 VM 維持在其目標網站中的主機上。
- 使用在主機上執行 VM 規則,在容錯移轉案例中提供高可用性彈性。
- 為管理 VM 和工作負載 VM 群組建立這類規則。
此設定可確保在一般作業期間,每個網站代管其預期的工作負載,但可在主機或網站失敗時自動復原。
- 確保建立相關性規則之後,叢集層級的 HA 已啟用。
- 「主機失敗」事件時「重新啟動 VM」的預設選項,可確保 VM 在發生未預期的失敗期間重新啟動,包括完整網站中斷。
建立並套用延伸的 vSAN 儲存原則
為確保雙方站點間的資料備援以延展的配置,請定義新的 vSAN Storage-Based Policy Management (SBPM) 原則。此原則將控制 VM 資料如何分散至容錯域和目擊者網站。
在原則中設定下列位置規則:
- 儲存類型:vSAN
- 網站災害容錯能力:網站鏡射 – 延伸叢集
- 容忍失敗:沒有資料備援
- 每個物件的磁碟分割數:1
- 物件的 IOPS 限制:0
將所有其他選項保留為預設值。
一旦建立原則,就可以:
- 套用原則至延伸叢集內的所有測試和管理 VM。
- 導覽至監視、vSAN、重新同步物件,以觀察並追蹤重新同步處理。
- 重新同步完成後,請確認物件位置以確認原則如預期般運作:
- 主要網站上有一個複本物件
- 第二個複本物件位於次要網站
- 目擊者元件位於遠端目擊者區域
所有 VM 一開始會顯示為不符合規範。選取每個 VM 或一組 VM,並手動指定新建立的延伸原則,以使其符合規範。
此外,瀏覽至監督、vSAN、重新同步物件和虛擬物件。重新同步處理作業完成後,您應該注意到每個 VM 的虛擬物件都會正確分配到「主要網站」、「次要網站」和「目擊者」節點,以驗證完全遵守延伸叢集設計。