Failover- und Failback-Verhalten validieren
Nachdem das gestreckte Cluster VMware vSAN konfiguriert wurde, müssen sowohl Failover- als auch Failback-Workflows validiert werden, um die Geschäftskontinuität und Disaster Recovery-Bereitschaft sicherzustellen. In diesem Abschnitt werden die Schritte zur Simulation eines Fehlers am primären Standort und zur Testwiederherstellung vom sekundären Standort beschrieben, gefolgt von der Wiederherstellung von Services auf dem primären Standort.
Failover-Ereignis simulieren
So simulieren Sie einen Fehler in der primären Region:
- Primäre Regionshosts ausschalten
- Mit der OCI-Konsole können Sie alle VMware ESXi-Hosts in der primären Region ausschalten.
- HA-Wiederherstellung am sekundären Standort beobachten
- Stellen Sie von der Bastion-VM in der sekundären Region eine Verbindung zu einem der ESXi-Hosts VMware her.
- Beachten Sie, dass die Management- und Workload-VMs über VMware vSphere HA automatisch einschalten.
- Netzwerkrouting aktualisieren
- Trennen Sie
VCN-MGMT-Active
vom DRG in der primären Region. - Hängen Sie
VCN-MGMT-Failover
an das DRG in der sekundären Region an.
- Trennen Sie
- Routentabellen in
VCN-MGMT-Failover
ändern- Routentabellen aktualisieren, um auf Traffic zu verweisen, der für:
10.16.0.0/16
(Primäres VCN)10.17.0.0/16
(Sekundäres VCN)172.30.0.0/16
(Netzwerke oder externe Ressourcen überlagern)- zum DRG in der Sekundärregion.
- Routentabellen aktualisieren, um auf Traffic zu verweisen, der für:
- Konnektivität prüfen
- Verwenden Sie Network Analyzer oder ähnliche Diagnosetools, um die Erreichbarkeit von vSphere-Komponenten zu validieren.
- Stellen Sie sicher, dass vCenter betriebsbereit ist und die Hosts der primären Region als nicht verfügbar angezeigt werden.
- Validieren Sie die Ost-West-(Intra-Site-) und Nord-Süd-(Externe-)Konnektivität mit Test-VMs.
- Stellen Sie sicher, dass der Internetzugriff wie erwartet über das NAT-Gateway in der sekundären Region funktioniert.
Mit optimiertem Routing und optimierter Konfiguration können VMs innerhalb von 15 Minuten nach der Ausfallerkennung wiederhergestellt und in Betrieb genommen werden. Netzwerkaktualisierungen und -bestätigungen werden in der Regel innerhalb von 5 Minuten abgeschlossen.
Failback ausführen
Nachdem die primäre Region wiederhergestellt und betriebsbereit ist, führen Sie die folgenden Schritte aus, um die Services in ihren ursprünglichen Zustand zurückzuversetzen:
- Primäre Hosts wiederherstellen und neu starten
- Schalten Sie die zuvor heruntergefahrenen VMware ESXi-Hosts ein.
- Führen Sie nach dem Onlinestart entweder einen vollständigen Neustart über die OCI-Konsole aus, oder starten Sie Systemservices manuell neu, indem Sie
services.sh
über SSH neu starten, um die Stabilität sicherzustellen.
- vMotion VMs zurück zu primären Hosts
- Migrieren Sie alle Workload- und Management-VMs von Hosts der sekundären Region zu Hosts der primären Region.
Hinweis:
VMs können das Netzwerk aufgrund eines nicht angepassten Routings in dieser Phase vorübergehend verlassen.
- Migrieren Sie alle Workload- und Management-VMs von Hosts der sekundären Region zu Hosts der primären Region.
- Netzwerkrouting neu konfigurieren
- Trennen Sie
VCN-MGMT-Failover
vom DRG in der sekundären Region. - Hängen Sie
VCN-MGMT-Active
erneut an das DRG in der primären Region an. - Es sind keine Routentabellenänderungen erforderlich, da vorhandene Einträge ab der früheren Konfiguration gültig bleiben.
- Trennen Sie
- Betriebsstatus bestätigen
- Validieren Sie die Erreichbarkeit von VM und Service von der Bastion in der primären Region.
- Bestätigen Sie, dass HA-, vMotion- und VMware-vSAN-Vorgänge wie erwartet fortgesetzt werden.
- Alle Routen und Richtlinien sollten jetzt den Pre-Failover-Status widerspiegeln.
Damit ist die Konfiguration und Validierung eines gestreckten VMware vSAN-Clusters über OCI Dedicated Regions hinweg abgeschlossen, einschließlich einer erfolgreichen Simulation von Failover- und Failback-Szenarios.