Convalida funzionamento failover e failback

Una volta configurato il cluster esteso vSAN VMware, è essenziale convalidare sia i flussi di lavoro di failover che di failback per garantire la continuità aziendale e la disponibilità del disaster recovery. In questa sezione vengono illustrati i passaggi per simulare un guasto al sito primario e testare il recupero dal sito secondario, seguito dal ripristino dei servizi al sito primario.

Simula un evento di failover

Per simulare un errore dell'area principale:

Spegnimento degli host dell'area primaria
- Utilizzare OCI Console per spegnere forzatamente tutti gli host VMware ESXi nell'area primaria.
Osservare il recupero HA nel sito secondario
- Dalla VM bastion nell'area secondaria, connettersi a uno degli host VMware ESXi.
- Osservare che le VM di gestione e del carico di lavoro si accendono automaticamente tramite VMware vSphere HA.
Aggiorna instradamento rete
- Scollegare VCN-MGMT-Active dal DRG nell'area primaria.
- Collegare VCN-MGMT-Failover al DRG nell'area secondaria.
Modifica tabelle di instradamento in VCN-MGMT-Failover
- Aggiorna le tabelle di instradamento in modo che punti il traffico destinato a:
  - 10.16.0.0/16 (VCN principale)
  - 10.17.0.0/16 (VCN secondaria)
  - 172.30.0.0/16 (reti overlay o risorse esterne)
  - verso il DRG nell'area secondaria.
Verifica connettività
- Utilizzare Network Analyzer o strumenti di diagnostica simili per convalidare la raggiungibilità dei componenti vSphere.
- Verificare che vCenter sia operativo e che gli host dell'area primaria non siano disponibili.
- Convalidare la connettività est-ovest (intra-sito) e nord-sud (esterno) utilizzando le VM di test.
- Assicurarsi che l'accesso a Internet funzioni come previsto tramite il gateway NAT nell'area secondaria.
Grazie a routing e configurazione ottimizzati, le VM possono recuperare e diventare operative entro 15 minuti dal rilevamento degli errori. Gli aggiornamenti e la conferma della rete in genere vengono completati entro altri 5 minuti.

Esegui un failback

Una volta ripristinata e operativa la Regione Primaria, effettuare le operazioni riportate di seguito per ripristinare lo stato originale dei servizi.

Ripristino e riavvio degli host principali
- Accendere gli host VMware ESXi arrestati in precedenza.
- Una volta connessi, eseguire un reboot completo tramite OCI Console o riavviare manualmente i servizi di sistema utilizzando il riavvio services.sh su SSH per garantire la stabilità.
vMotion VM Torna agli host primari
- Eseguire la migrazione di tutte le VM di carico di lavoro e gestione dagli host dell'area secondaria agli host dell'area primaria.
  
  Nota
  Le VM possono abbandonare temporaneamente la rete a causa di un instradamento non adeguato in questa fase.
Riconfigurare l'instradamento di rete
- Scollegare VCN-MGMT-Failover dal DRG nell'area secondaria.
- Ricollegare VCN-MGMT-Active al DRG nell'area primaria.
- Non sono necessarie modifiche alla tabella di instradamento poiché le voci esistenti rimangono valide dalla configurazione precedente.
Conferma stato operativo
- Convalida la raggiungibilità della VM e del servizio dal bastion nell'area primaria.
- Confermare la ripresa delle operazioni vSAN HA, vMotion e VMware come previsto.
- Tutte le rotte e le politiche dovrebbero ora riflettere lo stato pre-failover.

Ciò completa la configurazione e la convalida di un cluster esteso vSAN VMware in tutte le OCI Dedicated Region, inclusa la simulazione riuscita degli scenari di failover e failback.