Convalida funzionamento failover e failback

Una volta configurato il cluster esteso vSAN VMware, è essenziale convalidare sia i flussi di lavoro di failover che di failback per garantire la continuità aziendale e la disponibilità del disaster recovery. In questa sezione vengono illustrati i passaggi per simulare un guasto al sito primario e testare il recupero dal sito secondario, seguito dal ripristino dei servizi al sito primario.

Simula un evento di failover

Per simulare un errore dell'area principale:

  1. Spegnimento degli host dell'area primaria
    • Utilizzare OCI Console per spegnere forzatamente tutti gli host VMware ESXi nell'area primaria.
  2. Osservare il recupero HA nel sito secondario
    • Dalla VM bastion nell'area secondaria, connettersi a uno degli host VMware ESXi.
    • Osservare che le VM di gestione e del carico di lavoro si accendono automaticamente tramite VMware vSphere HA.
  3. Aggiorna instradamento rete
    • Scollegare VCN-MGMT-Active dal DRG nell'area primaria.
    • Collegare VCN-MGMT-Failover al DRG nell'area secondaria.
  4. Modifica tabelle di instradamento in VCN-MGMT-Failover
    • Aggiorna le tabelle di instradamento in modo che punti il traffico destinato a:
      • 10.16.0.0/16 (VCN principale)
      • 10.17.0.0/16 (VCN secondaria)
      • 172.30.0.0/16 (reti overlay o risorse esterne)
      • verso il DRG nell'area secondaria.
  5. Verifica connettività
    • Utilizzare Network Analyzer o strumenti di diagnostica simili per convalidare la raggiungibilità dei componenti vSphere.
    • Verificare che vCenter sia operativo e che gli host dell'area primaria non siano disponibili.
    • Convalidare la connettività est-ovest (intra-sito) e nord-sud (esterno) utilizzando le VM di test.
    • Assicurarsi che l'accesso a Internet funzioni come previsto tramite il gateway NAT nell'area secondaria.

    Grazie a routing e configurazione ottimizzati, le VM possono recuperare e diventare operative entro 15 minuti dal rilevamento degli errori. Gli aggiornamenti e la conferma della rete in genere vengono completati entro altri 5 minuti.

Esegui un failback

Una volta ripristinata e operativa la Regione Primaria, effettuare le operazioni riportate di seguito per ripristinare lo stato originale dei servizi.

  1. Ripristino e riavvio degli host principali
    • Accendere gli host VMware ESXi arrestati in precedenza.
    • Una volta connessi, eseguire un reboot completo tramite OCI Console o riavviare manualmente i servizi di sistema utilizzando il riavvio services.sh su SSH per garantire la stabilità.
  2. vMotion VM Torna agli host primari
    • Eseguire la migrazione di tutte le VM di carico di lavoro e gestione dagli host dell'area secondaria agli host dell'area primaria.

      Nota

      Le VM possono abbandonare temporaneamente la rete a causa di un instradamento non adeguato in questa fase.
  3. Riconfigurare l'instradamento di rete
    • Scollegare VCN-MGMT-Failover dal DRG nell'area secondaria.
    • Ricollegare VCN-MGMT-Active al DRG nell'area primaria.
    • Non sono necessarie modifiche alla tabella di instradamento poiché le voci esistenti rimangono valide dalla configurazione precedente.
  4. Conferma stato operativo
    • Convalida la raggiungibilità della VM e del servizio dal bastion nell'area primaria.
    • Confermare la ripresa delle operazioni vSAN HA, vMotion e VMware come previsto.
    • Tutte le rotte e le politiche dovrebbero ora riflettere lo stato pre-failover.

Ciò completa la configurazione e la convalida di un cluster esteso vSAN VMware in tutte le OCI Dedicated Region, inclusa la simulazione riuscita degli scenari di failover e failback.