Valider le comportement de basculement et de rétablissement

Une fois le cluster étendu VMware vSAN configuré, il est essentiel de valider à la fois les workflows de basculement et de rétablissement pour assurer la continuité des activités et la préparation à la reprise après sinistre. Cette section décrit les étapes à suivre pour simuler une défaillance sur le site principal et tester la récupération à partir du site secondaire, puis la restauration des services sur le site principal.

Simuler un événement de basculement

Pour simuler une défaillance de la région principale :

  1. Mise hors tension des hôtes de la région principale
    • Utilisez la console OCI pour mettre tous les hôtes VMware ESXi hors tension de la région principale.
  2. Observer la récupération HA sur le site secondaire
    • A partir de la machine virtuelle de bastion dans la région secondaire, connectez-vous à l'un des hôtes VMware ESXi.
    • Notez que les machines virtuelles de gestion et de charge globale mettent automatiquement sous tension via VMware vSphere HA.
  3. Mettre à jour l'acheminement réseau
    • Détachez VCN-MGMT-Active du DRG dans la région principale.
    • Attachez VCN-MGMT-Failover au DRG dans la région secondaire.
  4. Modifier les tables de routage dans VCN-MGMT-Failover
    • Mettez à jour les tables de routage pour pointer le trafic destiné à :
      • 10.16.0.0/16 (VCN principal)
      • 10.17.0.0/16 (VCN secondaire)
      • 172.30.0.0/16 (réseaux superposés ou ressources externes)
      • vers le DRG dans la région secondaire.
  5. Vérifier la connexion
    • Utilisez Network Analyzer ou des outils de diagnostic similaires pour valider l'accessibilité des composants vSphere.
    • Vérifiez que vCenter est opérationnel et que les hôtes de la région principale ne sont pas disponibles.
    • Validez la connectivité Est-Ouest (intra-site) et Nord-Sud (externe) à l'aide de machines virtuelles de test.
    • Assurez-vous que l'accès Internet fonctionne comme prévu via la passerelle NAT dans la région secondaire.

    Grâce au routage et à la configuration optimisés, les machines virtuelles peuvent récupérer et devenir opérationnelles dans les 15 minutes suivant la détection de défaillance. Les mises à jour et la confirmation réseau se terminent généralement en 5 minutes supplémentaires.

Exécuter un rétablissement

Une fois la région principale restaurée et opérationnelle, procédez comme suit pour rétablir l'état d'origine des services :

  1. Restauration et réinitialisation des hôtes principaux
    • Mettez sous tension les hôtes VMware ESXi précédemment arrêtés.
    • Une fois en ligne, effectuez un redémarrage complet via la console OCI ou redémarrez manuellement les services système à l'aide du redémarrage services.sh via SSH pour assurer la stabilité.
  2. vMotion Machines virtuelles renvoyées vers les hôtes principaux
    • Migrez toutes les machines virtuelles de charge globale et de gestion des hôtes de la région secondaire vers les hôtes de la région principale.

      Remarques :

      Les machines virtuelles peuvent temporairement supprimer le réseau en raison d'un routage non ajusté à ce stade.
  3. Reconfigurer le routage réseau
    • Détachez VCN-MGMT-Failover du DRG dans la région secondaire.
    • Rattachez VCN-MGMT-Active au DRG dans la région principale.
    • Aucune modification de table de routage n'est requise car les entrées existantes restent valides à partir de la configuration précédente.
  4. Confirmer le statut opérationnel
    • Validez l'accessibilité des machines virtuelles et des services à partir du bastion dans la région principale.
    • Confirmez que les opérations HA, vMotion et VMware vSAN reprennent comme prévu.
    • Toutes les routes et stratégies doivent maintenant refléter l'état d'avant basculement.

La configuration et la validation d'un cluster étendu VMware vSAN sur les régions dédiées OCI sont terminées, y compris la simulation réussie des scénarios de basculement et de rétablissement.