Valider le comportement de basculement et de rétablissement

Une fois le cluster étendu VMware vSAN configuré, il est essentiel de valider à la fois les workflows de basculement et de rétablissement pour assurer la continuité des activités et la préparation à la reprise après sinistre. Cette section décrit les étapes à suivre pour simuler une défaillance sur le site principal et tester la récupération à partir du site secondaire, puis la restauration des services sur le site principal.

Simuler un événement de basculement

Pour simuler une défaillance de la région principale :

Mise hors tension des hôtes de la région principale
- Utilisez la console OCI pour mettre tous les hôtes VMware ESXi hors tension de la région principale.
Observer la récupération HA sur le site secondaire
- A partir de la machine virtuelle de bastion dans la région secondaire, connectez-vous à l'un des hôtes VMware ESXi.
- Notez que les machines virtuelles de gestion et de charge globale mettent automatiquement sous tension via VMware vSphere HA.
Mettre à jour l'acheminement réseau
- Détachez VCN-MGMT-Active du DRG dans la région principale.
- Attachez VCN-MGMT-Failover au DRG dans la région secondaire.
Modifier les tables de routage dans VCN-MGMT-Failover
- Mettez à jour les tables de routage pour pointer le trafic destiné à :
  - 10.16.0.0/16 (VCN principal)
  - 10.17.0.0/16 (VCN secondaire)
  - 172.30.0.0/16 (réseaux superposés ou ressources externes)
  - vers le DRG dans la région secondaire.
Vérifier la connexion
- Utilisez Network Analyzer ou des outils de diagnostic similaires pour valider l'accessibilité des composants vSphere.
- Vérifiez que vCenter est opérationnel et que les hôtes de la région principale ne sont pas disponibles.
- Validez la connectivité Est-Ouest (intra-site) et Nord-Sud (externe) à l'aide de machines virtuelles de test.
- Assurez-vous que l'accès Internet fonctionne comme prévu via la passerelle NAT dans la région secondaire.
Grâce au routage et à la configuration optimisés, les machines virtuelles peuvent récupérer et devenir opérationnelles dans les 15 minutes suivant la détection de défaillance. Les mises à jour et la confirmation réseau se terminent généralement en 5 minutes supplémentaires.

Exécuter un rétablissement

Une fois la région principale restaurée et opérationnelle, procédez comme suit pour rétablir l'état d'origine des services :

Restauration et réinitialisation des hôtes principaux
- Mettez sous tension les hôtes VMware ESXi précédemment arrêtés.
- Une fois en ligne, effectuez un redémarrage complet via la console OCI ou redémarrez manuellement les services système à l'aide du redémarrage services.sh via SSH pour assurer la stabilité.
vMotion Machines virtuelles renvoyées vers les hôtes principaux
- Migrez toutes les machines virtuelles de charge globale et de gestion des hôtes de la région secondaire vers les hôtes de la région principale.
  
  Remarques :
  Les machines virtuelles peuvent temporairement supprimer le réseau en raison d'un routage non ajusté à ce stade.
Reconfigurer le routage réseau
- Détachez VCN-MGMT-Failover du DRG dans la région secondaire.
- Rattachez VCN-MGMT-Active au DRG dans la région principale.
- Aucune modification de table de routage n'est requise car les entrées existantes restent valides à partir de la configuration précédente.
Confirmer le statut opérationnel
- Validez l'accessibilité des machines virtuelles et des services à partir du bastion dans la région principale.
- Confirmez que les opérations HA, vMotion et VMware vSAN reprennent comme prévu.
- Toutes les routes et stratégies doivent maintenant refléter l'état d'avant basculement.

La configuration et la validation d'un cluster étendu VMware vSAN sur les régions dédiées OCI sont terminées, y compris la simulation réussie des scénarios de basculement et de rétablissement.