Valider le comportement de basculement et de restauration automatique

Une fois la grappe étendue vSAN VMware configurée, il est essentiel de valider les flux de travail de basculement et de reprise après sinistre pour assurer la continuité des activités et la préparation à la reprise après sinistre. Cette section décrit les étapes à suivre pour simuler une défaillance au site principal et tester la récupération à partir du site secondaire, puis restaurer les services au site principal.

Simuler un événement de basculement

Pour simuler une défaillance de la région principale :

Mettre hors tension les hôtes de la région principale
- Utilisez la console OCI pour mettre hors service tous les hôtes VMware ESXi de la région principale.
Observer la récupération haute disponibilité sur le site secondaire
- À partir de la machine virtuelle d'hôte bastion dans la région secondaire, connectez-vous à l'un des hôtes VMware ESXi.
- Notez que les machines virtuelles de gestion et de charge de travail s'exécutent automatiquement au moyen de VMware vSphere HA.
Mettre à jour l'acheminement réseau
- Détacher VCN-MGMT-Active de la passerelle DRG dans la région principale.
- Attachez VCN-MGMT-Failover à la passerelle DRG dans la région secondaire.
Modifier les tables de routage dans VCN-MGMT-Failover
- Mettre à jour les tables de routage pour pointer le trafic destiné à :
  - 10.16.0.0/16 (réseau VCN principal)
  - 10.17.0.0/16 (réseau VCN secondaire)
  - 172.30.0.0/16 (réseaux superposés ou ressources externes)
  - vers la passerelle DRG dans la région secondaire.
Vérifier la connectivité
- Utilisez Network Analyzer ou des outils de diagnostic similaires pour valider l'accessibilité aux composants vSphere.
- Confirmez que vCenter est opérationnel et affiche les hôtes de la région principale comme indisponibles.
- Valider la connectivité Est-Ouest (intra-site) et Nord-Sud (externe) à l'aide des machines virtuelles de test.
- Assurez-vous que l'accès Internet fonctionne comme prévu au moyen de la passerelle NAT dans la région secondaire.
Avec un routage et une configuration optimisés, les machines virtuelles peuvent récupérer et devenir opérationnelles dans les 15 minutes suivant la détection des pannes. Les mises à jour et la confirmation de mise en réseau se terminent généralement dans les 5 minutes supplémentaires.

Exécuter une restauration automatique

Une fois la région principale restaurée et opérationnelle, procédez comme suit pour remettre les services à leur état d'origine :

Restaurer et redémarrer les hôtes principaux
- Mettez sous tension les hôtes VMware ESXi précédemment arrêtés.
- Une fois en ligne, effectuez un redémarrage complet au moyen de la console OCI ou redémarrez manuellement les services système à l'aide du redémarrage services.sh sur SSH pour garantir la stabilité.
Retour des machines virtuelles vMotion aux hôtes principaux
- Migrer toutes les machines virtuelles de charge de travail et de gestion des hôtes de la région secondaire vers les hôtes de la région principale.
  
  Note :
  Les machines virtuelles peuvent temporairement abandonner le réseau en raison d'un routage non ajusté à ce stade.
Reconfigurer le routage réseau
- Détacher VCN-MGMT-Failover de la passerelle DRG dans la région secondaire.
- Rattachez VCN-MGMT-Active à la passerelle DRG de la région principale.
- Aucune modification de table de routage n'est requise car les entrées existantes restent valides à partir de la configuration précédente.
Confirmer le statut opérationnel
- Valider l'accessibilité de la machine virtuelle et du service à partir de l'hôte bastion dans la région principale.
- Vérifiez que les opérations vSAN HA, vMotion et VMware reprennent comme prévu.
- Toutes les routes et politiques doivent désormais refléter l'état de pré-basculement.

Ceci termine la configuration et la validation d'une grappe étendue vSAN VMware dans les régions dédiées OCI, y compris la simulation réussie des scénarios de basculement et de reprise après incident.