Validación del comportamiento de failover y failback

Una vez configurado el cluster ampliado de vSAN VMware, es esencial validar tanto los flujos de trabajo de failover como los de failback para garantizar la continuidad del negocio y la preparación para la recuperación ante desastres. En esta sección, se describen los pasos para simular un fallo en el sitio principal y probar la recuperación del sitio secundario, seguido de la restauración de los servicios en el sitio principal.

Simulación de un Evento de Failover

Para simular un fallo de la región principal:

Apagado de hosts de región principal
- Utilice la consola de OCI para apagar forzosamente todos los hosts VMware ESXi de la región principal.
Observación de la recuperación de alta disponibilidad en el sitio secundario
- En la VM de bastión de la región secundaria, conéctese a uno de los hosts VMware ESXi.
- Observe que las máquinas virtuales de gestión y carga de trabajo se encienden automáticamente mediante VMware vSphere HA.
Actualizar enrutamiento de red
- Desasocie VCN-MGMT-Active del DRG en la región principal.
- Asocie VCN-MGMT-Failover al DRG en la región secundaria.
Modificar tablas de rutas en VCN-MGMT-Failover
- Actualice las tablas de rutas para señalar el tráfico destinado a:
  - 10.16.0.0/16 (VCN principal)
  - 10.17.0.0/16 (VCN secundaria)
  - 172.30.0.0/16 (redes superpuestas o recursos externos)
  - hacia el DRG en la región secundaria.
Verificar Conectividad
- Utilice Network Analyzer o herramientas de diagnóstico similares para validar la accesibilidad a los componentes vSphere.
- Confirme que vCenter está operativo y muestra los hosts de región principal como no disponibles.
- Valide la conectividad Este-Oeste (intra-sitio) y Norte-Sur (externa) mediante máquinas virtuales de prueba.
- Asegúrese de que el acceso a Internet funciona de la forma esperada a través del gateway de NAT en la región secundaria.
Con el enrutamiento y la configuración optimizados, las máquinas virtuales pueden recuperarse y ponerse en funcionamiento en los 15 minutos siguientes a la detección de fallos. Las actualizaciones de red y la confirmación suelen completarse en 5 minutos adicionales.

Ejecución de un failback

Una vez que la región principal se haya restaurado y esté operativa, siga estos pasos para devolver los servicios a su estado original:

Restauración y reinicio de hosts principales
- Encienda los hosts VMware ESXi cerrados anteriormente.
- Una vez en línea, realice un reinicio completo a través de la consola de OCI o reinicie manualmente los servicios del sistema mediante el reinicio services.sh a través de SSH para garantizar la estabilidad.
vMotion VM de vuelta a hosts principales
- Migre todas las máquinas virtuales de gestión y carga de trabajo de los hosts de región secundaria a los hosts de región principal.
  
  Note:
  Las máquinas virtuales pueden abandonar temporalmente la red debido a un enrutamiento sin ajustar en esta etapa.
Reconfiguración del enrutamiento de red
- Desasocie VCN-MGMT-Failover del DRG en la región secundaria.
- Vuelva a asociar VCN-MGMT-Active al DRG en la región principal.
- No se necesitan cambios en la tabla de rutas, ya que las entradas existentes siguen siendo válidas desde la configuración anterior.
Confirmar estado operativo
- Valide la accesibilidad de la máquina virtual y el servicio desde el bastión en la región principal.
- Confirme que las operaciones de HA, vMotion y VMware vSAN se reanuden según lo esperado.
- Todas las rutas y políticas ahora deben reflejar el estado previo al failover.

De esta forma se completa la configuración y validación de un cluster ampliado de vSAN VMware en las regiones dedicadas de OCI, incluida la simulación correcta de escenarios de failover y failback.