Validar Comportamento de Failover e Failback

Assim que o cluster estendido por vSAN VMware é configurado, é essencial validar os workflows de failover e failback para garantir a continuidade dos negócios e a prontidão para recuperação de desastres. Esta seção descreve as etapas para simular uma falha no local principal e testar a recuperação do local secundário, seguido pela restauração dos serviços no Local Principal.

Simular um Evento de Failover

Para simular uma falha da Região Principal:

Desativar Hosts da Região Principal
- Use a Console do OCI para desligar com força todos os hosts VMware ESXi na Região Principal.
Observe a recuperação de HA no site secundário
- Na VM do Bastion na Região Secundária, conecte-se a um dos hosts VMware ESXi.
- Observe que as VMs de gerenciamento e carga de trabalho ligam automaticamente por meio do VMware vSphere HA.
Atualizar Roteamento de Rede
- Desanexe VCN-MGMT-Active do DRG na Região Principal.
- Anexe VCN-MGMT-Failover ao DRG na Região Secundária.
Modificar Tabelas de Roteamento em VCN-MGMT-Failover
- Atualizar tabelas de roteamento para apontar o tráfego destinado a:
  - 10.16.0.0/16 (VCN Principal)
  - 10.17.0.0/16 (VCN Secundária)
  - 172.30.0.0/16 (redes sobrepostas ou recursos externos)
  - para o DRG na Região Secundária.
Verificar Conectividade
- Use o Analisador de Rede ou ferramentas de diagnóstico semelhantes para validar a acessibilidade aos componentes vSphere.
- Confirme se o vCenter está operacional e exibe os hosts da Região Principal como indisponíveis.
- Valide a conectividade Leste-Oeste (intra-site) e Norte-Sul (externa) usando VMs de teste.
- Certifique-se de que o acesso à Internet funcione conforme esperado por meio do Gateway NAT na Região Secundária.
Com roteamento e configuração otimizados, as VMs podem se recuperar e se tornar operacionais em até 15 minutos após a detecção de falhas. As atualizações e confirmações de rede geralmente são concluídas em mais 5 minutos.

Executar um Failback

Depois que a Região Primária for restaurada e estiver operacional, siga estas etapas para retornar os serviços ao estado original:

Restaurar e Reinicializar Hosts Principais
- Ative os hosts ESXi VMware desligados anteriormente.
- Quando estiver on-line, execute uma reinicialização completa por meio da Console do OCI ou reinicie manualmente os serviços do sistema usando a reinicialização services.sh por SSH para garantir a estabilidade.
vMotion VMs Voltar para Hosts Principais
- Migre todas as VMs de carga de trabalho e gerenciamento de hosts de Região Secundária para hosts de Região Principal.
  
  Observação:
  As VMs podem desativar temporariamente a rede devido a um roteamento não ajustado neste estágio.
Reconfigurar Roteamento de Rede
- Desanexe VCN-MGMT-Failover do DRG na Região Secundária.
- Anexe novamente o VCN-MGMT-Active ao DRG na Região Principal.
- Nenhuma alteração na tabela de roteamento é necessária, pois as entradas existentes permanecem válidas da configuração anterior.
Confirmar Status Operacional
- Valide a acessibilidade da VM e do serviço no Bastion na Região Principal.
- Confirme se as operações de HA, vMotion e VMware vSAN são retomadas conforme esperado.
- Todas as rotas e políticas devem agora refletir o estado de pré-failover.

Isso conclui a configuração e a validação de um cluster esticado por vSAN VMware em OCI Dedicated Region, incluindo simulação bem-sucedida de cenários de failover e failback.