Validar Comportamento de Failover e Failback

Assim que o cluster estendido por vSAN VMware é configurado, é essencial validar os workflows de failover e failback para garantir a continuidade dos negócios e a prontidão para recuperação de desastres. Esta seção descreve as etapas para simular uma falha no local principal e testar a recuperação do local secundário, seguido pela restauração dos serviços no Local Principal.

Simular um Evento de Failover

Para simular uma falha da Região Principal:

  1. Desativar Hosts da Região Principal
    • Use a Console do OCI para desligar com força todos os hosts VMware ESXi na Região Principal.
  2. Observe a recuperação de HA no site secundário
    • Na VM do Bastion na Região Secundária, conecte-se a um dos hosts VMware ESXi.
    • Observe que as VMs de gerenciamento e carga de trabalho ligam automaticamente por meio do VMware vSphere HA.
  3. Atualizar Roteamento de Rede
    • Desanexe VCN-MGMT-Active do DRG na Região Principal.
    • Anexe VCN-MGMT-Failover ao DRG na Região Secundária.
  4. Modificar Tabelas de Roteamento em VCN-MGMT-Failover
    • Atualizar tabelas de roteamento para apontar o tráfego destinado a:
      • 10.16.0.0/16 (VCN Principal)
      • 10.17.0.0/16 (VCN Secundária)
      • 172.30.0.0/16 (redes sobrepostas ou recursos externos)
      • para o DRG na Região Secundária.
  5. Verificar Conectividade
    • Use o Analisador de Rede ou ferramentas de diagnóstico semelhantes para validar a acessibilidade aos componentes vSphere.
    • Confirme se o vCenter está operacional e exibe os hosts da Região Principal como indisponíveis.
    • Valide a conectividade Leste-Oeste (intra-site) e Norte-Sul (externa) usando VMs de teste.
    • Certifique-se de que o acesso à Internet funcione conforme esperado por meio do Gateway NAT na Região Secundária.

    Com roteamento e configuração otimizados, as VMs podem se recuperar e se tornar operacionais em até 15 minutos após a detecção de falhas. As atualizações e confirmações de rede geralmente são concluídas em mais 5 minutos.

Executar um Failback

Depois que a Região Primária for restaurada e estiver operacional, siga estas etapas para retornar os serviços ao estado original:

  1. Restaurar e Reinicializar Hosts Principais
    • Ative os hosts ESXi VMware desligados anteriormente.
    • Quando estiver on-line, execute uma reinicialização completa por meio da Console do OCI ou reinicie manualmente os serviços do sistema usando a reinicialização services.sh por SSH para garantir a estabilidade.
  2. vMotion VMs Voltar para Hosts Principais
    • Migre todas as VMs de carga de trabalho e gerenciamento de hosts de Região Secundária para hosts de Região Principal.

      Observação:

      As VMs podem desativar temporariamente a rede devido a um roteamento não ajustado neste estágio.
  3. Reconfigurar Roteamento de Rede
    • Desanexe VCN-MGMT-Failover do DRG na Região Secundária.
    • Anexe novamente o VCN-MGMT-Active ao DRG na Região Principal.
    • Nenhuma alteração na tabela de roteamento é necessária, pois as entradas existentes permanecem válidas da configuração anterior.
  4. Confirmar Status Operacional
    • Valide a acessibilidade da VM e do serviço no Bastion na Região Principal.
    • Confirme se as operações de HA, vMotion e VMware vSAN são retomadas conforme esperado.
    • Todas as rotas e políticas devem agora refletir o estado de pré-failover.

Isso conclui a configuração e a validação de um cluster esticado por vSAN VMware em OCI Dedicated Region, incluindo simulação bem-sucedida de cenários de failover e failback.