Validar Comportamento de Failover e Failback
Assim que o cluster estendido por vSAN VMware é configurado, é essencial validar os workflows de failover e failback para garantir a continuidade dos negócios e a prontidão para recuperação de desastres. Esta seção descreve as etapas para simular uma falha no local principal e testar a recuperação do local secundário, seguido pela restauração dos serviços no Local Principal.
Simular um Evento de Failover
Para simular uma falha da Região Principal:
- Desativar Hosts da Região Principal
- Use a Console do OCI para desligar com força todos os hosts VMware ESXi na Região Principal.
- Observe a recuperação de HA no site secundário
- Na VM do Bastion na Região Secundária, conecte-se a um dos hosts VMware ESXi.
- Observe que as VMs de gerenciamento e carga de trabalho ligam automaticamente por meio do VMware vSphere HA.
- Atualizar Roteamento de Rede
- Desanexe
VCN-MGMT-Active
do DRG na Região Principal. - Anexe
VCN-MGMT-Failover
ao DRG na Região Secundária.
- Desanexe
- Modificar Tabelas de Roteamento em
VCN-MGMT-Failover
- Atualizar tabelas de roteamento para apontar o tráfego destinado a:
10.16.0.0/16
(VCN Principal)10.17.0.0/16
(VCN Secundária)172.30.0.0/16
(redes sobrepostas ou recursos externos)- para o DRG na Região Secundária.
- Atualizar tabelas de roteamento para apontar o tráfego destinado a:
- Verificar Conectividade
- Use o Analisador de Rede ou ferramentas de diagnóstico semelhantes para validar a acessibilidade aos componentes vSphere.
- Confirme se o vCenter está operacional e exibe os hosts da Região Principal como indisponíveis.
- Valide a conectividade Leste-Oeste (intra-site) e Norte-Sul (externa) usando VMs de teste.
- Certifique-se de que o acesso à Internet funcione conforme esperado por meio do Gateway NAT na Região Secundária.
Com roteamento e configuração otimizados, as VMs podem se recuperar e se tornar operacionais em até 15 minutos após a detecção de falhas. As atualizações e confirmações de rede geralmente são concluídas em mais 5 minutos.
Executar um Failback
Depois que a Região Primária for restaurada e estiver operacional, siga estas etapas para retornar os serviços ao estado original:
- Restaurar e Reinicializar Hosts Principais
- Ative os hosts ESXi VMware desligados anteriormente.
- Quando estiver on-line, execute uma reinicialização completa por meio da Console do OCI ou reinicie manualmente os serviços do sistema usando a reinicialização
services.sh
por SSH para garantir a estabilidade.
- vMotion VMs Voltar para Hosts Principais
- Migre todas as VMs de carga de trabalho e gerenciamento de hosts de Região Secundária para hosts de Região Principal.
Observação:
As VMs podem desativar temporariamente a rede devido a um roteamento não ajustado neste estágio.
- Migre todas as VMs de carga de trabalho e gerenciamento de hosts de Região Secundária para hosts de Região Principal.
- Reconfigurar Roteamento de Rede
- Desanexe
VCN-MGMT-Failover
do DRG na Região Secundária. - Anexe novamente o
VCN-MGMT-Active
ao DRG na Região Principal. - Nenhuma alteração na tabela de roteamento é necessária, pois as entradas existentes permanecem válidas da configuração anterior.
- Desanexe
- Confirmar Status Operacional
- Valide a acessibilidade da VM e do serviço no Bastion na Região Principal.
- Confirme se as operações de HA, vMotion e VMware vSAN são retomadas conforme esperado.
- Todas as rotas e políticas devem agora refletir o estado de pré-failover.
Isso conclui a configuração e a validação de um cluster esticado por vSAN VMware em OCI Dedicated Region, incluindo simulação bem-sucedida de cenários de failover e failback.