Configuração de Alta Disponibilidade para Instâncias do Serviço Compute
Para instâncias de computação, alta disponibilidade significa recuperação automatizada caso a infraestrutura subjacente falhe ou um componente seja desativado para manutenção. O estado dos nós de computação, hipervisores e instâncias de computação é monitorado continuamente.
A alta disponibilidade (HA) de instâncias de computação é configurável. O comportamento descrito nesta seção é baseado em configurações padrão. Para obter informações sobre definições de HA configuráveis, como migração com reinicialização, posicionamento do domínio de falha e recuperação automática, consulte Configurando a Alta Disponibilidade no Serviço Compute.
Por padrão, o sistema tenta migrar ou reiniciar instâncias em tempo real em seu domínio de falha selecionado, mas também pode reiniciar instâncias em outros domínios de falha se recursos insuficientes estiverem disponíveis no domínio de falha selecionado. O domínio de falha selecionado é o especificado na configuração da instância.
- Interrupção do Nó de Computação
-
Se um nó de computação ficar inativo por causa de uma reinicialização não planejada, suas instâncias serão reiniciadas quando o nó de computação retornar com sucesso à operação normal. No entanto, esse comportamento é configurável. No próximo intervalo de sondagem, por padrão, se forem encontradas instâncias que devem estar em execução, mas que estão em um estado diferente, o comando start será emitido novamente. Se alguma instância tiver travado e permanecer nesse estado, o hypervisor tentará reiniciá-las até 5 vezes. As instâncias que não estavam em execução antes de o nó de computação se tornar indisponível permanecem desativadas quando o nó de computação está ativo e em execução novamente.
Se um nó de computação for perdido devido a uma falha, por padrão, o sistema tentará migrar ao vivo instâncias de computação em execução do nó de computação com falha para outros nós de computação. O comportamento real depende de como você configurou os parâmetros de alta disponibilidade do serviço Compute.
Um nó de computação é considerado falho quando foi desconectado da rede de dados ou está no estado desligado por cerca de 5 minutos. Esse timeout de 5 minutos é o limite para colocar o nó de computação no estado
FAIL
e seu agente no estadoEVACUATING
. Esta condição é necessária para que a migração de reinicialização possa ser iniciada. - Migração de Reinicialização
-
A migração de reinicialização implica que todas as instâncias de computação do nó de computação com falha sejam interrompidas e reiniciadas em outro nó de computação. Quando a migração é concluída, o agente do nó de computação com falha indica que as instâncias foram evacuadas. Se o nó de computação for reinicializado com sucesso, ele deverá passar por um processo de limpeza que removerá todas as configurações de instância obsoletas e os discos virtuais associados. Após a limpeza, o nó de computação pode hospedar instâncias de computação novamente.
Durante toda a migração de reinicialização, as instâncias permanecem no estado de configuração "em movimento". Quando a migração é concluída, o estado de configuração da instância é alterado para "em execução". As instâncias que foram interrompidas antes da falha não são migradas porque não estão associadas a nenhum nó de computação.
- Definições do Domínio de Falha
-
A preferência de domínio de falha não é rigorosamente aplicada com a migração de instâncias, o que significa que o serviço Compute por padrão pode interromper instâncias se o domínio de falha selecionado tiver recursos insuficientes e reiniciá-los em um nó de computação em outro domínio de falha. Se a imposição rigorosa do domínio de falha estiver configurada no serviço Compute, as instâncias que não puderem ser migradas para outro nó de computação no domínio de falha selecionado deverão ser interrompidas.
Se a resolução automática do domínio de falha estiver ativada no serviço Compute, as instâncias que foram migradas para outro domínio de falha poderão ser migradas de volta para o domínio de falha selecionado.
- Manutenção Planejada
-
No caso de manutenção planejada, o administrador deve primeiro desativar o provisionamento do nó de computação em questão e aplicar um bloqueio de manutenção. Quando o nó de computação está sob um bloqueio de provisionamento, o administrador pode migrar ao vivo todas as instâncias de computação em execução para outro nó de computação. O modo de manutenção só pode ser ativado quando não há mais instâncias em execução no nó de computação. Você pode especificar a opção de imposição para interromper qualquer instância que não possa ser migrada. Todas as operações da instância de computação neste nó de computação estão desativadas. Não é possível provisionar ou desprovisionar um nó de computação no modo de manutenção.