Configuración de alta disponibilidad para instancias informáticas

Para las instancias informáticas, la alta disponibilidad significa una recuperación automatizada en caso de que falle la infraestructura subyacente o de que se cierre un componente para su mantenimiento. El estado de los nodos de cálculo, los hipervisores y las instancias informáticas se supervisa continuamente.

La alta disponibilidad (HA) de las instancias informáticas se puede configurar. El comportamiento descrito en esta sección se basa en la configuración estándar. Para obtener información sobre la configuración de alta disponibilidad configurable, como la migración con reinicio, la colocación del dominio de errores y la recuperación automática, consulte Configuring High Availability in the Compute Service.

Por defecto, el sistema intenta migrar en directo o reiniciar instancias en el dominio de errores seleccionado, pero también puede reiniciar instancias en otros dominios de errores si no hay recursos suficientes disponibles en el dominio de errores seleccionado. El dominio de errores seleccionado es el especificado en la configuración de la instancia.

Interrupción de nodo de cálculo

Si un nodo de cálculo deja de funcionar debido a un reinicio no planificado, sus instancias se reinician cuando el nodo de cálculo vuelve a funcionar correctamente. Sin embargo, este comportamiento se puede configurar. En el siguiente intervalo de sondeo, por defecto, si se encuentran instancias que deben estar en ejecución pero que están en un estado diferente, el comando de inicio se vuelve a ejecutar. Si alguna instancia se ha bloqueado y permanece en ese estado, el hipervisor intenta reiniciarlas hasta 5 veces. Las instancias que no se estaban ejecutando antes de que el nodo de cálculo dejara de estar disponible permanecen cerradas cuando el nodo de cálculo está activo y en ejecución de nuevo.

Si se pierde un nodo de cálculo debido a un fallo, por defecto el sistema intenta migrar en directo las instancias de cálculo en ejecución del nodo de cálculo con fallos a otros nodos de cálculo. El comportamiento real depende de cómo haya configurado los parámetros de alta disponibilidad del servicio Compute.

Un nodo de cálculo se considera que falla cuando se ha desconectado de la red de datos o se ha apagado durante aproximadamente 5 minutos. Este timeout de 5 minutos es el umbral para colocar el nodo de cálculo en estado FAIL y su agente en estado EVACUATING. Esta condición es necesaria para que se pueda iniciar la migración con reinicio.

Migración con reinicio

La migración con reinicio implica que todas las instancias informáticas del nodo de cálculo con fallos se paran y se reinician en otro nodo de cálculo. Cuando se completa la migración, el agente del nodo de cálculo con fallos indica que las instancias se han evacuado. Si el nodo de cálculo finalmente se reinicia correctamente, debe pasar por un proceso de limpieza que elimine todas las configuraciones de instancia obsoletas y los discos virtuales asociados. Después de la limpieza, el nodo de cálculo puede volver a alojar instancias informáticas.

Durante toda la migración de reinicio, las instancias permanecen en estado de configuración de "traslado". Cuando se completa la migración, el estado de configuración de la instancia cambia a "running". Las instancias que se han parado antes del fallo no se migran porque no están asociadas a ningún nodo de cálculo.

Configuración de dominio de errores

La preferencia de dominio de errores no se aplica estrictamente con la migración de instancias, lo que significa que el servicio de recursos informáticos por defecto puede parar las instancias si el dominio de errores seleccionado no tiene recursos suficientes y reiniciarlas en un nodo de recursos informáticos de otro dominio de errores. Si se configura la aplicación estricta del dominio de errores en el servicio Compute, se deben parar las instancias que no se pueden migrar a otro nodo de cálculo en el dominio de errores seleccionado.

Si la resolución automática del dominio de errores está activada en el servicio Compute, las instancias que se hayan migrado a un dominio de errores diferente se pueden migrar de nuevo al dominio de errores seleccionado.

Mantenimiento planificado

En caso de mantenimiento planificado, el administrador debe desactivar primero el aprovisionamiento para el nodo de cálculo en cuestión y aplicar un bloqueo de mantenimiento. Cuando el nodo de cálculo está bajo un bloqueo de aprovisionamiento, el administrador puede migrar en directo todas las instancias de cálculo en ejecución a otro nodo de cálculo. El modo de mantenimiento solo se puede activar cuando no hay más instancias en ejecución en el nodo de cálculo. Puede especificar la opción forzar para parar cualquier instancia que no se pueda migrar. Todas las operaciones de instancia informática de este nodo de cálculo están desactivadas. No se puede aprovisionar ni anular el aprovisionamiento de un nodo de cálculo en modo de mantenimiento.

Documentación de Oracle Cloud Infrastructure

Configuración de alta disponibilidad para instancias informáticas