Configuración de alta disponibilidad en el servicio informático
Los administradores pueden definir parámetros para controlar cómo el servicio Compute intenta mantener las instancias disponibles en respuesta a interrupciones planificadas o no planificadas del nodo de cálculo. La configuración de alta disponibilidad del servicio informático afecta a todas las instancias informáticas e interactúa con la configuración de recuperación de instancias individuales.
Cuando se necesita realizar un mantenimiento planificado, se evacúa un nodo de cálculo. Si es posible, el servicio Compute migra todas las instancias en ejecución a otros nodos de cálculo del mismo dominio de errores. Si no se puede realizar este escenario por defecto, los parámetros de alta disponibilidad (HA), en el nivel del servicio Compute y de la instancia individual, determinan más opciones para migrar, parar y recuperar las instancias informáticas afectadas.
En el caso de una interrupción no planificada del nodo de cálculo, el servicio de cálculo para las instancias y, si la interrupción continúa, intenta evacuar el nodo de cálculo reiniciando las instancias afectadas en otros nodos de cálculo. Esta forma automatizada de migración en frío se denomina migración con reinicio.
Configuración de alta disponibilidad del servicio informático e instancia
La configuración de alta disponibilidad (HA) del servicio Compute permite gestionar resultados para diferentes tipos de interrupciones del nodo de cálculo. La acción de recuperación de disponibilidad de instancia es la única configuración de alta disponibilidad que se define para cada instancia. El resto de la configuración de alta disponibilidad se define en el servicio Compute y afecta a todas las instancias.
El dominio de errores selected es el dominio de errores que se especifica en la configuración de la instancia. Una instancia desplazada se encuentra en un dominio de errores que no es el dominio de errores seleccionado.
- Interrupción de mantenimiento planificada
-
Consulte Operaciones de mantenimiento de nodos de cálculo para obtener información sobre cómo evacuar un nodo de cálculo. Si es posible, el servicio Compute migra en directo las instancias en ejecución a otros nodos de cálculo del mismo dominio de errores. En esta sección también se describe cómo utilizar la acción de recuperación de disponibilidad de la instancia (definida en cada instancia) y las propiedades Recuperación automática y Resolución automática del servicio de cálculo al realizar una evacuación del nodo de cálculo.
- Interrupciones No Planificadas
-
El servicio Compute intenta parar las instancias y reiniciar las migra en las siguientes condiciones de interrupción del nodo de cálculo:
-
Apagado del estado de hardware
-
Incapacidad para acceder a la red de datos del nodo de cálculo
Un nodo de cálculo podría experimentar una interrupción en la que el servicio de cálculo no puede migrar las instancias. Por ejemplo, si el servicio Compute no puede acceder al nodo de cálculo en absoluto, el servicio Compute no puede parar y reiniciar la migración de las instancias.
-
- Interrupción no planificada menor que cinco minutos
-
En una interrupción no planificada, el servicio Compute para las instancias afectadas. Si la interrupción dura menos de cinco minutos, por defecto, el servicio Compute intenta reiniciar las instancias que se estaban ejecutando antes de la interrupción. El comportamiento real depende de cómo se configuren las instancias y el servicio informático. El siguiente flujo de decisión describe cómo puede controlar este comportamiento.
¿Desea que el servicio informático intente reiniciar las instancias que se estaban ejecutando antes de la interrupción? Éste es el estado por defecto.
-
Sí. Compruebe que la recuperación automática está activada y que la acción de recuperación de disponibilidad de la instancia está definida en
RESTORE_INSTANCE. Consulte Configuración del Estado de Recuperación para una Instancia Parada.Si algunas instancias ya no se pueden incluir en el dominio de errores seleccionado, la recuperación automática seguirá sondeando e intentando reiniciar las instancias. Véase también
getForcedStoppedInstances.Si la acción de recuperación de disponibilidad de la instancia se define en
STOP_INSTANCE, la instancia permanecerá parada, incluso si la recuperación automática está activada. -
Nº Desactive la recuperación automática. Las instancias que se estaban ejecutando antes de la interrupción permanecerán detenidas.
El valor de la acción de recuperación de disponibilidad de la instancia y el valor de recuperación automática se pueden cambiar en cualquier momento, y los cambios entrarán en vigor en el siguiente sondeo.
-
- Interrupción no planificada de más de cinco minutos
-
En una interrupción no planificada, el servicio Compute para las instancias afectadas. Si la interrupción dura más de cinco minutos, por defecto, el servicio de cálculo intenta reiniciar la migración (migración en frío) de instancias fuera del nodo de cálculo. Las instancias que no se pueden alojar en otros nodos de cálculo del mismo dominio de errores se migran con reinicio a otros dominios de errores. El comportamiento real depende de cómo se configure el servicio Compute. El siguiente flujo de decisión describe cómo puede controlar este comportamiento.
¿Desea que las instancias en ejecución se migren con reinicio? La migración con reinicio para e inicia cada instancia en ejecución en un nodo de cálculo determinado. Consulte también Configuración de alta disponibilidad para instancias informáticas.
-
Sí. Compruebe que la alta disponibilidad de VM esté activada.
Si algunas instancias no se pueden alojar en otro nodo de cálculo del mismo dominio de errores, ¿desea que esas instancias se migren con reinicio a otro dominio de errores?
-
Sí. Compruebe que Strict FD está desactivado. El servicio informático para las instancias que no se pueden alojar en ningún dominio de errores.
Después de la migración con reinicio, ¿desea que las instancias que se ejecutan en un dominio de errores que no es el dominio de errores seleccionado se migren automáticamente al dominio de errores seleccionado cuando los recursos estén disponibles?
-
Sí. Compruebe que la resolución automática está activada. Véase también
getDisplacedInstances. -
Nº Desactivar resolución automática.
-
-
Nº Activar FD estricta. Las instancias que se estaban ejecutando antes de la interrupción y que no se pueden migrar a otro nodo de cálculo en el dominio de errores actual permanecen paradas por el servicio de cálculo.
-
-
Nº Desactive la alta disponibilidad de VM. El servicio informático paratiene las instancias que se estaban ejecutando antes de la interrupción.
¿Desea que las instancias que ha parado el servicio informático se restauren automáticamente para que se ejecuten en el dominio de errores seleccionado? En caso afirmativo, compruebe que la recuperación automática está activada y que la acción de recuperación de disponibilidad de la instancia está definida en
RESTORE_INSTANCE. Consulte Configuración del Estado de Recuperación para una Instancia Parada. -
Visualización y definición de la configuración del servicio Compute
Para obtener información sobre cómo funcionan estos valores de configuración, consulte Comandos de configuración de servicios informáticos.
- Uso de la IU web de servicio
-
En el menú de navegación, haga clic en FD Instances y, a continuación, en Compute Service Detail.
La página Compute Service Information muestra la configuración actual de la recuperación automática, la resolución automática de instancias desplazadas, la alta disponibilidad de VM y la FD estricta. Todos estos valores están activados por defecto, excepto Strict FD, que está desactivado por defecto. Por defecto, la colocación del dominio de errores no se aplica estrictamente cuando el servicio Compute migra instancias.
Utilice el menú Controls (Controles) de la página Compute Service Information (Información de servicio de cálculo) para cambiar los valores de estos valores de configuración entre Enabled (Activado) y Disabled (Desactivado).
- Uso de la CLI del servicio
Utilice el comando show computeservice para mostrar los valores de configuración del servicio Compute actual. En el siguiente ejemplo, los valores por defecto se definen para los cuatro valores de configuración de alta disponibilidad: Auto Recovery Action Enabled, Auto-Resolve Displaced Instances Enabled, VM High Availability Enabled y Strict FD Enabled. Todos estos valores son verdaderos por defecto, excepto Strict FD Enabled, que es falso por defecto.
PCA-ADMIN> show computeservice
Data:
Id = unique_ID
Type = ComputeService
total CN cpu usage percent = 23.3
total CN memory usage percent = 16.2
Auto Recovery Action Enabled = true
Auto-Resolve Displaced Instances Enabled = true
VM High Availability Enabled = true
Strict FD Enabled = false
Name = Compute Service
Work State = Normal
Para cambiar esta configuración, utilice los comandos de la siguiente lista. El comando showcustomcmds computeservice muestra todos los comandos de configuración de alta disponibilidad en el servicio Compute.
PCA-ADMIN> showcustomcmds computeservice
enableAutoRecoveryAction
disableAutoRecoveryAction
enableAutoResolveDisplacedInstances
disableAutoResolveDisplacedInstances
enableVmHighAvailability
disableVmHighAvailability
enableStrictFD
disableStrictFD
getForcedStoppedInstances
getDisplacedInstances
Por ejemplo, para desactivar Auto Recovery Action Enabled, ejecute el comando disableAutoRecoveryAction. Para activar la aplicación estricta del dominio de errores, ejecute el comando enableStrictFD.
Comandos de configuración del servicio Compute
Los comandos de la CLI de servicio para la configuración de alta disponibilidad del servicio Compute se muestran en la siguiente lista. Para acceder a la configuración equivalente de la interfaz de usuario web de servicio, haga clic en el menú de navegación y en Instancias de FD. Consulte Visualización y configuración del servicio Compute.
En estas descripciones, el dominio de errores seleccionado es el dominio de errores especificado en la configuración de la instancia. Una instancia desplazada se encuentra en un dominio de errores que no es el dominio de errores seleccionado.
enableAutoRecoveryAction-
Activa el reinicio automático de las instancias que ha parado el servicio Compute. Éste es el estado por defecto. Si la acción de recuperación de disponibilidad de la instancia se define en
RESTORE_INSTANCE, este comando hace que las instancias que ha parado el servicio Compute se reinicien automáticamente en el dominio de errores seleccionado cuando haya recursos disponibles. Consulte también Configuración del Estado de Recuperación para una Instancia Parada ygetForcedStoppedInstances.El servicio Compute podría haber parado las instancias por los siguientes motivos:
-
Como resultado de la especificación de la opción forzar en una migración, no se pudieron migrar todas las operaciones y algunas instancias. Consulte Operaciones de mantenimiento de nodos informáticos.
-
Como resultado de una interrupción no planificada del nodo de cálculo.
Puede definir esta propiedad de recuperación automática en cualquier momento antes o después de una interrupción de mantenimiento administrativo o una interrupción no planificada para reiniciar las instancias que fueron detenidas por el servicio Compute. Si la acción de recuperación de disponibilidad de la instancia se define en
STOP_INSTANCE, la instancia permanece parada aunque la propiedad Recuperación automática esté activada. Si la acción de recuperación de disponibilidad de la instancia se cambia posteriormente aRESTORE_INSTANCE, una posterior transferencia de recuperación automática reiniciará la instancia. -
disableAutoRecoveryAction-
Desactiva el reinicio automático de las instancias paradas. Las instancias que ha parado el servicio Compute no se reinician automáticamente cuando los recursos están disponibles.
enableAutoResolveDisplacedInstances-
Permite la devolución de instancias en ejecución al dominio de errores seleccionado. Éste es el estado por defecto. Si las instancias se han movido a un dominio de errores diferente (desplazado) durante la evacuación del nodo de cálculo, este comando permite que esas instancias se migren automáticamente al dominio de errores seleccionado una vez que haya suficientes recursos disponibles en ese dominio de errores. Véase también
getDisplacedInstances.Puede definir esta configuración de resolución automática en cualquier momento antes o después de una interrupción para reubicar las instancias desplazadas. Las instancias que se paran no se migran.
disableAutoResolveDisplacedInstances-
Desactiva la devolución de instancias al dominio de errores seleccionado. Las instancias que se han movido a un dominio de errores diferente durante la evacuación del nodo de cálculo permanecen en el dominio de errores al que se han movido.
enableVmHighAvailability-
Activa la alta disponibilidad (migración con reinicio) fuera de un nodo de cálculo inaccesible. Éste es el estado por defecto.
disableVmHighAvailability-
Desactiva la migración de reinicio.
enableStrictFD-
Activa la aplicación estricta del dominio de errores. Durante la evacuación del nodo de cálculo, cualquier instancia que no se pueda mover a un nodo de cálculo diferente en el mismo dominio de errores se detiene si se ha especificado la opción force. Si no se ha especificado la opción force, la operación de migración falla.
disableStrictFD-
Desactiva la aplicación estricta del dominio de errores. Éste es el estado por defecto. Durante la evacuación del nodo de cálculo, cualquier instancia que no se pueda mover a un nodo de cálculo diferente del mismo dominio de errores se mueve a un dominio de errores diferente. Este movimiento a un dominio de errores diferente es temporal si la propiedad Resolución automática del servicio de cálculo está activada: si la resolución automática está activada, cuando los recursos estén disponibles, las instancias movidas se migrarán en directo de nuevo al dominio de errores seleccionado. Véase también
getDisplacedInstances. getForcedStoppedInstances-
Muestra todas las instancias que se han parado mediante el uso de la opción force en la operación de migración o que el servicio Compute ha parado en respuesta a una interrupción no planificada.
PCA-ADMIN> getForcedStoppedInstances Data: id displayName compartmentId -- ----------- ------------- ocid1.instance.unique_ID inst-name ocid1.compartment.unique_IDEn la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y, a continuación, en Instancias detenidas forzadas. Utilice el menú Actions para copiar los OCID.
getDisplacedInstances-
Muestra las instancias que se están ejecutando actualmente en un dominio de errores que no es el dominio de errores seleccionado. No se muestran las instancias que no se estén ejecutando.
En el siguiente ejemplo, las instancias en ejecución se están migrando desde el dominio de errores 1. Una instancia se ha incluido en el dominio de errores 2 y otra en el dominio de errores 3.
PCA-ADMIN> getDisplacedInstances Data: id displayName compartmentId faultDomain faultDomainSelected -- ----------- ------------- ----------- ------------------- ocid1.instance.unique_ID inst-name ocid1.compartment.unique_ID FAULT-DOMAIN-3 FAULT-DOMAIN-1 ocid1.instance.unique_ID inst-name ocid1.compartment.unique_ID FAULT-DOMAIN-2 FAULT-DOMAIN-1En la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y, a continuación, en Instancias desplazadas. Utilice el menú Actions para copiar los OCID.
Configuración del Estado de Recuperación para una Instancia Parada
Si el servicio Compute ha parado una instancia, puede configurar cómo se tratará esa instancia parada cuando los recursos vuelvan a estar disponibles definiendo la acción de recuperación de disponibilidad de la instancia y la propiedad Recuperación automática del servicio Compute.
Consulte la descripción del comando enableAutoRecoveryAction en Comandos de configuración del servicio informático por los motivos por los que el servicio informático puede parar una instancia. Consulte también las descripciones de disableAutoRecoveryAction y getForcedStoppedInstances.
Durante el inicio de la instancia o en una actualización de instancia posterior, defina la acción de recuperación de la instancia en la configuración de disponibilidad de la instancia.
En la interfaz de usuario web de Compute, consulte la sección "Configuración de disponibilidad" del cuadro de diálogo para crear o editar una instancia, o bien para crear o editar una configuración de instancia. Para reiniciar instancias paradas por el servicio informático, active la casilla denominada "Restaurar estado del ciclo de vida de la instancia después del mantenimiento de la infraestructura". Éste es el estado por defecto. Para mantener las instancias detenidas, desactive la casilla "Restore instance".
En la CLI de OCI, utilice la opción --availability-config o la propiedad availabilityConfig en el comando launch o update de la instancia informática, o el comando create o update de la configuración de la instancia. Defina recoveryAction en RESTORE_INSTANCE o STOP_INSTANCE. El comportamiento predeterminado es RESTORE_INSTANCE.
"availabilityConfig": {"recoveryAction": "STOP_INSTANCE"}
Activación de la aplicación estricta del dominio de errores
Para activar la aplicación estricta del dominio de errores, realice una de las siguientes acciones:
-
En la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y en Detalle de servicio de Compute. En la página Compute Service Information, haga clic en el menú Controls y haga clic en Enable Strict FD.
-
En la CLI de servicio, ejecute el comando
enableStrictFD.
Para obtener más información sobre el efecto de la aplicación del dominio de errores, consulte Comandos de configuración de servicios informáticos.
En caso de que el dominio de errores actual no tenga suficientes recursos para alojar todas las instancias que se deben migrar, realice lo siguiente:
-
Si está realizando una evacuación planificada del nodo de cálculo, especifique la opción de forzar en la operación de migración para detener las instancias en su dominio de errores actual.
-
Ejecute el comando
enableAutoRecoveryActiono seleccione Enable Auto Recovery en la interfaz de usuario web de servicio. -
Asegúrese de que la acción de recuperación de disponibilidad de instancia para cada instancia está definida en
RESTORE_INSTANCE, que es el valor por defecto. Consulte Configuración del Estado de Recuperación para una Instancia Parada.
Consulte el ejemplo de Evacuating a Compute Node.