Configuración de alta disponibilidad en el servicio informático

Los administradores pueden definir parámetros para controlar cómo el servicio Compute intenta mantener las instancias disponibles en respuesta a interrupciones planificadas o no planificadas del nodo de cálculo. La configuración de alta disponibilidad del servicio informático afecta a todas las instancias informáticas e interactúa con la configuración de recuperación de instancias individuales.

Cuando se necesita realizar un mantenimiento planificado, se evacúa un nodo de cálculo. Si es posible, el servicio Compute migra todas las instancias en ejecución a otros nodos de cálculo del mismo dominio de errores. Si no se puede realizar este escenario por defecto, los parámetros de alta disponibilidad (HA), en el nivel del servicio Compute y de la instancia individual, determinan más opciones para migrar, parar y recuperar las instancias informáticas afectadas.

En el caso de una interrupción no planificada del nodo de cálculo, el servicio de cálculo para las instancias y, si la interrupción continúa, intenta evacuar el nodo de cálculo reiniciando las instancias afectadas en otros nodos de cálculo. Esta forma automatizada de migración en frío se denomina migración con reinicio.

Configuración de alta disponibilidad del servicio informático e instancia

La configuración de alta disponibilidad (HA) del servicio Compute permite gestionar resultados para diferentes tipos de interrupciones del nodo de cálculo. La acción de recuperación de disponibilidad de instancia es la única configuración de alta disponibilidad que se define para cada instancia. El resto de la configuración de alta disponibilidad se define en el servicio Compute y afecta a todas las instancias.

El dominio de errores selected es el dominio de errores que se especifica en la configuración de la instancia. Una instancia desplazada se encuentra en un dominio de errores que no es el dominio de errores seleccionado.

Interrupción de mantenimiento planificada

Consulte Operaciones de mantenimiento de nodos de cálculo para obtener información sobre cómo evacuar un nodo de cálculo. Si es posible, el servicio Compute migra en directo las instancias en ejecución a otros nodos de cálculo del mismo dominio de errores. En esta sección también se describe cómo utilizar la acción de recuperación de disponibilidad de la instancia (definida en cada instancia) y las propiedades Recuperación automática y Resolución automática del servicio de cálculo al realizar una evacuación del nodo de cálculo.

Interrupciones No Planificadas

El servicio Compute intenta parar las instancias y reiniciar las migra en las siguientes condiciones de interrupción del nodo de cálculo:

  • Apagado del estado de hardware

  • Incapacidad para acceder a la red de datos del nodo de cálculo

Un nodo de cálculo podría experimentar una interrupción en la que el servicio de cálculo no puede migrar las instancias. Por ejemplo, si el servicio Compute no puede acceder al nodo de cálculo en absoluto, el servicio Compute no puede parar y reiniciar la migración de las instancias.

Interrupción no planificada menor que cinco minutos

En una interrupción no planificada, el servicio Compute para las instancias afectadas. Si la interrupción dura menos de cinco minutos, por defecto, el servicio Compute intenta reiniciar las instancias que se estaban ejecutando antes de la interrupción. El comportamiento real depende de cómo se configuren las instancias y el servicio informático. El siguiente flujo de decisión describe cómo puede controlar este comportamiento.

¿Desea que el servicio informático intente reiniciar las instancias que se estaban ejecutando antes de la interrupción? Éste es el estado por defecto.

  • Sí. Compruebe que la recuperación automática está activada y que la acción de recuperación de disponibilidad de la instancia está definida en RESTORE_INSTANCE. Consulte Configuración del Estado de Recuperación para una Instancia Parada.

    Si algunas instancias ya no se pueden incluir en el dominio de errores seleccionado, la recuperación automática seguirá sondeando e intentando reiniciar las instancias. Véase también getForcedStoppedInstances.

    Si la acción de recuperación de disponibilidad de la instancia se define en STOP_INSTANCE, la instancia permanecerá parada, incluso si la recuperación automática está activada.

  • Nº Desactive la recuperación automática. Las instancias que se estaban ejecutando antes de la interrupción permanecerán detenidas.

El valor de la acción de recuperación de disponibilidad de la instancia y el valor de recuperación automática se pueden cambiar en cualquier momento, y los cambios entrarán en vigor en el siguiente sondeo.

Interrupción no planificada de más de cinco minutos

En una interrupción no planificada, el servicio Compute para las instancias afectadas. Si la interrupción dura más de cinco minutos, por defecto, el servicio de cálculo intenta reiniciar la migración (migración en frío) de instancias fuera del nodo de cálculo. Las instancias que no se pueden alojar en otros nodos de cálculo del mismo dominio de errores se migran con reinicio a otros dominios de errores. El comportamiento real depende de cómo se configure el servicio Compute. El siguiente flujo de decisión describe cómo puede controlar este comportamiento.

¿Desea que las instancias en ejecución se migren con reinicio? La migración con reinicio para e inicia cada instancia en ejecución en un nodo de cálculo determinado. Consulte también Configuración de alta disponibilidad para instancias informáticas.

  • Sí. Compruebe que la alta disponibilidad de VM esté activada.

    Si algunas instancias no se pueden alojar en otro nodo de cálculo del mismo dominio de errores, ¿desea que esas instancias se migren con reinicio a otro dominio de errores?

    • Sí. Compruebe que Strict FD está desactivado. El servicio informático para las instancias que no se pueden alojar en ningún dominio de errores.

      Después de la migración con reinicio, ¿desea que las instancias que se ejecutan en un dominio de errores que no es el dominio de errores seleccionado se migren automáticamente al dominio de errores seleccionado cuando los recursos estén disponibles?

      • Sí. Compruebe que la resolución automática está activada. Véase también getDisplacedInstances.

      • Nº Desactivar resolución automática.

    • Nº Activar FD estricta. Las instancias que se estaban ejecutando antes de la interrupción y que no se pueden migrar a otro nodo de cálculo en el dominio de errores actual permanecen paradas por el servicio de cálculo.

  • Nº Desactive la alta disponibilidad de VM. El servicio informático paratiene las instancias que se estaban ejecutando antes de la interrupción.

¿Desea que las instancias que ha parado el servicio informático se restauren automáticamente para que se ejecuten en el dominio de errores seleccionado? En caso afirmativo, compruebe que la recuperación automática está activada y que la acción de recuperación de disponibilidad de la instancia está definida en RESTORE_INSTANCE. Consulte Configuración del Estado de Recuperación para una Instancia Parada.

Visualización y definición de la configuración del servicio Compute

Para obtener información sobre cómo funcionan estos valores de configuración, consulte Comandos de configuración de servicios informáticos.

Uso de la IU web de servicio

En el menú de navegación, haga clic en FD Instances y, a continuación, en Compute Service Detail.

La página Compute Service Information muestra la configuración actual de la recuperación automática, la resolución automática de instancias desplazadas, la alta disponibilidad de VM y la FD estricta. Todos estos valores están activados por defecto, excepto Strict FD, que está desactivado por defecto. Por defecto, la colocación del dominio de errores no se aplica estrictamente cuando el servicio Compute migra instancias.

Utilice el menú Controls (Controles) de la página Compute Service Information (Información de servicio de cálculo) para cambiar los valores de estos valores de configuración entre Enabled (Activado) y Disabled (Desactivado).

Uso de la CLI del servicio

Utilice el comando show computeservice para mostrar los valores de configuración del servicio Compute actual. En el siguiente ejemplo, los valores por defecto se definen para los cuatro valores de configuración de alta disponibilidad: Auto Recovery Action Enabled, Auto-Resolve Displaced Instances Enabled, VM High Availability Enabled y Strict FD Enabled. Todos estos valores son verdaderos por defecto, excepto Strict FD Enabled, que es falso por defecto.

PCA-ADMIN> show computeservice
Data:
 Id = unique_ID
 Type = ComputeService
 total CN cpu usage percent = 23.3
 total CN memory usage percent = 16.2
 Auto Recovery Action Enabled = true
 Auto-Resolve Displaced Instances Enabled = true
 VM High Availability Enabled = true
 Strict FD Enabled = false
 Name = Compute Service
 Work State = Normal

Para cambiar esta configuración, utilice los comandos de la siguiente lista. El comando showcustomcmds computeservice muestra todos los comandos de configuración de alta disponibilidad en el servicio Compute.

PCA-ADMIN> showcustomcmds computeservice
    enableAutoRecoveryAction
    disableAutoRecoveryAction
    enableAutoResolveDisplacedInstances
    disableAutoResolveDisplacedInstances
    enableVmHighAvailability
    disableVmHighAvailability
    enableStrictFD
    disableStrictFD
    getForcedStoppedInstances
    getDisplacedInstances

Por ejemplo, para desactivar Auto Recovery Action Enabled, ejecute el comando disableAutoRecoveryAction. Para activar la aplicación estricta del dominio de errores, ejecute el comando enableStrictFD.

Comandos de configuración del servicio Compute

Los comandos de la CLI de servicio para la configuración de alta disponibilidad del servicio Compute se muestran en la siguiente lista. Para acceder a la configuración equivalente de la interfaz de usuario web de servicio, haga clic en el menú de navegación y en Instancias de FD. Consulte Visualización y configuración del servicio Compute.

En estas descripciones, el dominio de errores seleccionado es el dominio de errores especificado en la configuración de la instancia. Una instancia desplazada se encuentra en un dominio de errores que no es el dominio de errores seleccionado.

enableAutoRecoveryAction

Activa el reinicio automático de las instancias que ha parado el servicio Compute. Éste es el estado por defecto. Si la acción de recuperación de disponibilidad de la instancia se define en RESTORE_INSTANCE, este comando hace que las instancias que ha parado el servicio Compute se reinicien automáticamente en el dominio de errores seleccionado cuando haya recursos disponibles. Consulte también Configuración del Estado de Recuperación para una Instancia Parada y getForcedStoppedInstances.

El servicio Compute podría haber parado las instancias por los siguientes motivos:

  • Como resultado de la especificación de la opción forzar en una migración, no se pudieron migrar todas las operaciones y algunas instancias. Consulte Operaciones de mantenimiento de nodos informáticos.

  • Como resultado de una interrupción no planificada del nodo de cálculo.

Puede definir esta propiedad de recuperación automática en cualquier momento antes o después de una interrupción de mantenimiento administrativo o una interrupción no planificada para reiniciar las instancias que fueron detenidas por el servicio Compute. Si la acción de recuperación de disponibilidad de la instancia se define en STOP_INSTANCE, la instancia permanece parada aunque la propiedad Recuperación automática esté activada. Si la acción de recuperación de disponibilidad de la instancia se cambia posteriormente a RESTORE_INSTANCE, una posterior transferencia de recuperación automática reiniciará la instancia.

disableAutoRecoveryAction

Desactiva el reinicio automático de las instancias paradas. Las instancias que ha parado el servicio Compute no se reinician automáticamente cuando los recursos están disponibles.

enableAutoResolveDisplacedInstances

Permite la devolución de instancias en ejecución al dominio de errores seleccionado. Éste es el estado por defecto. Si las instancias se han movido a un dominio de errores diferente (desplazado) durante la evacuación del nodo de cálculo, este comando permite que esas instancias se migren automáticamente al dominio de errores seleccionado una vez que haya suficientes recursos disponibles en ese dominio de errores. Véase también getDisplacedInstances.

Puede definir esta configuración de resolución automática en cualquier momento antes o después de una interrupción para reubicar las instancias desplazadas. Las instancias que se paran no se migran.

disableAutoResolveDisplacedInstances

Desactiva la devolución de instancias al dominio de errores seleccionado. Las instancias que se han movido a un dominio de errores diferente durante la evacuación del nodo de cálculo permanecen en el dominio de errores al que se han movido.

enableVmHighAvailability

Activa la alta disponibilidad (migración con reinicio) fuera de un nodo de cálculo inaccesible. Éste es el estado por defecto.

disableVmHighAvailability

Desactiva la migración de reinicio.

enableStrictFD

Activa la aplicación estricta del dominio de errores. Durante la evacuación del nodo de cálculo, cualquier instancia que no se pueda mover a un nodo de cálculo diferente en el mismo dominio de errores se detiene si se ha especificado la opción force. Si no se ha especificado la opción force, la operación de migración falla.

disableStrictFD

Desactiva la aplicación estricta del dominio de errores. Éste es el estado por defecto. Durante la evacuación del nodo de cálculo, cualquier instancia que no se pueda mover a un nodo de cálculo diferente del mismo dominio de errores se mueve a un dominio de errores diferente. Este movimiento a un dominio de errores diferente es temporal si la propiedad Resolución automática del servicio de cálculo está activada: si la resolución automática está activada, cuando los recursos estén disponibles, las instancias movidas se migrarán en directo de nuevo al dominio de errores seleccionado. Véase también getDisplacedInstances.

getForcedStoppedInstances

Muestra todas las instancias que se han parado mediante el uso de la opción force en la operación de migración o que el servicio Compute ha parado en respuesta a una interrupción no planificada.

PCA-ADMIN> getForcedStoppedInstances
Data:
 id                        displayName  compartmentId
 --                        -----------  -------------
 ocid1.instance.unique_ID  inst-name    ocid1.compartment.unique_ID

En la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y, a continuación, en Instancias detenidas forzadas. Utilice el menú Actions para copiar los OCID.

getDisplacedInstances

Muestra las instancias que se están ejecutando actualmente en un dominio de errores que no es el dominio de errores seleccionado. No se muestran las instancias que no se estén ejecutando.

En el siguiente ejemplo, las instancias en ejecución se están migrando desde el dominio de errores 1. Una instancia se ha incluido en el dominio de errores 2 y otra en el dominio de errores 3.

PCA-ADMIN> getDisplacedInstances
Data:
 id                        displayName  compartmentId                faultDomain     faultDomainSelected
 --                        -----------  -------------                -----------     -------------------
 ocid1.instance.unique_ID  inst-name    ocid1.compartment.unique_ID  FAULT-DOMAIN-3  FAULT-DOMAIN-1
 ocid1.instance.unique_ID  inst-name    ocid1.compartment.unique_ID  FAULT-DOMAIN-2  FAULT-DOMAIN-1

En la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y, a continuación, en Instancias desplazadas. Utilice el menú Actions para copiar los OCID.

Configuración del Estado de Recuperación para una Instancia Parada

Si el servicio Compute ha parado una instancia, puede configurar cómo se tratará esa instancia parada cuando los recursos vuelvan a estar disponibles definiendo la acción de recuperación de disponibilidad de la instancia y la propiedad Recuperación automática del servicio Compute.

Consulte la descripción del comando enableAutoRecoveryAction en Comandos de configuración del servicio informático por los motivos por los que el servicio informático puede parar una instancia. Consulte también las descripciones de disableAutoRecoveryAction y getForcedStoppedInstances.

Durante el inicio de la instancia o en una actualización de instancia posterior, defina la acción de recuperación de la instancia en la configuración de disponibilidad de la instancia.

En la interfaz de usuario web de Compute, consulte la sección "Configuración de disponibilidad" del cuadro de diálogo para crear o editar una instancia, o bien para crear o editar una configuración de instancia. Para reiniciar instancias paradas por el servicio informático, active la casilla denominada "Restaurar estado del ciclo de vida de la instancia después del mantenimiento de la infraestructura". Éste es el estado por defecto. Para mantener las instancias detenidas, desactive la casilla "Restore instance".

En la CLI de OCI, utilice la opción --availability-config o la propiedad availabilityConfig en el comando launch o update de la instancia informática, o el comando create o update de la configuración de la instancia. Defina recoveryAction en RESTORE_INSTANCE o STOP_INSTANCE. El comportamiento predeterminado es RESTORE_INSTANCE.

"availabilityConfig": {"recoveryAction": "STOP_INSTANCE"}

Activación de la aplicación estricta del dominio de errores

Para activar la aplicación estricta del dominio de errores, realice una de las siguientes acciones:

  • En la interfaz de usuario web de servicio, haga clic en el menú de navegación, en Instancias de FD y en Detalle de servicio de Compute. En la página Compute Service Information, haga clic en el menú Controls y haga clic en Enable Strict FD.

  • En la CLI de servicio, ejecute el comando enableStrictFD.

Para obtener más información sobre el efecto de la aplicación del dominio de errores, consulte Comandos de configuración de servicios informáticos.

En caso de que el dominio de errores actual no tenga suficientes recursos para alojar todas las instancias que se deben migrar, realice lo siguiente:

  • Si está realizando una evacuación planificada del nodo de cálculo, especifique la opción de forzar en la operación de migración para detener las instancias en su dominio de errores actual.

  • Ejecute el comando enableAutoRecoveryAction o seleccione Enable Auto Recovery en la interfaz de usuario web de servicio.

  • Asegúrese de que la acción de recuperación de disponibilidad de instancia para cada instancia está definida en RESTORE_INSTANCE, que es el valor por defecto. Consulte Configuración del Estado de Recuperación para una Instancia Parada.

Consulte el ejemplo de Evacuating a Compute Node.