Trabajar con planes de recuperación ante desastres

Un plan de recuperación ante desastres (DR) describe las operaciones que se deben realizar en los recursos de Private Cloud Appliance que están bajo la protección del servicio de recuperación ante desastres.

Un plan de DR está asociado a una configuración de DR y lo ejecuta un administrador cuando se detecta un incidente a nivel de sitio (conmutación por error) o cuando uno de los sitios se debe poner fuera de línea (switchover). Después de una conmutación por error, cuando el sistema afectado vuelve a estar en línea, se realizan operaciones posteriores a la conmutación por error para garantizar que ambos sistemas estén listos para ejecutar nuevas operaciones de DR.

En estas secciones, se explica cómo crear y ejecutar planes de DR:

Acerca de las operaciones de DR y los planes predeterminados

El servicio de DR nativo proporciona planes con pasos por defecto para cada tipo de operación. Los pasos del plan de DR se pueden personalizar. Los planes incorporados se configuran de la siguiente manera:

Switchover de plan

Cuando se realiza un switchover, no se produce ninguna interrupción, por lo que ambos sistemas con intercambio de tráfico están en línea. El objetivo es mover todos los recursos cubiertos en la configuración de DR del sistema principal (A) al sistema en espera (B). Cuando se completa, el sistema B se convierte en el principal y el sistema A en la base de datos en espera para los recursos en cuestión.

El plan comienza con comprobaciones previas para garantizar que ambos sistemas cumplan los requisitos para permitir que las instancias informáticas se detengan en el sistema principal y se vuelvan a iniciar en el sistema en espera. Las comprobaciones previas incluyen asignaciones de sitios, así como otros elementos críticos, como etiquetas, listas de seguridad o grupos de seguridad de red. La comprobación previa de reversión de roles garantiza específicamente que el dispositivo ZFS Storage Appliance de cada rack se encuentre en el estado correcto.

Cuando las comprobaciones previas se completan sin errores, la configuración de DR en el sistema principal (A) se congela y sus instancias informáticas se detienen, de modo que se puede iniciar la reversión del rol. En función de los metadatos de recursos intercambiados entre los sistemas con intercambio de tráfico y los datos replicados en el dispositivo ZFS Storage Appliance en espera, el sistema de destino (B) está preparado para asumir el rol principal para las instancias de la configuración de DR. El proceso de replicación se invierte y está listo para usar el sistema de origen (A) como su base de datos en espera tan pronto como se complete el switchover.

Mediante los volúmenes replicados, las instancias informáticas de la configuración de DR se inician en el sistema en espera (B). Se crea una configuración de DR idéntica en el sistema en espera, con todos los recursos de origen y destino invertidos en las asignaciones de sitio. Los metadatos de las instancias recién iniciadas se almacenan en la configuración de DR. En el sistema principal (A) se realiza una limpieza: la configuración de DR está desactivada y sus instancias informáticas terminan.

Para completar el switchover, se inicia la replicación de datos del nuevo sistema principal (B) al sistema en espera (A), los planes de DR se mueven al nuevo sistema en espera (A), y el proyecto de almacenamiento y los metadatos asociados con la configuración de DR original se suprimen del sistema A.

Plan de failover

Se realiza una conmutación por error en el sistema en espera cuando uno de los sistemas con intercambio de tráfico cae. El objetivo es recuperar todos los recursos cubiertos en la configuración de DR en el sistema en espera (B), lo que permite la continuación del servicio. Los pasos de failover son similares al plan de switchover, pero no se puede realizar ninguna de las operaciones en el sistema principal (A). El sistema principal no se puede limpiar hasta que vuelva a estar en línea.

El plan comienza con comprobaciones previas para asegurarse de que el sistema en espera y su dispositivo ZFS Storage Appliance estén en el estado correcto para activar los recursos cubiertos en la configuración de DR. Cuando se completan las comprobaciones previas sin errores, se inicia la reversión del rol.

Con los metadatos y recursos replicados, las instancias informáticas de la configuración de DR se inician en el sistema en espera (B), que asume el rol principal. En el sistema B, que se ha convertido en el principal, se crea una configuración de DR idéntica, con asignaciones de sitio invertidas y metadatos recopilados de las instancias recién iniciadas. En preparación de que el sistema primario original (A) vuelva a estar en línea, el proceso de replicación se invierte y está listo para usar el sistema A como base de datos en espera.

Cuando el sistema principal original (A) finalmente se pone en línea, los pasos restantes para devolver la configuración de DR a un estado de trabajo correcto se realizan mediante la ejecución del plan posterior al failover.

Plan posterior al failover

Un plan posterior a la conmutación por error se realiza después de una conmutación por error, cuando el sistema que experimentó una interrupción vuelve a estar en línea y se restaura la conexión del par. El objetivo es limpiar la configuración de DR en el sistema principal que ha caído (A) y configurarla como la base de datos en espera para el nuevo sistema principal (B).

No hay comprobaciones previas en un plan posterior al failover. El sistema A vuelve a estar en línea después de una interrupción y se debe limpiar: la configuración de DR está desactivada y sus instancias informáticas terminan. Se inicia la replicación de datos del nuevo sistema principal (B) al sistema en espera (A), los planes de DR se mueven al nuevo sistema en espera (A) y los metadatos y el proyecto de almacenamiento asociados a la configuración de DR original se suprimen del sistema A.

Para mover los recursos que originalmente estaban alojados en el sistema A del sistema B, el administrador debe realizar un switchover de B a A para las configuraciones de DR relevantes.

Documentación de Oracle Cloud Infrastructure

Trabajar con planes de recuperación ante desastres

Acerca de las operaciones de DR y los planes predeterminados