Recuperación ante desastres

Un plan de recuperación ante desastres (DR) bien diseñado le permite recuperarse rápidamente de los desastres y seguir proporcionando servicios a sus usuarios.

DR es el proceso de preparación y recuperación ante un desastre. Un desastre puede ser cualquier evento que ponga en riesgo sus aplicaciones, desde interrupciones de la red, pasando por fallos de equipos y aplicaciones hasta desastres naturales. Es casi imposible predecir cuándo necesitará la recuperación ante desastres, al igual que no se puede predecir si tendrá un accidente automovilístico. Si no se puede controlar cuándo se va a producir un desastre, lo mejor que se puede hacer es controlar el proceso de recuperación.

Un plan de DR bien diseñado le permite recuperarse rápidamente ante desastres y proporcionar continuidad empresarial. A medida que su organización mueve las cargas de trabajo a la nube, necesita convertir sus conocimientos sobre cómo crear sistemas locales resilientes a la nube. Oracle Cloud Infrastructure (OCI) proporciona infraestructura y servicios de alta disponibilidad, seguros y escalables que le permiten recuperar sus cargas de trabajo en la nube de forma rápida, fiable y segura.

Debido a que las arquitecturas de varios niveles o de tres niveles son comunes en las aplicaciones empresariales locales tradicionales, vamos a utilizar una aplicación empresarial de tres niveles de ejemplo para mostrar cómo puede hacer que esa aplicación sea más resistente ante desastres mediante las capacidades de DR de OCI y las mejores prácticas de topología en la nube fiables y resistentes. En el siguiente diagrama se muestra un ejemplo de aplicación empresarial en una configuración de DR de espera activa.

Ejemplo de aplicación empresarial en configuración de recuperación ante desastres de espera activa.

Conceptos de DR

El primer paso en la planificación de la DR consiste en determinar el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).

El RTO es el tiempo de destino en el que se debe restaurar una aplicación determinada después de que se produzca un desastre. Normalmente, cuanto más crítica sea la aplicación, más bajo será el RTO.

El RPO es el período después de producirse un desastre durante el cual una aplicación puede tolerar perdidas de datos antes de que el desastre comience a afectar al negocio.

Para crear un plan que garantice la recuperación de sus aplicaciones después de un desastre y sea rentable, debe tener en cuenta el tiempo objetivo para la recuperación y la tolerancia para la pérdida de datos.

En el diagrama se muestra el objetivo de punto de recuperación antes de un desastre, el desastre y, a continuación, el objetivo de tiempo de recuperación.

Para obtener más información, consulte la sección de mejores prácticas para proteger la topología en la nube frente a desastres.

Selección de un enfoque de DR

Algunas aplicaciones son más críticas que otras. La solución de DR que elija depende de muchos requisitos posibles, como la disponibilidad, la durabilidad de los datos, el RTO y el RPO.

Evalúe los métodos de DR en la siguiente tabla para decidir qué capacidades de DR de OCI utilizar al desplegar aplicaciones empresariales de varios niveles en OCI.

Método de DRRPORTOCosto
Copia de seguridad y restauraciónHorasHoras$
PilotoMinutosMinutos$$
Espera activaSegundosMinutos$$$
Activo/activoCasi ceroPosible cero$$$$

Considere tanto las regiones como los dominios de disponibilidad de una región para escenarios de DR y alta disponibilidad (HA). Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en una región. Si su plan de DR requiere que los sitios de recuperación ante desastres estén físicamente separados, el uso de varias regiones puede lograr este objetivo.

En el caso de nuestra aplicación empresarial de ejemplo, necesitamos poder sobrevivir a una interrupción regional, pero podemos manejar algo de tiempo de inactividad si una región se ve afectada. Por estos motivos, hemos elegido un despliegue de espera activa en varias regiones.

Gestión de la orquestación de DR con DR de pila completa

Full Stack Disaster Recovery (DR) es un servicio nativo de OCI que proporciona una interfaz simple y consistente para orquestar operaciones de DR para muchos sistemas diferentes, lo que facilita a cualquier usuario autorizado en sus operaciones de TI disparar un failover o switchover sin necesidad de comprender ninguno de los procesos de recuperación subyacentes.

Full Stack DR es la primera solución verdadera de recuperación ante desastres como servicio (DRaaS) de Oracle para OCI, y es más que un simple motor de orquestación. Full Stack DR es un servicio de gestión de DR altamente escalable y extensible que automatiza por completo los pasos necesarios para probar, realizar la transición o recuperar sistemas empresariales críticos y no críticos entre dos regiones de OCI desde cualquier lugar del mundo con un solo clic.

Los problemas que enfrentan las empresas con la recuperación a escala

Es probable que tu empresa tenga algo más que unas pocas aplicaciones esenciales para la empresa alojadas en tu arrendamiento de OCI. Para complicar las cosas, cada una de estas aplicaciones de Oracle o no de Oracle tiene un proceso de recuperación diferente con diferentes objetivos de punto de recuperación y tiempo de recuperación. Además, los procesos para la recuperación de cada pila de aplicaciones diferentes pueden ser complejos, lo que requiere la atención completa de sus especialistas técnicos más importantes para lograr.

Su organización de TI probablemente tenga las habilidades y la determinación de recuperar una o dos aplicaciones diferentes en un día o dos en un esfuerzo completo y práctico de los especialistas de TI más importantes de la compañía. Pero, ¿qué sucede si su organización de TI se enfrenta a la perspectiva de recuperar más que un par de sistemas al mismo tiempo?

Full Stack DR facilita la recuperación a escala

Full Stack DR está diseñado para manejar flujos de trabajo de DR a escala sin la participación de sus expertos técnicos más calificados en caso de que necesite recuperar muchos sistemas al mismo tiempo. Full Stack DR normaliza la forma en que se ejecutan y supervisan las operaciones de DR mediante un método consistente y sencillo a través de la consola de OCI.

Full Stack DR organiza varias aplicaciones en grupos de protección independientes sin cambiar nada sobre la forma en que ha instalado y configurado sus aplicaciones de Oracle y no de Oracle existentes en OCI. Full Stack DR puede recuperar solo un componente de una pila de aplicaciones o recuperar toda la pila de aplicaciones con un solo clic: elija lo que desea hacer.

La recuperación ante desastres de pila completa valida la preparación de los planes de recuperación ante desastres

Full Stack DR ayuda a validar que los sistemas empresariales críticos están listos para cualquier interrupción inesperada del servicio a través de nuestras comprobaciones de preparación de DR integradas y totalmente automatizadas. Nuestra función de comprobación previa se agrega automáticamente a la lista de tareas que realiza Full Stack DR durante cualquier operación de DR.

Las comprobaciones previas no provocan interrupciones y se pueden ejecutar en cualquier momento sin molestar a los sistemas de producción. Validamos el cordura de los planes de DR comprobando si la red, el almacenamiento, los recursos informáticos, las bases de datos Oracle y cualquier script personalizado que haya agregado a un plan de DR están donde deben estar y listos para usarse.

Flexibilidad para gestionar cualquier arquitectura de despliegue

La flexibilidad es un concepto clave detrás del diseño de Full Stack DR. Los diferentes sistemas de negocio requieren diferentes soluciones de recuperación. Por lo tanto, Full Stack DR se ajusta a la forma en que necesita recuperar cada sistema de negocio individual de una manera que se ajuste a sus necesidades técnicas y comerciales. La forma en que decide instalar y desplegar un sistema de negocio para la recuperación ante desastres depende de usted.

Nuestra solución DRaaS puede gestionar la recuperación de forma diferente para cada sistema de negocio individual, ya sea que se despliegue para failover de VM, luz piloto, espera en frío, espera en caliente, espera en caliente o activo/activo. Usted maneja el despliegue y nosotros manejamos la recuperación.

Consideraciones de diseño de DR

Hay muchas cosas que considerar, según el método de DR que implemente.

Para obtener información básica sobre las capacidades de DR, consulte la sección sobre capacidades de DR de Oracle Cloud. En este ejemplo, revisamos el método de espera activa y los recursos de OCI necesarios para implantar una base de datos en espera activa, que incluye una segunda región para un despliegue entre regiones.

Red

Después de crear la base de red de las redes virtuales en la nube (VCN) y las subredes en sus respectivas regiones, para configurar la DR, debe emparejar las VCN de las diferentes regiones para facilitar la conectividad de red.

Recursos informáticos

Para ejecutar aplicaciones en instancias informáticas de dos regiones, debe hacer que las imágenes informáticas estén disponibles en ambas regiones. En la región para la recuperación ante desastres, despliegue una configuración mínima para mantener una espera activa. A continuación, utilice reservas de capacidad para reservar el resto de la capacidad necesaria para ejecutar todas las VM cuando la región de DR se convierta en la principal. Para obtener más información, consulte Visión general del servicio Compute y Mejores prácticas para instancias de Compute.

Almacenamiento

OCI proporciona un juego de servicios de almacenamiento que incluye Block Volume, File Storage y Object Storage, que proporcionan funciones de redundancia y alta disponibilidad incorporadas mediante el mantenimiento de varias copias de datos. Estos servicios de almacenamiento también proporcionan replicación nativa que se puede configurar para la recuperación ante desastres entre regiones.

Object Storage es una plataforma de almacenamiento de alto rendimiento a escala de internet que ofrece una durabilidad de datos rentable y de confianza. Object Storage es un servicio regional y está disponible en todos los dominios de disponibilidad de una región. La replicación del almacenamiento de objetos se puede configurar en varias regiones para fines de DR.

Block Volume tiene una función de replicación asíncrona totalmente gestionada para facilitar la recuperación ante desastres. Con un objetivo de tiempo de recuperación (RTO) de menos de un minuto, puede replicar volúmenes y grupos de volúmenes en otra región. También hay disponible una función de copia de seguridad automatizada para generar copias de seguridad coherentes con bloqueos de volúmenes y grupos de volúmenes. Estas copias de seguridad se pueden copiar automáticamente en otra región.

Al igual que otros servicios de almacenamiento en OCI, File Storage tiene funciones de replicación incorporadas para replicarse de forma asíncrona en otro dominio de disponibilidad y región. Mediante la función de clonación de File Storage, los datos del lado de destino se pueden poner a disposición casi al instante (RTO). Para una experiencia de DR completa, la replicación también replica instantáneas con los datos principales del sistema de archivos.

Base de datos

El diseño de alta disponibilidad está diseñado para garantizar la disponibilidad de la aplicación en caso de eventos de fallo IaaS, como un fallo de nodo o de red. Los escenarios de DR de base de datos tratan de evitar la pérdida de datos empresariales críticos debido a una interrupción importante e inevitable de las bases de datos primarias que, a menudo, afectan a una región completa o a un dominio de disponibilidad.

Recomendamos que consulte Arquitectura de máxima disponibilidad (MAA), que es un conjunto de mejores prácticas y arquitecturas de referencia desarrolladas por ingenieros de Oracle durante muchos años para el uso integrado de las tecnologías de alta disponibilidad, protección de datos y recuperación ante desastres de Oracle.

Las consideraciones clave para un diseño de DR son el RPO (objetivo de punto de recuperación), que es la cantidad de pérdida de datos que su aplicación puede tolerar, y el RTO (objetivo de tiempo de recuperación), que es el tiempo máximo de recuperación que su aplicación puede tolerar antes de que los sistemas deban volver a estar en línea. Sobre la base de estos, hay varias categorías que MAA define con el aumento de los costos y la complejidad. Estos se clasifican como Bronce, Plata, Aurous, Oro y Platino, cada uno con una complejidad y resiliencia cada vez mayores. Estos forman la base de las arquitecturas de referencia de DR especificadas por MAA.

Niveles de arquitectura de máxima disponibilidad (MAA)Arquitectura PrincipalObjetivo de punto de recuperación (RPO)Objetivo de tiempo de recuperación (RTO)Oracle Autonomous Database Serverless (ADB-S)Oracle Autonomous Database on Dedicated Exadata Infrastructure (ADB-D y ADB-C@C)Oracle Base Database Service (máquina virtual)Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D)Oracle Exadata Database Service on Cloud@Customer (ExaDB-C@C)
BRONCEInstancia única con copia de seguridad local y copia de seguridad replicadaÚltima Copia de SeguridadHorasListo para usarListo para usarListo para usarListo para usarListo para usar
SILVERRAC con copia de seguridad local y copia de seguridad replicadaÚltima Copia de SeguridadHoras (cero para mantenimiento planificado)Listo para usarListo para usarLista para usar para 2 nodos (requiere EE Extreme Performance)Listo para usarListo para usar
AUROUSPDB de refrescamientoÚltimo RefrescamientoMinutos+ Autonomous Data GuardOpcionalOpcionalOpcionalOpcional
DORADOBase de datos con replicación activo-pasivo entre sitios mediante Data Guard (activo)ceroSegundosNo Aplicable+ Data Guard+ Data Guard (requiere EE/EE HP para DG estándar, EE EP para DG activa)+ Data Guard+ Data Guard
PLATINUMBase de datos con replicación activo-activo entre sitios mediante GoldenGatecerocero+ GoldenGate+ GoldenGate+ GoldenGate+ GoldenGate+ GoldenGate

Este diseño y estrategia de recuperación ante desastres describe la prevención de la pérdida de datos en la base de datos Oracle. Una estrategia de recuperación ante desastres sólida también debe abordar las configuraciones para la disponibilidad continua de las aplicaciones.

Las tecnologías clave que forman la base de MAA incluyen:

Monitoring

OCI Monitoring le permite supervisar de forma activa y pasiva sus recursos en la nube para mejorar la disponibilidad y unos niveles de servicio consistentes. Asegúrese de estar suscrito a las notificaciones de estado de OCI y compruebe el panel de control de estado del servicio. Para ver un ejemplo, consulte la sección sobre la supervisión integral de las aplicaciones que se ejecutan en Oracle Cloud Infrastructure.

Explorar más