Recuperación ante desastres

Un plan de recuperación ante desastres (DR) bien diseñado le permite recuperarse rápidamente de los desastres y seguir proporcionando servicios a sus usuarios.

DR es el proceso de preparación y recuperación ante un desastre. Un desastre puede ser cualquier evento que ponga en riesgo sus aplicaciones, desde interrupciones de la red, pasando por fallos de equipos y aplicaciones hasta desastres naturales. Es casi imposible predecir cuándo necesitará la recuperación ante desastres, al igual que no se puede predecir si tendrá un accidente automovilístico. Si no se puede controlar cuándo se va a producir un desastre, lo mejor que se puede hacer es controlar el proceso de recuperación.

Un plan de DR bien diseñado le permite recuperarse rápidamente ante desastres y proporcionar continuidad empresarial. A medida que su organización mueve las cargas de trabajo a la nube, necesita convertir sus conocimientos sobre cómo crear sistemas locales resilientes a la nube. Oracle Cloud Infrastructure (OCI) proporciona infraestructura y servicios de alta disponibilidad, seguros y escalables que le permiten recuperar sus cargas de trabajo en la nube de forma rápida, fiable y segura.

Debido a que las arquitecturas de varios niveles o de tres niveles son comunes en las aplicaciones empresariales locales tradicionales, vamos a utilizar una aplicación empresarial de tres niveles de ejemplo para mostrar cómo puede hacer que esa aplicación sea más resistente ante desastres mediante las capacidades de DR de OCI y las mejores prácticas de topología en la nube fiables y resistentes. En el siguiente diagrama se muestra un ejemplo de aplicación empresarial en una configuración de DR de espera activa.

Ejemplo de aplicación empresarial en configuración de recuperación ante desastres de espera activa.

Conceptos de DR

El primer paso en la planificación de la DR consiste en determinar el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).

El RTO es el tiempo de destino en el que se debe restaurar una aplicación determinada después de que se produzca un desastre. Normalmente, cuanto más crítica sea la aplicación, más bajo será el RTO.

El RPO es el período después de producirse un desastre durante el cual una aplicación puede tolerar perdidas de datos antes de que el desastre comience a afectar al negocio.

Para crear un plan que garantice la recuperación de sus aplicaciones después de un desastre y sea rentable, debe tener en cuenta el tiempo objetivo para la recuperación y la tolerancia para la pérdida de datos.

En el diagrama se muestra el objetivo de punto de recuperación antes de un desastre, el desastre y, a continuación, el objetivo de tiempo de recuperación.

Para obtener más información, consulte la sección de mejores prácticas para proteger la topología en la nube frente a desastres.

Selección de un enfoque de DR

Algunas aplicaciones son más críticas que otras. La solución de DR que elija depende de muchos requisitos posibles, como la disponibilidad, la durabilidad de los datos, el RTO y el RPO.

Evalúe los métodos de DR en la siguiente tabla para decidir qué capacidades de DR de OCI utilizar al desplegar aplicaciones empresariales de varios niveles en OCI.

Método de DR	RPO	RTO	Costo
Copia de seguridad y restauración	Horas	Horas	$
Piloto	Minutos	Minutos	$$
Espera activa	Segundos	Minutos	$$$
Activo/activo	Casi cero	Posible cero	$$$$

Considere tanto las regiones como los dominios de disponibilidad de una región para escenarios de DR y alta disponibilidad (HA). Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en una región. Si su plan de DR requiere que los sitios de recuperación ante desastres estén físicamente separados, el uso de varias regiones puede lograr este objetivo.

En el caso de nuestra aplicación empresarial de ejemplo, necesitamos poder sobrevivir a una interrupción regional, pero podemos manejar algo de tiempo de inactividad si una región se ve afectada. Por estos motivos, hemos elegido un despliegue de espera activa en varias regiones.

Gestión de la orquestación de DR con DR de pila completa

Full Stack Disaster Recovery (DR) es un servicio nativo de OCI que proporciona una interfaz simple y consistente para orquestar operaciones de DR para muchos sistemas diferentes, lo que facilita a cualquier usuario autorizado en sus operaciones de TI disparar un failover o switchover sin necesidad de comprender ninguno de los procesos de recuperación subyacentes.

Full Stack DR es la primera solución verdadera de recuperación ante desastres como servicio (DRaaS) de Oracle para OCI, y es más que un simple motor de orquestación. Full Stack DR es un servicio de gestión de DR altamente escalable y extensible que automatiza por completo los pasos necesarios para probar, realizar la transición o recuperar sistemas empresariales críticos y no críticos entre dos regiones de OCI desde cualquier lugar del mundo con un solo clic.

Los problemas que enfrentan las empresas con la recuperación a escala

Es probable que tu empresa tenga algo más que unas pocas aplicaciones esenciales para la empresa alojadas en tu arrendamiento de OCI. Para complicar las cosas, cada una de estas aplicaciones de Oracle o no de Oracle tiene un proceso de recuperación diferente con diferentes objetivos de punto de recuperación y tiempo de recuperación. Además, los procesos para la recuperación de cada pila de aplicaciones diferentes pueden ser complejos, lo que requiere la atención completa de sus especialistas técnicos más importantes para lograr.

Su organización de TI probablemente tenga las habilidades y la determinación de recuperar una o dos aplicaciones diferentes en un día o dos en un esfuerzo completo y práctico de los especialistas de TI más importantes de la compañía. Pero, ¿qué sucede si su organización de TI se enfrenta a la perspectiva de recuperar más que un par de sistemas al mismo tiempo?

Full Stack DR facilita la recuperación a escala

Full Stack DR está diseñado para manejar flujos de trabajo de DR a escala sin la participación de sus expertos técnicos más calificados en caso de que necesite recuperar muchos sistemas al mismo tiempo. Full Stack DR normaliza la forma en que se ejecutan y supervisan las operaciones de DR mediante un método consistente y sencillo a través de la consola de OCI.

Full Stack DR organiza varias aplicaciones en grupos de protección independientes sin cambiar nada sobre la forma en que ha instalado y configurado sus aplicaciones de Oracle y no de Oracle existentes en OCI. Full Stack DR puede recuperar solo un componente de una pila de aplicaciones o recuperar toda la pila de aplicaciones con un solo clic: elija lo que desea hacer.

La recuperación ante desastres de pila completa valida la preparación de los planes de recuperación ante desastres

Full Stack DR ayuda a validar que los sistemas empresariales críticos están listos para cualquier interrupción inesperada del servicio a través de nuestras comprobaciones de preparación de DR integradas y totalmente automatizadas. Nuestra función de comprobación previa se agrega automáticamente a la lista de tareas que realiza Full Stack DR durante cualquier operación de DR.

Las comprobaciones previas no provocan interrupciones y se pueden ejecutar en cualquier momento sin molestar a los sistemas de producción. Validamos el cordura de los planes de DR comprobando si la red, el almacenamiento, los recursos informáticos, las bases de datos Oracle y cualquier script personalizado que haya agregado a un plan de DR están donde deben estar y listos para usarse.

Flexibilidad para gestionar cualquier arquitectura de despliegue

La flexibilidad es un concepto clave detrás del diseño de Full Stack DR. Los diferentes sistemas de negocio requieren diferentes soluciones de recuperación. Por lo tanto, Full Stack DR se ajusta a la forma en que necesita recuperar cada sistema de negocio individual de una manera que se ajuste a sus necesidades técnicas y comerciales. La forma en que decide instalar y desplegar un sistema de negocio para la recuperación ante desastres depende de usted.

Nuestra solución DRaaS puede gestionar la recuperación de forma diferente para cada sistema de negocio individual, ya sea que se despliegue para failover de VM, luz piloto, espera en frío, espera en caliente, espera en caliente o activo/activo. Usted maneja el despliegue y nosotros manejamos la recuperación.

Más información sobre Full Stack DR

Full Stack DR le ofrece la potencia y la flexibilidad necesarias para implementar DR para aplicaciones de Oracle o que no sean de Oracle en OCI de la forma que desee, no de la forma que deseemos.

Consideraciones de diseño de DR

Hay muchas cosas que considerar, según el método de DR que implemente.

Para obtener información básica sobre las capacidades de DR, consulte la sección sobre capacidades de DR de Oracle Cloud. En este ejemplo, revisamos el método de espera en caliente y los recursos de OCI necesarios para implantar la espera en caliente, que incluyen una segunda región para un despliegue entre regiones.

Red

Después de crear la base de red de las redes virtuales en la nube (VCN) y las subredes en sus respectivas regiones, para configurar la DR, debe emparejar las VCN de las diferentes regiones para facilitar la conectividad de red.

Recursos informáticos

Para ejecutar aplicaciones en instancias informáticas de dos regiones, debe hacer que las imágenes informáticas estén disponibles en ambas regiones. En la región para la recuperación ante desastres, despliegue una configuración mínima para mantener una espera activa. A continuación, utilice reservas de capacidad para reservar el resto de la capacidad necesaria para ejecutar todas las VM cuando la región de DR se convierta en la principal. Para obtener más información, consulte Visión general del servicio Compute y Mejores prácticas para instancias de Compute.

Almacenamiento

OCI proporciona un juego de servicios de almacenamiento que incluye Block Volume, File Storage y Object Storage, que proporcionan funciones integradas de redundancia y alta disponibilidad mediante el mantenimiento de varias copias de datos. Estos servicios de almacenamiento también proporcionan replicación nativa que se puede configurar para la recuperación ante desastres entre regiones.

Object Storage es una plataforma de almacenamiento de alto rendimiento a escala de internet que ofrece una durabilidad de datos fiable y rentable. Object Storage es un servicio regional, que está disponible en todos los dominios de disponibilidad de una región. La replicación de Object Storage se puede configurar en todas las regiones para fines de DR.

Block Volume tiene una función de replicación asíncrona y totalmente gestionada para ayudar con la recuperación ante desastres. Con un objetivo de tiempo de recuperación (RTO) de menos de un minuto, puede replicar volúmenes y grupos de volúmenes en otra región. También hay disponible una función de copia de seguridad automatizada para producir copias de seguridad consistentes con bloqueos para volúmenes y grupos de volúmenes. Estas copias de seguridad se pueden copiar automáticamente en otra región.

Al igual que otros servicios de almacenamiento en OCI, File Storage tiene funciones de replicación incorporadas para replicarse de forma asíncrona en otro dominio de disponibilidad y región. Mediante la función de clonación de File Storage, los datos del lado de destino pueden estar disponibles casi al instante (RTO). Para una experiencia completa de DR, la replicación también replica instantáneas con los datos principales del sistema de archivos.

Base de datos

El diseño de alta disponibilidad está diseñado para garantizar la disponibilidad de la aplicación en caso de eventos de fallo IaaS, como un fallo de nodo o de red. Los escenarios de DR de base de datos tratan de evitar la pérdida de datos empresariales críticos debido a una interrupción importante e inevitable de las bases de datos primarias que, a menudo, afectan a una región completa o a un dominio de disponibilidad.

Recomendamos que consulte Maximum Availability Architecture (MAA), que es un conjunto de mejores prácticas y arquitecturas de referencia desarrolladas por Ingenieros de Oracle durante muchos años para el uso integrado de tecnologías Oracle de alta Disponibilidad, Protección de Datos y Recuperación ante Desastres.

Las consideraciones clave para un diseño de DR son el RPO (objetivo de punto de recuperación), que es la cantidad de pérdida de datos que su aplicación puede tolerar, y el RTO (objetivo de tiempo de recuperación), que es el tiempo máximo de recuperación que su aplicación puede tolerar antes de que los sistemas deban volver a estar en línea. Sobre la base de estos, hay varias categorías que MAA define con el aumento de los costos y la complejidad. Estos se clasifican como Bronce, Plata, Aurous, Oro y Platino, cada uno con una complejidad y resiliencia cada vez mayores. Estos forman la base de las arquitecturas de referencia de DR especificadas por MAA.

Niveles de arquitectura de máxima disponibilidad (MAA)	Arquitectura Principal	Objetivo de punto de recuperación (RPO)	Objetivo de tiempo de recuperación (RTO)	Oracle Autonomous AI Database sin servidor (ADB-S)	Oracle Autonomous AI Database en infraestructura de Exadata dedicada (ADB-D y ADB-C@C)	Oracle Base Database Service (máquina virtual)	Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D)	Oracle Exadata Database Service on Cloud@Customer (ExaDB-C@C)
BRONCE	Instancia única con copia de seguridad local y copia de seguridad replicada	Última Copia de Seguridad	Horas	Listo para usar	Listo para usar	Listo para usar	Listo para usar	Listo para usar
SILVER	RAC con copia de seguridad local y copia de seguridad replicada	Última Copia de Seguridad	Horas (cero para mantenimiento planificado)	Listo para usar	Listo para usar	Lista para usar para 2 nodos (requiere EE Extreme Performance)	Listo para usar	Listo para usar
AUROUS	PDB de refrescamiento	Último Refrescamiento	Minutos	+ Autonomous Data Guard	Opcional	Opcional	Opcional	Opcional
DORADO	Base de datos con replicación activo-pasivo entre sitios mediante Data Guard (activo)	cero	Segundos	No Aplicable	+ Data Guard	+ Data Guard (requiere EE/EE HP para DG estándar, EE EP para DG activa)	+ Data Guard	+ Data Guard
PLATINUM	Base de datos con replicación activo-activo entre sitios mediante GoldenGate	cero	cero	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate

Este diseño y estrategia de recuperación ante desastres describe la prevención de la pérdida de datos en la base de datos Oracle. Una estrategia de recuperación ante desastres sólida también debe abordar las configuraciones para la disponibilidad continua de las aplicaciones.

Las tecnologías clave que forman la base de MAA incluyen:

Monitoring

OCI Monitoring te permite supervisar de manera activa y pasiva tus recursos en la nube para mejorar tu disponibilidad y unos niveles del servicio consistentes. Asegúrese de que está suscrito a las notificaciones del estado de OCI y de comprobar el panel de control del estado del servicio. Para ver un ejemplo, consulte la sección sobre la supervisión integral de las aplicaciones que se ejecutan en Oracle Cloud Infrastructure.

Explorar más

Manuales de soluciones:

Arquitecturas de referencia:

Documentación y otros recursos:

Documentación de Oracle Cloud Infrastructure