Recuperación ante desastres
Un plan de recuperación ante desastres (DR) bien diseñado le permite recuperarse rápidamente de los desastres y seguir proporcionando servicios a sus usuarios.
DR es el proceso de preparación y recuperación ante un desastre. Un desastre puede ser cualquier evento que ponga en riesgo sus aplicaciones, desde interrupciones de la red, pasando por fallos de equipos y aplicaciones hasta desastres naturales. Es casi imposible predecir cuándo necesitará la recuperación ante desastres, al igual que no se puede predecir si tendrá un accidente automovilístico. Si no se puede controlar cuándo se va a producir un desastre, lo mejor que se puede hacer es controlar el proceso de recuperación.
Un plan de DR bien diseñado le permite recuperarse rápidamente ante desastres y proporcionar continuidad empresarial. A medida que su organización mueve las cargas de trabajo a la nube, necesita convertir sus conocimientos sobre cómo crear sistemas locales resilientes a la nube. Oracle Cloud Infrastructure (OCI) proporciona infraestructura y servicios de alta disponibilidad, seguros y escalables que le permiten recuperar sus cargas de trabajo en la nube de forma rápida, fiable y segura.
Debido a que las arquitecturas de varios niveles o de tres niveles son comunes en las aplicaciones empresariales locales tradicionales, vamos a utilizar una aplicación empresarial de tres niveles de ejemplo para mostrar cómo puede hacer que esa aplicación sea más resistente ante desastres mediante las capacidades de DR de OCI y las mejores prácticas de topología en la nube fiables y resistentes. En el siguiente diagrama se muestra un ejemplo de aplicación empresarial en una configuración de DR de espera activa.
Conceptos de DR
El primer paso en la planificación de la DR consiste en determinar el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).
El RTO es el tiempo de destino en el que se debe restaurar una aplicación determinada después de que se produzca un desastre. Normalmente, cuanto más crítica sea la aplicación, más bajo será el RTO.
El RPO es el período después de producirse un desastre durante el cual una aplicación puede tolerar perdidas de datos antes de que el desastre comience a afectar al negocio.
Para crear un plan que garantice la recuperación de sus aplicaciones después de un desastre y sea rentable, debe tener en cuenta el tiempo objetivo para la recuperación y la tolerancia para la pérdida de datos.
Para obtener más información, consulte la sección de mejores prácticas para proteger la topología en la nube frente a desastres.
Selección de un enfoque de DR
Algunas aplicaciones son más críticas que otras. La solución de DR que elija depende de muchos requisitos posibles, como la disponibilidad, la durabilidad de los datos, el RTO y el RPO.
Evalúe los métodos de DR en la siguiente tabla para decidir qué capacidades de DR de OCI utilizar al desplegar aplicaciones empresariales de varios niveles en OCI.
Método de DR | RPO | RTO | Costo |
---|---|---|---|
Copia de seguridad y restauración | Horas | Horas | $ |
Piloto | Minutos | Minutos | $$ |
Espera activa | Segundos | Minutos | $$$ |
Activo/activo | Casi cero | Posible cero | $$$$ |
Considere tanto las regiones como los dominios de disponibilidad de una región para escenarios de DR y alta disponibilidad (HA). Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en una región. Si su plan de DR requiere que los sitios de recuperación ante desastres estén físicamente separados, el uso de varias regiones puede lograr este objetivo.
En el caso de nuestra aplicación empresarial de ejemplo, necesitamos poder sobrevivir a una interrupción regional, pero podemos manejar algo de tiempo de inactividad si una región se ve afectada. Por estos motivos, hemos elegido un despliegue de espera activa en varias regiones.
Gestión de la orquestación de DR con DR de pila completa
Full Stack Disaster Recovery (DR) es un servicio nativo de OCI que proporciona una interfaz simple y consistente para orquestar operaciones de DR para muchos sistemas diferentes, lo que facilita a cualquier usuario autorizado en sus operaciones de TI disparar un failover o switchover sin necesidad de comprender ninguno de los procesos de recuperación subyacentes.
Full Stack DR es la primera solución verdadera de recuperación ante desastres como servicio (DRaaS) de Oracle para OCI, y es más que un simple motor de orquestación. Full Stack DR es un servicio de gestión de DR altamente escalable y extensible que automatiza por completo los pasos necesarios para probar, realizar la transición o recuperar sistemas empresariales críticos y no críticos entre dos regiones de OCI desde cualquier lugar del mundo con un solo clic.
Los problemas que enfrentan las empresas con la recuperación a escala
Es probable que tu empresa tenga algo más que unas pocas aplicaciones esenciales para la empresa alojadas en tu arrendamiento de OCI. Para complicar las cosas, cada una de estas aplicaciones de Oracle o no de Oracle tiene un proceso de recuperación diferente con diferentes objetivos de punto de recuperación y tiempo de recuperación. Además, los procesos para la recuperación de cada pila de aplicaciones diferentes pueden ser complejos, lo que requiere la atención completa de sus especialistas técnicos más importantes para lograr.
Su organización de TI probablemente tenga las habilidades y la determinación de recuperar una o dos aplicaciones diferentes en un día o dos en un esfuerzo completo y práctico de los especialistas de TI más importantes de la compañía. Pero, ¿qué sucede si su organización de TI se enfrenta a la perspectiva de recuperar más que un par de sistemas al mismo tiempo?
Full Stack DR facilita la recuperación a escala
Full Stack DR está diseñado para manejar flujos de trabajo de DR a escala sin la participación de sus expertos técnicos más calificados en caso de que necesite recuperar muchos sistemas al mismo tiempo. Full Stack DR normaliza la forma en que se ejecutan y supervisan las operaciones de DR mediante un método consistente y sencillo a través de la consola de OCI.
Full Stack DR organiza varias aplicaciones en grupos de protección independientes sin cambiar nada sobre la forma en que ha instalado y configurado sus aplicaciones de Oracle y no de Oracle existentes en OCI. Full Stack DR puede recuperar solo un componente de una pila de aplicaciones o recuperar toda la pila de aplicaciones con un solo clic: elija lo que desea hacer.
La recuperación ante desastres de pila completa valida la preparación de los planes de recuperación ante desastres
Full Stack DR ayuda a validar que los sistemas empresariales críticos están listos para cualquier interrupción inesperada del servicio a través de nuestras comprobaciones de preparación de DR integradas y totalmente automatizadas. Nuestra función de comprobación previa se agrega automáticamente a la lista de tareas que realiza Full Stack DR durante cualquier operación de DR.
Las comprobaciones previas no provocan interrupciones y se pueden ejecutar en cualquier momento sin molestar a los sistemas de producción. Validamos el cordura de los planes de DR comprobando si la red, el almacenamiento, los recursos informáticos, las bases de datos Oracle y cualquier script personalizado que haya agregado a un plan de DR están donde deben estar y listos para usarse.
Flexibilidad para gestionar cualquier arquitectura de despliegue
La flexibilidad es un concepto clave detrás del diseño de Full Stack DR. Los diferentes sistemas de negocio requieren diferentes soluciones de recuperación. Por lo tanto, Full Stack DR se ajusta a la forma en que necesita recuperar cada sistema de negocio individual de una manera que se ajuste a sus necesidades técnicas y comerciales. La forma en que decide instalar y desplegar un sistema de negocio para la recuperación ante desastres depende de usted.
Nuestra solución DRaaS puede gestionar la recuperación de forma diferente para cada sistema de negocio individual, ya sea que se despliegue para failover de VM, luz piloto, espera en frío, espera en caliente, espera en caliente o activo/activo. Usted maneja el despliegue y nosotros manejamos la recuperación.
Más información sobre Full Stack DR
Full Stack DR le ofrece la potencia y la flexibilidad necesarias para implementar DR para aplicaciones de Oracle o que no sean de Oracle en OCI de la forma que desee, no de la forma que deseemos.
Consideraciones de diseño de DR
Hay muchas cosas que considerar, según el método de DR que implemente.
Para obtener información básica sobre las capacidades de DR, consulte la sección sobre capacidades de DR de Oracle Cloud. En este ejemplo, revisamos el método de espera activa y los recursos de OCI necesarios para implantar una base de datos en espera activa, que incluye una segunda región para un despliegue entre regiones.
Red
Después de crear la base de red de las redes virtuales en la nube (VCN) y las subredes en sus respectivas regiones, para configurar la DR, debe emparejar las VCN de las diferentes regiones para facilitar la conectividad de red.
Recursos informáticos
Para ejecutar aplicaciones en instancias informáticas de dos regiones, debe hacer que las imágenes informáticas estén disponibles en ambas regiones. En la región para la recuperación ante desastres, despliegue una configuración mínima para mantener una espera activa. A continuación, utilice reservas de capacidad para reservar el resto de la capacidad necesaria para ejecutar todas las VM cuando la región de DR se convierta en la principal. Para obtener más información, consulte Visión general del servicio Compute y Mejores prácticas para instancias de Compute.
Almacenamiento
OCI proporciona un juego de servicios de almacenamiento que incluye Block Volume, File Storage y Object Storage, que proporcionan funciones de redundancia y alta disponibilidad incorporadas mediante el mantenimiento de varias copias de datos. Estos servicios de almacenamiento también proporcionan replicación nativa que se puede configurar para la recuperación ante desastres entre regiones.
Object Storage es una plataforma de almacenamiento de alto rendimiento a escala de internet que ofrece una durabilidad de datos rentable y de confianza. Object Storage es un servicio regional y está disponible en todos los dominios de disponibilidad de una región. La replicación del almacenamiento de objetos se puede configurar en varias regiones para fines de DR.
Block Volume tiene una función de replicación asíncrona totalmente gestionada para facilitar la recuperación ante desastres. Con un objetivo de tiempo de recuperación (RTO) de menos de un minuto, puede replicar volúmenes y grupos de volúmenes en otra región. También hay disponible una función de copia de seguridad automatizada para generar copias de seguridad coherentes con bloqueos de volúmenes y grupos de volúmenes. Estas copias de seguridad se pueden copiar automáticamente en otra región.
Al igual que otros servicios de almacenamiento en OCI, File Storage tiene funciones de replicación incorporadas para replicarse de forma asíncrona en otro dominio de disponibilidad y región. Mediante la función de clonación de File Storage, los datos del lado de destino se pueden poner a disposición casi al instante (RTO). Para una experiencia de DR completa, la replicación también replica instantáneas con los datos principales del sistema de archivos.
Base de datos
El diseño de alta disponibilidad está diseñado para garantizar la disponibilidad de la aplicación en caso de eventos de fallo IaaS, como un fallo de nodo o de red. Los escenarios de DR de base de datos tratan de evitar la pérdida de datos empresariales críticos debido a una interrupción importante e inevitable de las bases de datos primarias que, a menudo, afectan a una región completa o a un dominio de disponibilidad.
Recomendamos que consulte Arquitectura de máxima disponibilidad (MAA), que es un conjunto de mejores prácticas y arquitecturas de referencia desarrolladas por ingenieros de Oracle durante muchos años para el uso integrado de las tecnologías de alta disponibilidad, protección de datos y recuperación ante desastres de Oracle.
Las consideraciones clave para un diseño de DR son el RPO (objetivo de punto de recuperación), que es la cantidad de pérdida de datos que su aplicación puede tolerar, y el RTO (objetivo de tiempo de recuperación), que es el tiempo máximo de recuperación que su aplicación puede tolerar antes de que los sistemas deban volver a estar en línea. Sobre la base de estos, hay varias categorías que MAA define con el aumento de los costos y la complejidad. Estos se clasifican como Bronce, Plata, Aurous, Oro y Platino, cada uno con una complejidad y resiliencia cada vez mayores. Estos forman la base de las arquitecturas de referencia de DR especificadas por MAA.
Niveles de arquitectura de máxima disponibilidad (MAA) | Arquitectura Principal | Objetivo de punto de recuperación (RPO) | Objetivo de tiempo de recuperación (RTO) | Oracle Autonomous Database Serverless (ADB-S) | Oracle Autonomous Database on Dedicated Exadata Infrastructure (ADB-D y ADB-C@C) | Oracle Base Database Service (máquina virtual) | Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D) | Oracle Exadata Database Service on Cloud@Customer (ExaDB-C@C) |
---|---|---|---|---|---|---|---|---|
BRONCE | Instancia única con copia de seguridad local y copia de seguridad replicada | Última Copia de Seguridad | Horas | Listo para usar | Listo para usar | Listo para usar | Listo para usar | Listo para usar |
SILVER | RAC con copia de seguridad local y copia de seguridad replicada | Última Copia de Seguridad | Horas (cero para mantenimiento planificado) | Listo para usar | Listo para usar | Lista para usar para 2 nodos (requiere EE Extreme Performance) | Listo para usar | Listo para usar |
AUROUS | PDB de refrescamiento | Último Refrescamiento | Minutos | + Autonomous Data Guard | Opcional | Opcional | Opcional | Opcional |
DORADO | Base de datos con replicación activo-pasivo entre sitios mediante Data Guard (activo) | cero | Segundos | No Aplicable | + Data Guard | + Data Guard (requiere EE/EE HP para DG estándar, EE EP para DG activa) | + Data Guard | + Data Guard |
PLATINUM | Base de datos con replicación activo-activo entre sitios mediante GoldenGate | cero | cero | + GoldenGate | + GoldenGate | + GoldenGate | + GoldenGate | + GoldenGate |
Este diseño y estrategia de recuperación ante desastres describe la prevención de la pérdida de datos en la base de datos Oracle. Una estrategia de recuperación ante desastres sólida también debe abordar las configuraciones para la disponibilidad continua de las aplicaciones.
Las tecnologías clave que forman la base de MAA incluyen:
Monitoring
OCI Monitoring le permite supervisar de forma activa y pasiva sus recursos en la nube para mejorar la disponibilidad y unos niveles de servicio consistentes. Asegúrese de estar suscrito a las notificaciones de estado de OCI y compruebe el panel de control de estado del servicio. Para ver un ejemplo, consulte la sección sobre la supervisión integral de las aplicaciones que se ejecutan en Oracle Cloud Infrastructure.
Explorar más
Manuales de soluciones:
- Obtenga más información sobre la automatización de la recuperación para aplicaciones de Oracle y no de Oracle
- Obtenga más información sobre cómo proteger la topología de la nube frente a desastres
- Diseño de la infraestructura para desplegar Oracle Enterprise Performance Management en la nube (arquitectura de DR: varias regiones)
- Protección de SDDC de VMware en la nube frente a desastres
- Despliegue de Commvault para proteger el SDDC de VMware en la nube frente a desastres
- Despliegue de Zerto para proteger el SDDC de VMware en la nube frente a desastres
- Despliegue de Veeam para proteger el SDDC de VMware en la nube frente a desastres
- Despliegue de Actifio para proteger el SDDC de VMware en la nube frente a desastres
Arquitecturas de referencia:
- Diseño de una topología de recuperación ante desastres (DR) en modo piloto
- Despliegue de Exadata Cloud Service con Data Guard en varias regiones
- Despliegue de una solución de recuperación ante desastres entre regiones mediante RackWare
- Configuración de la conectividad privada entre regiones entre arrendamientos
Documentación y otros recursos:
- Uso de Oracle GoldenGate con Autonomous Database
- Uso de bases de datos en espera con Autonomous Database para la recuperación ante desastres
- Planes detallados de Oracle Maximum Availability Architecture para despliegues de Oracle Cloud Infrastructure (OCI): alta disponibilidad de Oracle Database en la nube