Diseño de una topología de recuperación ante desastres (DR) de piloto a la luz

Si una interrupción a gran escala afecta a sus aplicaciones de producción, necesita la capacidad de restaurar las cargas de trabajo rápidamente. El plan de continuidad del negocio debe incluir una estrategia de recuperación ante desastres que cumpla sus objetivos de punto de recuperación, tiempo de recuperación y presupuesto. Una topología piloto-luz ofrece un equilibrio entre los requisitos de coste y recuperación.

El término luz piloto hace referencia a una pequeña llama que siempre está encendida en dispositivos, como calefactores alimentados con gas, y se puede utilizar para iniciar los dispositivos rápidamente cuando sea necesario. En el contexto de DR, un entorno de luz de piloto contiene los componentes principales de una carga de trabajo determinada, con la última configuración y datos críticos, que se ejecutan a una escala mínima en una ubicación remota desde el sitio principal. En caso de desastre en el sitio principal, puede utilizar los componentes de luz de piloto en la ubicación remota para restaurar un entorno de producción rápidamente.

Oracle Cloud Infrastructure proporciona infraestructura y servicios escalables de alta disponibilidad que le permiten diseñar una topología de recuperación ante desastres de luz piloto.

Arquitectura

Esta arquitectura muestra una topología de varios niveles que tiene recursos redundantes distribuidos en dos regiones de Oracle Cloud Infrastructure.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de x-region-pilot-light-topology.png a continuación

Descripción de la ilustración x-region-pilot-light-topology.png

La arquitectura tiene los siguientes componentes:

Regiones
Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y las grandes distancias pueden separarlas (entre países e incluso continentes).
Dominios de disponibilidad
Los dominios de disponibilidad son centros de datos independientes e independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como alimentación o refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, es improbable que un fallo en un dominio de disponibilidad afecte a los otros dominios de disponibilidad de la región.

El diagrama de arquitectura no muestra dominios de disponibilidad. Sin embargo, en las regiones que tienen varios dominios de disponibilidad, puede distribuir los recursos de cada región entre los dominios de disponibilidad para ofrecer una alta disponibilidad.
Dominios de errores
Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con alimentación y hardware independientes. Cuando distribuye recursos en varios dominios de errores, las aplicaciones pueden tolerar fallos del servidor físico, mantenimiento del sistema y fallos de alimentación dentro de un dominio de errores.

El diagrama de arquitectura no muestra dominios de errores. Sin embargo, para protegerse contra fallos en un dominio de errores, puede distribuir los recursos en cada disponibilidad en los dominios de errores.
Redes virtuales en la nube (VCN) y subredes
Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes del centro de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no solapados que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango de direcciones contiguas que no se solapan con las otras subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

En esta arquitectura de referencia, todos los recursos de cada región están asociados a una única VCN.
Host bastión
El bastion host es una instancia informática que sirve de punto de entrada controlado y seguro a la topología desde fuera de la nube. El host bastión se aprovisiona normalmente en una zona desmilitarizada (DMZ). Le permite proteger los recursos confidenciales colocándolos en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un único punto de entrada conocido que puede supervisar y auditar con regularidad. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso a ellos.
Equilibrador de carga
El servicio Oracle Cloud Infrastructure Load Balancing proporciona una distribución automatizada de tráfico desde un único punto de entrada a varios servidores del backend.
Gateway de internet
El gateway de Internet permite el tráfico entre las subredes públicas de una VCN y la red pública de Internet.
instancias informáticas
La región principal incluye dos instancias informáticas para el nivel de aplicación.

La región en espera tiene una instancia informática para montar el almacenamiento de archivos replicado. Las otras dos instancias informáticas de la región en espera representan servidores que puede crear mediante volúmenes de inicio y volúmenes en bloque replicados en caso de desastre en la región principal.
Volúmenes de bloques
Con los volúmenes de almacenamiento en bloques, puede crear, asociar, conectar y mover volúmenes de almacenamiento, y cambiar el rendimiento de volumen para cumplir con los requisitos de almacenamiento, rendimiento y aplicaciones. Después de asociar y conectar un volumen a una instancia, puede utilizar el volumen como disco duro normal. También puede desconectar un volumen y asociarlo a otra instancia sin perder datos.

La arquitectura muestra los volúmenes de inicio y los volúmenes en bloque de la región principal que se replican en la región en espera. Con este diseño, en caso de desastre en la región principal, puede restaurar el nivel de aplicación rápidamente en la región en espera mediante el aprovisionamiento de instancias informáticas con los volúmenes en bloque e inicio replicados.
Almacenamiento de archivos
El servicio Oracle Cloud Infrastructure File Storage proporciona un sistema de archivos de red duradero, escalable, seguro y empresarial. Puede conectarse a un sistema de archivos del servicio File Storage desde cualquier instancia con hardware dedicado, de máquina virtual o de contenedor en una VCN. También puede acceder a un sistema de archivos desde fuera de la VCN mediante Oracle Cloud Infrastructure FastConnect y la VPN con IPSec.

La arquitectura muestra el almacenamiento de archivos en la región principal que se replica en la región en espera mediante un script.
Almacenamiento de objetos
El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar y, a continuación, recuperar los datos de manera segura directamente desde Internet o desde la plataforma en la nube. Puede escalar el almacenamiento sin problemas sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y que rara vez tiene acceso.

La arquitectura muestra automáticamente el almacenamiento de objetos de la región principal que se replica en la región en espera mediante una política de replicación entre regiones.
Servidor de aplicación
Los servidores de aplicaciones utilizan un igual secundario que, al igual que la base de datos, se hará cargo del procesamiento en caso de desastre. Los servidores de aplicaciones utilizan los metadatos y la configuración almacenados tanto en la base de datos como en el sistema de archivos. Los clusters de servidor de aplicaciones ofrecen protección en el ámbito de una sola región, pero las modificaciones en curso y los nuevos despliegues se deben replicar en la ubicación secundaria de forma continua para lograr una recuperación ante desastres consistente.
Base de Datos
La arquitectura incluye una base de datos en cada región. Oracle Data Guard se utiliza para la replicación de datos y garantiza que la base de datos en espera sea una copia transaccionalmente consistente de la base de datos primaria.

Data Guard mantiene automáticamente la sincronización entre las bases de datos al transmitir y aplicar los datos redo desde la base de datos principal a la base de datos en espera. En caso de desastre en la región principal, Data Guard realiza un failover automáticamente a la base de datos en espera.
Gateway de enrutamiento dinámico (DRG)
El DRG es un enrutador virtual que proporciona una ruta de acceso para el tráfico de red privada entre una VCN y una red fuera de la región, como una VCN en otra región de Oracle Cloud Infrastructure, una red local o una red en otro proveedor de nube.
Gateway de NAT
El gateway de NAT permite que los recursos privados de una VCN accedan a los hosts de Internet, sin exponer dichos recursos a las conexiones de Internet entrantes.
Gateway de servicio
El gateway de servicio proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico desde la VCN al servicio Oracle recorre el tejido de red de Oracle y no internet.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para diseñar la topología de DR de luz de piloto. Los requisitos pueden ser diferentes de la arquitectura que se describe aquí.

VCN
Al crear cada VCN, determine cuántas direcciones IP necesitan sus recursos en la nube en cada subred. Mediante la notación Classless Inter-Domain Routing (CIDR), especifique una máscara de subred y un rango de direcciones de red que sea lo suficientemente grande para las direcciones IP requeridas. Utilice un rango de direcciones que esté dentro del espacio de direcciones IP privadas estándar.

Seleccione bloques CIDR que no se superpongan con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor en la nube) a la que desee configurar conexiones privadas.

Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques de CIDR.

Al diseñar las subredes, tenga en cuenta los requisitos de flujo de tráfico y seguridad. Conecte todos los recursos de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.

Utilizar subredes regionales.
Lista de seguridad
Para permitir la replicación entre regiones de la base de datos y el almacenamiento de archivos, configure las listas de seguridad necesarias. Tenga en cuenta que la replicación de volúmenes de inicio y volúmenes en bloque no requiere comunicación entre los hosts a los que están asociados los volúmenes.
Política de copia de seguridad de volúmenes en bloque
Configure una política para realizar copias de seguridad de los volúmenes en bloque con la frecuencia necesaria para cumplir con su RPO.
Servidores de aplicaciones y aplicaciones personalizadas que se ejecutan en Oracle Platform as a Service (PaaS)
Los servicios de PaaS, como Oracle SOA Cloud Service y Oracle WebLogic Server para Oracle Cloud Infrastructure, utilizan la mayoría de los recursos mencionados anteriormente de forma interna (recursos informáticos, volúmenes en bloque, almacenamiento de archivos, redes, base de datos). Necesitan estrategias específicas de recuperación ante desastres que protejan todas las diferentes capas de forma coherente. Oracle proporciona mejores prácticas detalladas destinadas a crear arquitecturas de máxima disponibilidad (MAA) y proteger este tipo de sistemas contra desastres. Consulte Más información para obtener documentación específica sobre recuperación ante desastres (DR) para PaaS.

Consideraciones

Al implementar la configuración de DR de luz de piloto, tenga en cuenta los siguientes factores:

Rendimiento
Al planificar el RPO y el RTO, tenga en cuenta el tiempo necesario para que las copias de seguridad de volúmenes se copien entre regiones.
Disponibilidad
Puede utilizar la gestión de dirección DNS para redirigir el tráfico de cliente a la región de producción actual después de una conmutación por error.

Si utiliza unidades de computación que proporcionan dispositivos NVMe conectados localmente, puede realizar una copia de seguridad de los datos de estos dispositivos mediante soluciones de copia de seguridad tradicionales que utilizan almacenamiento de objetos.
Costo
En caso de failover de la región principal a la región en espera, puede aprovisionar la infraestructura necesaria rápidamente mediante scripts de Terraform. Puede cambiar el tamaño de los sistemas de base de datos después de aprovisionarlos; por lo tanto, especifique la unidad mínima necesaria inicialmente y cambie a una unidad más grande después del failover.

Explorar más

Obtenga más información sobre recuperación ante desastres y resiliencia en Oracle Cloud Infrastructure.

Consulte los resúmenes técnicos de recuperación ante desastres de MAA para conocer los siguientes servicios de Oracle PaaS:

Recuperación ante desastres de SOA Suite en Oracle Cloud Infrastructure Marketplace

Recuperación ante desastres de Oracle WebLogic Server para Oracle Cloud Infrastructure