Modelo de responsabilidad compartida para la resiliencia
La resiliencia en la nube es una responsabilidad compartida entre Vd. (el usuario) y Oracle. Para que pueda crear arquitecturas de carga de trabajo resilientes en Oracle Cloud Infrastructure (OCI), debe comprender sus requisitos y responsabilidades de alta disponibilidad y recuperación ante desastres.
Responsabilidad de Oracle: "Resiliencia de la nube"
OCI es responsable de la "resiliencia de la nube". OCI proporciona una infraestructura en la nube global sólida, de alta disponibilidad y resiliente que consta de centros de datos, redes, hardware físico y software diseñados para minimizar el tiempo de inactividad y garantizar que las aplicaciones sigan siendo accesibles y funcionales incluso en caso de fallos. OCI ofrece acuerdos de nivel de servicio (SLA) de extremo a extremo que cubren el rendimiento, la disponibilidad y la capacidad de gestión de estos servicios.
OCI se aloja físicamente en varias regiones. Las regiones son independientes y están geográficamente dispersas dentro de un país, entre países o entre continentes. Cada región está formada por uno o más dominios de disponibilidad (AD), denominados Single-AD o Multi-AD respectivamente. Cada dominio de disponibilidad es un centro de datos independiente y, en regiones con varios dominios de disponibilidad, cada uno de ellos está aislado para reducir el riesgo de fallos que afectan a otros.
Los dominios de disponibilidad se conectan mediante una red segura, de baja latencia y de gran ancho de banda, que le permite crear soluciones resilientes y de alta disponibilidad en varios dominios de disponibilidad (cuando estén disponibles). Además, cada dominio de disponibilidad contiene tres dominios de errores (FD). Cada FD es una agrupación de hardware e infraestructura distinta de los demás FD en el mismo dominio de disponibilidad. Los FD permiten distribuir recursos para que no dependan del mismo hardware físico dentro de un único AD. Como resultado, los fallos de hardware o los eventos de mantenimiento que afectan a un FD no afectan a los recursos de otros FD.
Los componentes principales de la infraestructura de OCI, como los servicios Compute, Storage, Networking, Identity y Database, tienen redundancias incorporadas. Puede aprovechar AD, FD y estos servicios para crear aplicaciones de alta disponibilidad. Sin embargo, OCI no replica, despliega ni realiza automáticamente un failover para los recursos de la aplicación y los datos aprovisionados en el arrendamiento de un usuario en otro dominio de disponibilidad o región en caso de que se produzca un desastre o una interrupción regional parcial o completa. Es responsabilidad del usuario desplegar sus recursos de aplicación en dominios de disponibilidad y regiones.
Por ejemplo, si se despliega una aplicación en una instancia informática (con un volumen en bloque) dentro de un dominio de disponibilidad (por ejemplo, AD1), OCI no aprovisionará automáticamente una nueva instancia informática en un dominio de disponibilidad o región diferente en caso de que se produzca un fallo que afecte a la instancia.
Nota: El almacenamiento de bloques tiene redundancias incorporadas.
Su responsabilidad: "Resiliencia en la nube"
Para lograr la "resiliencia en la nube", en última instancia, es responsable de desarrollar un plan integral de continuidad del negocio, que incluya una estrategia de alta disponibilidad (HA) y recuperación ante desastres (DR), evaluaciones de riesgos y planes de respuesta a incidentes. También es responsable de desplegar las aplicaciones y los sistemas en varias FD, dominios de disponibilidad y regiones para obtener resiliencia y tolerancia a fallos mediante las mejores prácticas de OCI y los marcos de arquitectura de máxima disponibilidad (MAA). Cada componente de la aplicación debe estar diseñado para garantizar que tenga el máximo potencial de tiempo de actividad y accesibilidad. Para garantizar una alta disponibilidad, se deben identificar y eliminar puntos únicos de fallos para que, incluso si fallan los componentes, la aplicación permanezca en ejecución y disponible.
En caso de desastre o de interrupción regional completa, ya sea que implique una región de un solo dominio de disponibilidad o de varios dominios de disponibilidad, es su responsabilidad garantizar que la disponibilidad de recursos de OCI se asigne a su arrendamiento en el dominio de disponibilidad o la región de failover antes de ejecutar un plan de recuperación ante desastres.
La resiliencia es una responsabilidad compartida entre OCI y usted
Responsabilidades de OCI: resiliencia de la nube
Componentes | Descripción |
---|---|
Región, dominios de disponibilidad, dominios de errores | Oracle aprovisiona, gestiona, supervisa, protege y opera una infraestructura en la nube global altamente fiable. |
Servicios de OCI Storage | Oracle aprovisiona y opera servicios de almacenamiento, proporcionando alta disponibilidad del servicio y protegiendo los datos físicamente dentro de un dominio de disponibilidad. |
Servicios de redes principales de OCI | Oracle proporciona alta disponibilidad para los servicios de red principales de OCI y los servicios de conectividad con configuración de tráfico global que garantiza una conectividad y un rendimiento óptimos de las aplicaciones. |
Servicios de base de datos de OCI | Oracle crea e inicia el servicio de base de datos, realiza mejoras y mantenimiento del hardware, actualiza los servidores de almacenamiento y supervisa el estado del servicio. |
Sus responsabilidades: resiliencia en la nube
Componentes | Descripción |
---|---|
Planificación y pruebas de HA, DR y failover | Planifique, configure, pruebe y ejecute soluciones de alta disponibilidad, recuperación ante desastres y failover para garantizar la resiliencia de los datos y los servicios a fin de garantizar la continuidad del negocio. |
Operaciones y gestión | Usted es responsable de operar y supervisar sus recursos en la nube, implementando mejores prácticas de arquitectura en la nube resilientes para minimizar las interrupciones del servicio. |
Arquitectura de Carga de Trabajo | Usted es responsable de utilizar las mejores prácticas de arquitectura empresarial y los marcos de arquitectura de máxima disponibilidad (MAA) para diseñar, crear y mantener cargas de trabajo en la nube fiables, seguras, eficientes y rentables. |
Planificación de resiliencia | Es responsable de desarrollar un plan integral de continuidad del negocio, incluida la estrategia de alta disponibilidad y recuperación ante desastres, las evaluaciones de riesgos y los planes de respuesta a incidentes. |
Cómo OCI ofrece resiliencia en la nube
La siguiente información describe las formas en que OCI ofrece resiliencia en la nube.
Responsabilidades de OCI para los servicios
- OCI Architecture se ha creado con resiliencia, desplegando varios componentes que pueden ejecutar la misma tarea.
- OCI supervisa el estado de los servicios de OCI y gestiona el failover automático en caso de interrupción del servicio.
- Los servicios de la plataforma principal de OCI, los servidores y el almacenamiento, las redes, la gestión básica de identidad y acceso (IAM) y los servicios de telemetría se diseñan y despliegan de forma redundante. OCI supervisa continuamente su estado y, en caso de fallo, se ejecutan procesos de failover automáticos para proporcionar continuidad.
- Los servicios de almacenamiento de OCI han incorporado resiliencia. OCI Block Volume proporciona almacenamiento de datos persistente y de alto rendimiento en un dominio de disponibilidad. Del mismo modo, OCI Object Storage proporciona almacenamiento de datos persistente, duradero y de alto rendimiento dentro de un dominio de disponibilidad. Además, en regiones con varios dominios de disponibilidad, el almacén de objetos replica los datos en los dominios de disponibilidad automáticamente. El almacenamiento de archivos mantiene las réplicas en los dominios de errores de un dominio de disponibilidad.
- Oracle proporciona servicios de base de datos altamente robustos y resistentes dentro de OCI que le permiten seleccionar la estrategia de alta disponibilidad y recuperación ante desastres más adecuada para sus necesidades.
- OCI DNS se aloja en varios centros de datos distribuidos geográficamente, lo que la hace altamente disponible. También proporciona baja latencia, un nivel básico de equilibrio de carga y resiliencia para poder manejar interrupciones o tráfico pesado con un impacto mínimo para los usuarios.
Sus responsabilidades para lograr la resiliencia
La siguiente información describe las formas en que usted es responsable de lograr la resiliencia.
Procesar recomendaciones
- Documente un plan de alta disponibilidad basado en estas mejores prácticas. Tenga en cuenta que una mayor disponibilidad generará mayores costos y mayor complejidad.
- Documente un plan de recuperación ante desastres basado en mejores prácticas, incluidos los objetivos de punto de recuperación (RPO) y los objetivos de tiempo de recuperación (RTO).
- Documente las necesidades de resiliencia a nivel de carga de trabajo y aplicación, y planifique la redundancia, la supervisión y los failovers según sea necesario.
- Ponga en marcha un plan de failover para las cargas de trabajo y las aplicaciones que tengan impacto en el negocio, incluidos los escenarios de interrupción del servicio, mantenimiento planificado y nivel de aplicación que aprovechan Oracle Data Guard u Oracle Real Application Clusters (RAC).
- Despliegue Full Stack Disaster Recovery para cargas de trabajo críticas.
Dominios de Identidad
- Planifique los dominios de identidad y recuperación ante desastres.
- La replicación del dominio de identidad siempre está activada para el dominio de identidad "por defecto". El dominio de identidad "por defecto" siempre se replica en todas las regiones a las que está suscrito el inquilino. Cuando un administrador se suscribe a otra región, el dominio de identidad "por defecto" se replica automáticamente en esa región.
- Los dominios de identidad adicionales se crean en la "región principal" especificada en el momento de la creación. No se replican en otras regiones suscritas a menos que la replicación esté activada específicamente.
Red
- Planifique la alta disponibilidad de los recursos de red y aproveche el servicio de equilibrador de carga para distribuir el tráfico.
- Peer las redes virtuales en la nube (VCN) en las diferentes regiones para facilitar la conectividad de red.
- OCI le proporciona la opción de aprovisionar un DNS secundario para crear redundancia para aplicaciones orientadas a la web.
Recursos informáticos
- Planifique la alta disponibilidad de las instancias informáticas, distribuyéndolas entre FD en cada uno de los dominios de disponibilidad y colocándolas detrás de los equilibradores de carga.
- Active la copia de seguridad para una instantánea de un punto en el tiempo de los volúmenes.
- Configure la replicación entre regiones de volúmenes en bloque, volúmenes de inicio y grupos de volúmenes.
- Haga que las imágenes informáticas estén disponibles tanto en una región activa como en una de DR. En la región para la recuperación ante desastres, despliegue una configuración mínima para mantener una espera activa. A continuación, utilice reservas de potencia para reservar el resto de la capacidad necesaria para ejecutar todas las VM cuando la región de DR se convierta a la principal.
Almacenamiento
- Planifique la alta disponibilidad del almacenamiento.
- Active las copias de seguridad automatizadas para Object Storage y la replicación de Object Storage en todas las regiones para fines de DR.
- Active las funciones de clonación de volúmenes para volúmenes en bloque y aproveche la función de replicación del servicio Block Volume para garantizar la redundancia en distintos dominios de disponibilidad (la misma región o diferente).
- Active las instantáneas y los clones del sistema de archivos. El ciclo de vida de las instantáneas se puede gestionar automáticamente mediante la función instantánea basada en políticas. Uso de la replicación asíncrona de OCI File Storage para escenarios de failover y failback
- Configure la replicación asíncrona de Block Volume para replicar volúmenes y grupos de volúmenes en otra región. Active la función de copia de seguridad para producir copias de seguridad consistentes en bloqueos para volúmenes y grupos de volúmenes. Active las copias en otra región.
- En el caso del almacenamiento de archivos, además de la replicación incorporada para replicarse de forma asíncrona en otro dominio de disponibilidad y región, puede utilizar la función Clonación de File Storage para un RTO casi instantáneo.
Base de datos
-
Oracle Database: planifique la alta disponibilidad de la base de datos según la arquitectura de máxima disponibilidad (MAA). Tenga en cuenta que una mayor métrica de RPO y RTO aumentará los costos y la complejidad.
- Defina la edición de base de datos correcta según las necesidades de alta disponibilidad.
- Utilice Oracle Data Guard para replicar datos entre nodos de Oracle DB.
- Utilice los servicios de base de datos gestionados por Oracle Clusterware para conectar la aplicación. Para los entornos de Oracle Data Guard, utilice servicios basados en roles.
- Utilice la cadena de conexión recomendada con timeouts, reintentos y retrasos incorporados.
- Configure las conexiones con Fast Application Notification (FAN).
- Aproveche la continuidad de las aplicaciones o la continuidad de las aplicaciones transparente para reproducir transacciones sin confirmar en curso de forma transparente después de fallos.
- Active las réplicas para una versión actual de los datos.
- Aproveche los servicios de OCI: Recovery Manager (RMAN), Refreshable Pluggable Database (PDB), Oracle Data Guard and Active Data Guard, Autonomous Data Guard y OCI GoldenGate.
-
MySQL: OCI proporciona configuraciones de arquitectura de alta disponibilidad y recuperación ante desastres para Oracle MySQL Database Service.
Árbol de decisiones de DR de OCI HA
Explorar más
Documentación
- Marco de mejores prácticas para Oracle Cloud Infrastructure
- Más información sobre la arquitectura de una topología de nube de alta disponibilidad
- Servicio de gestión y orquestación de OCI Full Stack Disaster Recovery (FSDR)
- Documentación de OCI Disaster Recovery
Manuales de soluciones
- Más información sobre la arquitectura de una topología de nube de alta disponibilidad
- Obtener información sobre las prácticas de topología de nube fiable y resiliente
- Diseño de la infraestructura para desplegar Oracle Enterprise Performance Management en la nube (arquitectura de HA: una región, un dominio de disponibilidad único)
Arquitecturas de referencia
- Despliegue de una aplicación web de alta disponibilidad
- Despliegue de Oracle REST Data Services con alta disponibilidad en Oracle Cloud Infrastructure
- Despliegue de un cluster InnoDB de MySQL de alta disponibilidad
- Despliegue de aplicaciones ASP.Net de alta disponibilidad en Oracle Cloud Infrastructure
- Despliegue de un cluster CockroachDB de alta disponibilidad
- Despliegue una base de datos con hardware dedicado de alta disponibilidad
- Despliegue de una base de datos Microsoft SQL Server de alta disponibilidad
- Despliegue de un cluster de Apache Cassandra de alta disponibilidad
- Despliegue de una caché distribuida de alta disponibilidad con Redis
- Aprovisionamiento de un controlador de borde de sesión de alta disponibilidad