Modelo de Responsabilidade Compartilhada para Resiliência
A resiliência na nuvem é uma responsabilidade compartilhada entre você (o usuário) e a Oracle. Para criar arquiteturas de carga de trabalho resilientes na Oracle Cloud Infrastructure (OCI), você deve entender seus requisitos e responsabilidades de alta disponibilidade e recuperação de desastres.
Responsabilidade da Oracle: "Resiliência da Nuvem"
A OCI é responsável pela "resiliência da nuvem". A OCI fornece uma infraestrutura de nuvem global robusta, altamente disponível e resiliente que consiste em data centers, rede, hardware físico e software projetados para minimizar o tempo de inatividade e garantir que os aplicativos permaneçam acessíveis e funcionais mesmo em caso de falhas. A OCI oferece contratos de nível de serviço (SLAs) de ponta a ponta que abrangem desempenho, disponibilidade e capacidade de gerenciamento desses serviços.
A OCI é hospedada fisicamente em várias regiões. As regiões são independentes e estão geograficamente dispersas dentro de um país, entre países ou entre continentes. Cada região é composta por um ou mais domínios de disponibilidade (ADs), que são denominados Single-AD ou Multi-AD respectivamente. Cada AD é um data center independente e, em regiões com vários ADs, cada um é isolado para ajudar a reduzir o risco de falha ao afetar os outros.
Os ADs são conectados por uma rede segura, de baixa latência e de alta largura de banda, que permite criar soluções resilientes e altamente disponíveis em vários ADs (quando disponíveis). Além disso, cada AD contém três domínios de falha (FDs). Cada FD é um agrupamento de hardware e infraestrutura distinto dos outros FDs no mesmo AD. Os FDs permitem a distribuição de recursos para que eles não dependam do mesmo hardware físico em um único AD. Como resultado, falhas de hardware ou eventos de manutenção que afetam um FD não afetam os recursos em outros FDs.
Os principais componentes de infraestrutura da OCI, como serviços de Computação, Armazenamento, Rede, Identidade e Banco de Dados, têm redundâncias incorporadas. Você pode aproveitar ADs, FDs e esses serviços para criar aplicativos altamente disponíveis. No entanto, o OCI não replica, implanta ou executa failover automaticamente para recursos de aplicativos e dados provisionados na tenancy de um usuário para outro AD ou região em caso de desastre ou interrupção regional parcial/completa. É responsabilidade do usuário implantar seus recursos de aplicativo em ADs e regiões.
Por exemplo, se um aplicativo for implantado em uma instância de computação (com um volume em blocos) dentro de um AD (por exemplo, AD1), o OCI não provisionará automaticamente uma nova instância de computação em outro AD ou região no caso de uma falha que afete a instância.
Observação: O armazenamento em blocos tem redundâncias incorporadas.
Sua Responsabilidade: "Resiliência na Nuvem"
Para obter "resiliência na nuvem", você é responsável por desenvolver um plano abrangente de continuidade de negócios, incluindo uma estratégia de alta disponibilidade (HA) e recuperação de desastres (DR), avaliações de risco e planos de resposta a incidentes. Você também é responsável por implantar seus aplicativos e sistemas em vários FDs, ADs e regiões para resiliência e tolerância a falhas usando as melhores práticas da OCI e as Estruturas de Arquitetura de Disponibilidade Máxima (MAA). Cada componente do aplicativo deve ser projetado para garantir que tenha o máximo potencial de tempo de atividade e acessibilidade. Para garantir alta disponibilidade, pontos únicos de falhas devem ser identificados e eliminados para que, mesmo que os componentes falhem, o aplicativo permaneça em execução e disponível.
Em caso de desastre ou interrupção regional completa, quer envolva uma região de AD Único ou Multi-AD, é sua responsabilidade garantir que a disponibilidade de recursos do OCI seja alocada para sua tenancy no AD ou região de failover antes de executar um plano de recuperação de desastre.
A resiliência é uma responsabilidade compartilhada entre a OCI e você
Responsabilidades da OCI: Resiliência da Nuvem
| Componentes | Descrição |
|---|---|
| Região, Domínios de Disponibilidade, Domínios de Falha | A Oracle provisiona, gerencia, monitora, protege e opera uma infraestrutura de nuvem global altamente confiável. |
| Serviços de Armazenamento do OCI | A Oracle provisiona e opera serviços de armazenamento, fornecendo alta disponibilidade de serviço e protegendo dados fisicamente dentro de um domínio de disponibilidade. |
| Serviços de Rede Básica do OCI | A Oracle fornece alta disponibilidade para serviços de rede e conectividade principais da OCI com modelagem de tráfego global que garante conectividade e desempenho ideais do aplicativo. |
| Serviços do OCI Database | A Oracle cria e inicia o serviço de Banco de Dados, realiza manutenção e aprimoramentos de hardware, atualiza servidores de armazenamento e supervisiona a integridade do serviço. |
Suas Responsabilidades: Resiliência na Nuvem
| Componentes | Descrição |
|---|---|
| Planejamento e teste de HA, DR e failover | Planeje, configure, teste e execute soluções de HA, DR e failover para resiliência de dados e serviços para garantir a continuidade dos negócios. |
| Operações e Gerenciamento | Você é responsável por operar e monitorar seus recursos de nuvem, implementando as melhores práticas de arquitetura de nuvem resiliente para minimizar interrupções de serviço. |
| Arquitetura da Carga de Trabalho | Você é responsável por usar as Melhores Práticas de Arquitetura Empresarial e as frameworks de MAA (Maximum Availability Architecture) para projetar, criar e manter cargas de trabalho de nuvem confiáveis, seguras, eficientes e econômicas. |
| Planejamento de resiliência | Você é responsável por desenvolver um plano abrangente de continuidade de negócios, incluindo estratégia de HA e DR, avaliações de risco e planos de resposta a incidentes. |
Como a OCI Oferece Resiliência na Nuvem
As informações a seguir descrevem maneiras pelas quais a OCI oferece resiliência à nuvem.
Responsabilidades do OCI para Serviços
- A Arquitetura da OCI foi criada com resiliência, implantando vários componentes que podem executar a mesma tarefa.
- A OCI monitora a integridade dos serviços da OCI e gerencia o failover automático em caso de interrupção do serviço.
- Os serviços de plataforma principal da OCI, servidores e armazenamento, rede, IAM (Identity and Access Management) e serviços de telemetria são projetados e implementados de forma redundante. A OCI monitora continuamente sua integridade e, no caso de uma falha, os processos de failover automático são executados para fornecer continuidade.
- Os serviços do OCI Storage incorporaram resiliência. O OCI Block Volume fornece armazenamento de dados persistente e de alto desempenho em um AD. Da mesma forma, o OCI Object Storage fornece armazenamento de dados persistente, durável e de alto desempenho em um AD. Além disso, em regiões com vários ADs, o armazenamento de objetos replica os dados entre ADs automaticamente. O armazenamento de arquivos mantém réplicas em domínios de falha, dentro de um AD.
- A Oracle fornece Serviços de Banco de Dados altamente robustos e resilientes dentro da OCI que permitem selecionar a estratégia de HA e DR mais adequada para suas necessidades.
- O DNS da OCI é hospedado em vários data centers distribuídos geograficamente, tornando-o altamente disponível. Ele também fornece baixa latência, um nível básico de balanceamento de carga e resiliência para ser capaz de lidar com interrupções ou tráfego pesado com impacto mínimo para os usuários.
Suas responsabilidades para alcançar resiliência
As informações a seguir descrevem maneiras pelas quais você é responsável por obter resiliência.
Processar Recomendações
- Documente um plano de alta disponibilidade com base nessas melhores práticas. Considere que uma maior disponibilidade resultará em custos mais altos e maior complexidade.
- Documente um plano de recuperação de desastres com base nas melhores práticas, incluindo Objetivos do Ponto de Recuperação (RPO) e Objetivos do Tempo de Recuperação (RTO).
- Documente as necessidades de resiliência em um nível de carga de trabalho e aplicativo e planeje redundância, monitoramento e failovers conforme necessário.
- Possuir um plano de failover para cargas de trabalho e aplicativos com impacto nos negócios, incluindo cenários de interrupção do serviço, manutenção planejada e nível de aplicativo aproveitando o Oracle Data Guard ou Oracle Real Application Clusters (RAC).
- Implemente o Full Stack Disaster Recovery para cargas de trabalho críticas.
Domínios de Identidades
- Planeje a recuperação de desastres e domínios de identidade.
- A replicação do domínio de identidades está sempre ativada para o domínio de identidades "padrão". O domínio de identidades "padrão" é sempre replicado em todas as regiões em que o tenant está inscrito. Quando um administrador se inscreve em outra região, o domínio de identidades "padrão" é replicado automaticamente nessa região.
- Os domínios de identidades adicionais são criados na "região home" especificada no momento da criação. Eles não se replicam para outras regiões inscritas, a menos que a replicação esteja especificamente ativada.
Redes
- Planeje a alta disponibilidade para recursos de rede e aproveite o serviço Load Balancer para distribuir o tráfego.
- Faça pareamento das redes virtuais na nuvem (VCNs) nas diferentes regiões para facilitar a conectividade de rede.
- O OCI fornece a você a opção de provisionar um DNS secundário para criar redundância para aplicativos voltados para a Web.
Computação
- Planeje a alta disponibilidade para instâncias do serviço Compute, distribuindo-as entre FDs em cada um dos ADs e colocando-as atrás de balanceadores de carga.
- Ative o backup para um snapshot pontual dos seus volumes.
- Configure a replicação entre regiões de volumes em blocos, volumes de inicialização e grupos de volumes.
- Disponibilize as imagens de computação em uma região de DR ativa e em uma região de DR. Na região de DR, implante uma configuração mínima para manter um stand-by quente. Em seguida, use reservas de funcionalidade para reservar o restante da capacidade necessária para executar todas as VMs quando a região de DR se tornar principal.
Armazenamento
- Planeje a alta disponibilidade para armazenamento.
- Ative backups automatizados para o serviço Object Storage e replicação do serviço Object Storage entre regiões para fins de DR.
- Ative recursos de clonagem de volume para volumes em blocos e aproveite o recurso de replicação do serviço Block Volume para garantir redundância entre diferentes ADs (mesma ou outra região).
- Enable file system snapshots and clones. O ciclo de vida dos instantâneos pode ser gerenciado automaticamente com o recurso instantâneo baseado em política. Aproveite a replicação assíncrona do OCI File Storage para cenários de failover e failback
- Configure a replicação assíncrona do Block Volume para replicar volumes e grupos de volumes para outra região. Ative o recurso de backup para produzir backups consistentes com pane para volumes e grupos de volumes. Ative cópias para outra região.
- Para o serviço File Storage, além da replicação integrada para replicar de forma assíncrona para outro domínio de disponibilidade e região, você pode usar o recurso Clonagem do serviço File Storage para um RTO quase instantâneo.
Banco de Dados
-
Oracle Database: Planeje a alta disponibilidade do banco de dados com base na MAA (Maximum Availability Architecture). Considerar métricas de RPO e RTO mais altas aumentará o custo e a complexidade.
- Defina a edição correta do BD de acordo com as necessidades de alta disponibilidade.
- Aproveite o Oracle Data Guard para replicar dados entre nós do Oracle DB.
- Use os serviços de banco de dados gerenciados pelo Oracle Clusterware para conectar seu aplicativo. Para ambientes Oracle Data Guard, use serviços baseados em atribuição.
- Use a string de conexão recomendada com timeouts, novas tentativas e atrasos incorporados.
- Configure suas conexões com o FAN (Fast Application Notification).
- Aproveite o Continuidade do Aplicativo ou o Continuidade Transparente do Aplicativo para repetir transações não confirmadas em execução de forma transparente após falhas.
- Ative réplicas para uma versão atual dos dados.
- Aproveite os Serviços OCI: Recovery Manager (RMAN), PDB (Banco de Dados Plugável Atualizável), Oracle Data Guard e Active Data Guard, Autonomous Data Guard e OCI GoldenGate.
-
MySQL: A OCI fornece configurações de Arquitetura de Alta Disponibilidade e Recuperação de Desastres para o Oracle MySQL Database Service.
Árvore de Decisão de DR de HA do OCI
Explorar Mais
Documentação
- Estrutura de melhores práticas para o Oracle Cloud Infrastructure
- Saiba mais sobre como arquitetar uma topologia de nuvem altamente disponível
- Serviço de orquestração e gerenciamento do OCI Full Stack Disaster Recovery (FSDR)
- Documentação do OCI Disaster Recovery
Playbooks de Soluções
- Saiba mais sobre como arquitetar uma topologia de nuvem altamente disponível
- Saiba mais sobre práticas de topologia de nuvem confiáveis e resilientes
- Projete a infraestrutura para implantar o Oracle Enterprise Performance Management na nuvem (Arquitetura de Alta Disponibilidade: Uma Região, Domínio de Disponibilidade Único)
Arquiteturas de Referência
- Implante um aplicativo web altamente disponível
- Implante o Oracle REST Data Services com alta disponibilidade no Oracle Cloud Infrastructure
- Implante um cluster MySQL InnoDB altamente disponível
- Implante aplicativos ASP.Net de alta disponibilidade no Oracle Cloud Infrastructure
- Implante um cluster CockroachDB altamente disponível
- Implantar um banco de dados bare metal altamente disponível
- Implante um banco de dados Microsoft SQL Server altamente disponível
- Implante um cluster do Apache Cassandra altamente disponível
- Implante um cache distribuído altamente disponível usando Redis
- Provisione um controlador de borda de sessão altamente disponível