Récupération après sinistre

Un plan de récupération après sinistre bien conçu vous permet d'effectuer une récupération après sinistre rapide et de continuer à fournir des services aux utilisateurs.

La récupération après sinistre est le processus consistant à vous préparer aux sinistres et à effectuer la récupération après sinistre. Un sinistre peut être tout événement mettant vos applications en danger, qu'il s'agisse de pannes de réseau, d'équipement ou d'application, ou de catastrophes naturelles. Il est presque impossible de prédire quand vous aurez besoin d'une récupération après sinistre, de même que vous ne pouvez pas anticiper les accidents de voiture. Si vous ne pouvez pas contrôler le moment où un sinistre se produit, vous pouvez toutefois contrôler le processus de récupération.

Un plan de récupération après sinistre bien conçu vous permet d'effectuer une récupération après sinistre rapide et d'assurer la continuité de l'activité. Lorsque votre organisation déplace ses charges globales vers le cloud, vous devez adapter au cloud vos connaissances en matière de création de systèmes sur site résilients. Oracle Cloud Infrastructure (OCI) fournit des services et une infrastructure évolutifs, sécurisés et hautement disponibles qui vous permettent de récupérer vos charges globales cloud rapidement, de manière fiable et sécurisée.

Etant donné que les architectures à plusieurs niveaux sont fréquentes dans les applications d'entreprise sur site traditionnelles, utilisons un exemple d'application d'entreprise à trois niveaux afin de montrer comment rendre une application plus résiliente en cas de sinistre à l'aide des fonctionnalités de récupération après sinistre OCI et des meilleures pratiques pour la conception de topologies cloud fiables et résilientes. Le schéma suivant présente un exemple d'application d'entreprise dans une configuration de récupération après sinistre avec système de secours à chaud.

Exemple d'application d'entreprise dans une configuration de récupération après sinistre avec système de secours à chaud.

Concepts relatifs à la récupération après sinistre

La première étape de la planification de la récupération après sinistre consiste à déterminer l'objectif de délai de récupération et l'objectif de point de récupération.

L'objectif de délai de récupération est le délai cible au cours duquel une application donnée doit être restaurée après un sinistre. En général, plus l'application est essentielle, plus la valeur de l'objectif de délai de récupération est faible.

L'objectif de point de récupération est la période après un sinistre pendant laquelle une application peut tolérer une perte de données avant que le sinistre ne commence à affecter l'entreprise.

Pour élaborer un plan rentable garantissant la récupération de vos applications après un sinistre, vous devez prendre en compte à la fois le délai de récupération cible et la tolérance de perte de données.

Schéma montrant l'objectif de point de récupération avant un sinistre, le sinistre, puis l'objectif de délai de récupération.

Pour plus d'informations, reportez-vous à Meilleures pratiques pour la protection de votre topologie cloud contre les sinistres.

Choix d'une approche de récupération après sinistre

Certaines applications sont plus essentielles que d'autres. La solution de récupération après sinistre que vous choisissez dépend des diverses exigences possibles, notamment la disponibilité, la durabilité des données, l'objectif de délai de récupération et l'objectif de point de récupération.

Evaluez les méthodes de récupération après sinistre du tableau suivant pour savoir quelles fonctionnalités de récupération après sinistre OCI utiliser lors du déploiement d'applications d'entreprise à plusieurs niveaux sur OCI.

Méthode de récupération après sinistre	Objectif de point de récupération	Objectif de délai de récupération	Coût
Sauvegarde et restauration	Plusieurs heures	Plusieurs heures	$
Mode veilleuse	Plusieurs minutes	Plusieurs minutes	$$
Système de secours à chaud	Plusieurs secondes	Plusieurs minutes	$$$
Actif/actif	Proche de zéro	Zéro possible	$$$$

Tenez compte des régions et des domaines de disponibilité d'une région dans les scénarios de récupération après sinistre et de haute disponibilité. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité désigne un ou plusieurs centres de données situés dans une région. Si votre plan de récupération après sinistre exige que les sites de récupération après sinistre soient physiquement éloignés, l'utilisation de plusieurs régions permet d'atteindre cet objectif.

Dans notre exemple d'application d'entreprise, nous devons pouvoir résister à une panne régionale, mais sommes en mesure de gérer un temps d'inactivité si une région est touchée. Nous avons donc choisi un déploiement de système de secours à chaud dans plusieurs régions.

Gérer l'orchestration de la récupération après sinistre avec Full Stack DR

Full Stack Disaster Recovery est un service natif OCI qui fournit une interface simple et cohérente permettant d'orchestrer les opérations de récupération après sinistre pour de nombreux systèmes différents, ce qui permet à tout utilisateur autorisé dans vos opérations informatiques de déclencher facilement un basculement ou une permutation sans avoir à comprendre les processus de récupération sous-jacents.

Full Stack DR est la première véritable solution de récupération après sinistre en tant que service (DRaaS) d'Oracle pour OCI, et est bien plus qu'un simple moteur d'orchestration. Full Stack DR est un service de gestion de récupération après sinistre hautement évolutif et extensible qui automatise entièrement les étapes nécessaires pour tester, migrer ou récupérer des systèmes métier critiques et non critiques entre deux régions OCI, de n'importe où dans le monde, en un seul clic.

Les entreprises sont confrontées à des problèmes de récupération à grande échelle

Votre entreprise compte probablement plus que quelques applications stratégiques et opérationnelles hébergées dans votre location OCI. Pour compliquer les choses, chacune de ces applications Oracle ou non Oracle a un processus de récupération différent avec des objectifs de point de récupération et de temps de récupération différents. En outre, les processus de récupération de chaque pile d'applications peuvent être complexes, ce qui nécessite l'attention complète de vos spécialistes techniques les plus expérimentés.

Votre organisation informatique dispose probablement des compétences et de la détermination nécessaires pour récupérer une ou deux applications différentes en une journée ou deux, dans le cadre d'un effort pratique de la part des spécialistes informatiques les plus expérimentés de l'entreprise. Mais que se passe-t-il si votre organisation informatique est confrontée à la perspective de récupérer plus que quelques systèmes en même temps ?

Full Stack DR facilite la récupération à grande échelle

Full Stack DR est conçu pour gérer les workflows de récupération après sinistre à grande échelle sans impliquer vos experts techniques les plus qualifiés dans le cas où vous auriez besoin de récupérer plusieurs systèmes en même temps. Full Stack DR normalise la façon dont les opérations de récupération après sinistre sont exécutées et surveillées à l'aide d'une méthode simple et cohérente via la console OCI.

Full Stack DR organise diverses applications en groupes de protection indépendants sans modifier la façon dont vous avez installé et configuré vos applications Oracle et non Oracle existantes dans OCI. Full Stack DR peut récupérer un seul composant d'une pile d'applications ou récupérer l'ensemble de la pile d'applications en un seul clic. Choisissez ce que vous voulez faire.

La récupération après sinistre de pile complète valide la disponibilité des plans de récupération après sinistre

Full Stack DR permet de vérifier que les systèmes métier critiques sont prêts pour toute interruption de service inattendue via nos vérifications de préparation à la reprise après sinistre intégrées et entièrement automatisées. Notre fonctionnalité de prévérification est automatiquement ajoutée à la liste des tâches effectuées par Full Stack DR au cours d'une opération de récupération après sinistre.

Les prévérifications sont sans interruption et peuvent être exécutées à tout moment sans perturber vos systèmes de production. Nous validons la validité des plans de récupération après sinistre en vérifiant si le réseau, le stockage, le calcul, les bases de données Oracle et les scripts personnalisés que vous avez ajoutés à un plan de récupération après sinistre sont là où ils doivent être et sont prêts à être utilisés.

Flexibilité de gestion de toute architecture de déploiement

La flexibilité est un concept clé derrière la conception de Full Stack DR. Différents systèmes d'entreprise nécessitent différentes solutions de récupération. Par conséquent, Full Stack DR est conforme à la façon dont vous devez récupérer chaque système métier individuel d'une manière qui correspond à vos besoins techniques et commerciaux. La manière dont vous choisissez d'installer et de déployer un système métier pour la récupération après sinistre dépend de vous.

Notre solution DRaaS peut gérer la récupération différemment pour chaque système d'entreprise, qu'il soit déployé pour le basculement de machine virtuelle, la lumière pilote, la base de données de secours à froid, la base de données de secours à chaud, la base de données de secours à chaud ou actif/actif. Nous gérons le déploiement et la récupération.

En savoir plus sur Full Stack DR

Full Stack DR vous donne la puissance et la flexibilité nécessaires pour implémenter la récupération après sinistre pour les applications Oracle ou non Oracle dans OCI comme vous le souhaitez, et non comme nous le souhaitons.

Remarques concernant la conception de la récupération après sinistre

Il y a beaucoup de choses à prendre en compte, selon la méthode de récupération après sinistre que vous implémentez.

Pour obtenir des informations générales sur les fonctionnalités de récupération après sinistre, reportez-vous à Fonctionnalités de récupération après sinistre d'Oracle Cloud. Dans cet exemple, nous passons en revue la méthode de base de données de secours à chaud et les ressources OCI nécessaires pour implémenter la base de données de secours à chaud, qui incluent une deuxième région pour un déploiement inter-région.

Fonctions de réseau

Après avoir créé le socle réseau des réseaux cloud virtuels et des sous-réseaux dans les régions appropriées, vous devez, pour configurer la récupération après sinistre, appairer les réseaux cloud virtuels des différentes régions afin de faciliter la connectivité réseau.

Calcul

Pour exécuter des applications sur des instances de calcul dans deux régions, vous devez rendre les images de calcul disponibles dans les deux régions. Dans la région de la récupération après sinistre, déployez une configuration minimale permettant de gérer un système de secours à chaud. Utilisez ensuite les réservations de capacité afin de réserver le reste de la capacité requise pour exécuter toutes les machines virtuelles si la région de récupération après sinistre devient principale. Pour plus d'informations, reportez-vous à Présentation du service Compute et à Meilleures pratiques pour vos instances Compute.

Stockage

OCI fournit un ensemble de services de stockage qui inclut Block Volume, File Storage et Object Storage, qui fournissent des fonctionnalités de redondance intégrées et de haute disponibilité en maintenant plusieurs copies de données. Ces services de stockage fournissent également une réplication native qui peut être configurée pour la récupération après sinistre inter-région.

Object Storage est une plate-forme de stockage hautes performances, à l'échelle d'Internet, qui offre une durabilité fiable et rentable en matière de données. Object Storage est un service régional qui est disponible sur tous les domaines de disponibilité d'une région. La réplication de stockage d'objet peut être configurée dans plusieurs régions à des fins de récupération après sinistre.

Block Volume dispose d'une fonctionnalité de réplication asynchrone entièrement gérée pour faciliter la récupération après sinistre. Avec un objectif de temps de récupération (RTO) inférieur à une minute, vous pouvez répliquer des volumes et des groupes de volumes vers une autre région. Une fonctionnalité de sauvegarde automatisée permet également de générer des sauvegardes cohérentes en cas d'incident pour les volumes et les groupes de volumes. Ces sauvegardes peuvent être automatiquement copiées vers une autre région.

Comme pour les autres services de stockage dans OCI, File Storage dispose de fonctionnalités de réplication intégrées pour effectuer une réplication asynchrone vers un autre domaine de disponibilité et une autre région. Grâce à la fonctionnalité de clonage de File Storage, les données du côté cible peuvent être rendues disponibles presque instantanément (RTO). Pour une expérience de récupération après sinistre complète, la réplication réplique également les instantanés avec les données principales du système de fichiers.

Base de données

La conception haute disponibilité est destinée à garantir la disponibilité des applications en cas d'événements d'échec IaaS, tels qu'une panne de noeud ou de réseau. Les scénarios de récupération après sinistre de base de données traitent de la prévention de la perte de données commerciales critiques en raison d'une panne importante et inévitable des bases de données principales qui ont souvent un impact sur l'ensemble d'une région ou d'un domaine de disponibilité.

Nous vous recommandons de vous reporter à Maximum Availability Architecture (MAA), qui est un ensemble de meilleures pratiques et d'architectures de référence développées par des ingénieurs Oracle depuis de nombreuses années pour faciliter l'utilisation intégrée de technologies Oracle de haute qualité, de protection de données et d'exploitation après sinistre.

Les principaux éléments à prendre en compte pour une conception de récupération après sinistre sont le RPO (Recovery Point Objective), qui est la quantité de perte de données que votre application peut tolérer, et le RTO (Recovery Time Objective), qui est la durée maximale de récupération que votre application peut tolérer avant que les systèmes ne doivent revenir en ligne. Sur la base de ceux-ci, il existe différentes catégories que MAA définit avec des coûts et une complexité croissants. Ils sont classés en bronze, argent, auréole, or et platine, chacun avec une complexité et une résilience croissantes. Elles constituent la base des architectures de référence DR spécifiées par MAA.

Niveaux d'architecture de disponibilité maximale (MAA)	Architecture de base	Objectif de point de récupération :	Objectif de délai de récupération :	Oracle Autonomous AI Database sans serveur (ADB-S)	Oracle Autonomous AI Database sur une infrastructure Exadata dédiée (ADB-D et ADB-C@C)	Oracle Base Database Service (machine virtuelle)	Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D)	Oracle Exadata Database Service on Cloud@Customer (ExaDB-C@C)
BRONZE	Instance unique avec sauvegarde locale et sauvegarde répliquée	Dernière sauvegarde	Plusieurs heures	Prête à l'emploi	Prête à l'emploi	Prête à l'emploi	Prête à l'emploi	Prête à l'emploi
ARGENT	RAC avec sauvegarde locale et sauvegarde répliquée	Dernière sauvegarde	Heures (zéro pour la maintenance planifiée)	Prête à l'emploi	Prête à l'emploi	Prêt à l'emploi pour 2 nœuds (Require EE Extreme Performance)	Prête à l'emploi	Prête à l'emploi
AURORE	Base de données pluggable pouvant faire l'objet d'une régénération	Dernière régénération	Plusieurs minutes	+ Autonomous Data Guard	facultatif	facultatif	facultatif	facultatif
OR	Base de données avec réplication Active-Passive intersite via Data Guard (actif)	Zéro	Plusieurs secondes	Non applicable.	+ Data Guard	+ Data Guard (nécessite EE/EE HP pour la DG Standard, EE EP pour la DG Active)	+ Data Guard	+ Data Guard
PLATINUM	Base de données avec réplication Active-Active intersite via GoldenGate	Zéro	Zéro	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate

Cette conception et stratégie de récupération après sinistre décrit la prévention de la perte de données dans la base de données Oracle. Une stratégie de récupération après sinistre robuste doit également traiter les configurations pour une disponibilité continue des applications.

Les technologies clés qui forment la base du MAA comprennent :

Surveillance

OCI Monitoring vous permet d'observer activement et passivement vos ressources cloud pour une meilleure disponibilité et un niveau de service cohérent. Assurez-vous que vous êtes abonné aux notifications du statut OCI et vérifiez le Tableau de bord de l'état des services. Pour obtenir un exemple, reportez-vous à Surveillance de bout en bout des applications exécutées sur Oracle Cloud Infrastructure.

En savoir plus

Livres de jeux de solution :

Architectures de référence :

Documentation et autres ressources :

Documentation Oracle Cloud Infrastructure