Récupération après sinistre

Un plan de récupération après sinistre bien conçu permet de récupérer rapidement après un sinistre et de continuer à fournir des services à vos utilisateurs.

La récupération après sinistre désigne le processus de préparation et de récupération après un sinistre. Un sinistre peut être tout événement qui met vos applications en danger, des pannes de réseau aux défaillances d'équipement et d'application aux catastrophes naturelles. Il est presque impossible de prévoir quand vous aurez besoin d'effectuer une récupération après sinistre, tout comme vous ne pouvez pas prévoir quand vous allez avoir un accident de voiture. Vous ne pouvez pas contrôler le moment où un sinistre survient, mais vous pouvez contrôler le processus de récupération.

Un plan de récupération après sinistre bien conçu permet de récupérer rapidement après un sinistre et d'assurer la continuité des activités. À mesure que votre organisation transfère des charges de travail vers le nuage, vous devez apprendre à créer des systèmes en nuage aussi résilients que vos systèmes sur place. Oracle Cloud Infrastructure (OCI) fournit une infrastructure et des services hautement disponibles, sécurisés et évolutifs qui vous permettent de récupérer vos charges de travail en nuage rapidement, de manière fiable et sécurisée.

Puisque les architectures à plusieurs ou trois niveaux sont courantes dans les applications d'entreprise traditionnelles sur place, utilisons un exemple d'application d'entreprise à trois niveaux pour montrer comment vous pouvez rendre cette application plus résiliente en cas de sinistre à l'aide des fonctions de récupération après sinistre d'OCI et de meilleures pratiques pour une topologie en nuage fiable et résiliente. Le diagramme suivant présente un exemple d'application d'entreprise dans une configuration de récupération après sinistre de secours à chaud.

Exemple d'application d'entreprise dans une configuration de récupération après sinistre de secours à chaud.

Concepts relatifs à la récupération après sinistre

La première étape de planification de la récupération après sinistre consiste à déterminer l'objectif de délai de récupération et l'objectif de point de récupération.

L'objectif de délai de récupération est l'heure limite à laquelle une application donnée doit être restaurée après un sinistre. En général, plus les applications sont critiques, plus l'objectif de délai de récupération est bas.

L'objectif de point de récupération est la période après un sinistre pendant laquelle une application peut tolérer une perte de données avant que le sinistre commence à affecter l'entreprise.

Pour élaborer un plan de récupération après sinistre à la fois efficace et économique, vous devez tenir compte à la fois de l'heure limite de récupération et de la tolérance de perte de données.

Diagramme montrant l'objectif de point de récupération avant un sinistre, le sinistre, puis l'objectif de délai de récupération.

Pour plus d'informations, voir Meilleures pratiques pour protéger votre topologie en nuage contre les sinistres.

Choix d'une approche de récupération après sinistre

Certaines applications sont plus critiques que d'autres. La solution de récupération après sinistre que vous choisissez dépend de nombreuses exigences possibles, notamment la disponibilité, la durabilité des données, l'objectif de délai de récupération et l'objectif de point de récupération.

Évaluez les méthodes de récupération après sinistre décrites dans le tableau suivant pour déterminer les fonctions de récupération après sinistre d'OCI à utiliser lors du déploiement d'applications d'entreprise à plusieurs niveaux dans OCI.

Méthode de récupération après sinistre	Objectif de point de récupération	Objectif de délai de récupération	Coût
Sauvegarde et restauration	Heures	Heures	$
Veilleuse	Minutes	Minutes	$$
Secours à chaud	Secondes	Minutes	$$$
Actif/actif	Proche de zéro	Zéro potentiel	$$$$

Tenez compte des régions et des domaines de disponibilité d'une région pour les scénarios de récupération après sinistre et de haute disponibilité. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité comprend un ou plusieurs centres de données à l'intérieur d'une région. Si votre plan de récupération après sinistre nécessite que les sites soient physiquement éloignés les uns des autres, l'utilisation de plusieurs régions peut permettre d'atteindre cet objectif.

Pour notre exemple d'application d'entreprise, nous devons être en mesure de surmonter une panne régionale, mais des temps d'arrêt sont acceptables, au cas où une région serait touchée. C'est pourquoi nous avons choisi un déploiement de secours à chaud dans plusieurs régions.

Gérer l'orchestration de reprise après sinistre avec la reprise après sinistre de pile complète

La récupération après sinistre de pile complète est un service natif OCI qui fournit une interface simple et cohérente pour orchestrer les opérations de récupération après sinistre pour de nombreux systèmes différents, ce qui permet à tout utilisateur autorisé de vos opérations de TI de déclencher un basculement ou une permutation sans avoir à comprendre les processus de récupération sous-jacents.

La reprise après sinistre de pile complète est la première véritable solution de récupération après sinistre en tant que service d'Oracle (DRaaS) pour OCI. Elle est bien plus qu'un simple moteur d'orchestration. La reprise après sinistre de pile complète est un service de gestion de reprise après sinistre hautement évolutif et extensible qui automatise entièrement les étapes nécessaires pour tester, effectuer la transition ou récupérer des systèmes d'affaires critiques et non critiques entre deux régions OCI à partir de n'importe où dans le monde, en un seul clic.

Les problèmes auxquels les entreprises sont confrontées avec une reprise à grande échelle

Votre entreprise dispose probablement de bien plus que quelques applications essentielles pour la mission et l'entreprise hébergées dans votre location OCI. Pour compliquer les choses, chacune de ces applications Oracle ou non Oracle a un processus de récupération différent avec des objectifs de point de récupération et de temps de récupération différents. En outre, les processus de récupération de chaque pile d'applications peuvent être complexes, ce qui nécessite l'attention complète de vos spécialistes techniques les plus expérimentés.

Votre organisation informatique dispose probablement des compétences et de la détermination nécessaires pour récupérer une ou deux applications différentes en une journée ou deux dans le cadre d'un effort complet et pratique de la part des spécialistes informatiques les plus chevronnés de l'entreprise. Mais que se passe-t-il si votre organisation informatique est confrontée à la perspective de récupérer plus que quelques systèmes en même temps?

La récupération après sinistre de pile complète facilite la récupération à grande échelle

La récupération après sinistre de pile complète est conçue pour gérer les flux de travail de récupération après sinistre à grande échelle sans faire appel à vos experts techniques les plus compétents au cas où vous auriez besoin de récupérer de nombreux systèmes en même temps. La récupération après sinistre de pile complète normalise la façon dont les opérations de récupération après sinistre sont exécutées et surveillées à l'aide d'une méthode simple et cohérente au moyen de la console OCI.

La récupération après sinistre de pile complète organise diverses applications en groupes de protection indépendants sans modifier la façon dont vous avez installé et configuré vos applications Oracle et non Oracle existantes dans OCI. La récupération après sinistre de pile complète ne peut récupérer qu'un seul composant d'une pile d'applications ou récupérer l'ensemble de la pile d'applications en un seul clic. Vous choisissez ce que vous voulez faire.

La récupération après sinistre de pile complète valide la disponibilité des plans RS

La reprise après sinistre de pile complète permet de valider que les systèmes d'entreprise critiques sont prêts pour toute interruption de service inattendue grâce à nos vérifications intégrées et entièrement automatisées de la disponibilité de la reprise après sinistre. Notre fonction de vérification préalable est automatiquement ajoutée à la liste des tâches effectuées par la récupération après sinistre de pile complète pendant toute opération de récupération après sinistre.

Les vérifications préalables ne sont pas perturbatrices et peuvent être exécutées à tout moment sans perturber vos systèmes de production. Nous validons l'intégrité des plans de reprise après sinistre en vérifiant si le réseau, le stockage, les calculs, les bases de données Oracle et tous les scripts personnalisés que vous avez ajoutés à un plan de reprise après sinistre sont là où ils doivent être et sont prêts à être utilisés.

Flexibilité de gestion de toute architecture de déploiement

La flexibilité est un concept clé derrière la conception de la récupération après sinistre de pile complète. Différents systèmes d'entreprise nécessitent des solutions de récupération différentes. Par conséquent, la récupération après sinistre de pile complète est conforme à la façon dont vous devez récupérer chaque système d'entreprise d'une manière qui correspond à vos besoins techniques et commerciaux. La façon dont vous choisissez d'installer et de déployer un système d'entreprise pour la reprise après sinistre vous appartient.

Notre solution DRaaS peut gérer la récupération différemment pour chaque système d'entreprise, qu'il soit déployé pour le basculement de machine virtuelle, la lumière pilote, la base de secours froide, la base de secours chaude, la base de secours chaude ou actif/actif. Vous gérez le déploiement et nous gérons la récupération.

En savoir plus sur Full Stack DR

La reprise après sinistre de pile complète vous donne la puissance et la flexibilité nécessaires pour mettre en oeuvre la reprise après sinistre pour les applications Oracle ou non Oracle dans OCI comme vous le souhaitez, et non comme nous le voulons.

Points à considérer pour la conception de la récupération après sinistre

Il y a beaucoup de choses à considérer, selon la méthode de récupération après sinistre que vous implémentez.

Pour des informations générales sur les fonctions de récupération après sinistre, voir Fonctions de récupération après sinistre d'Oracle Cloud. Dans cet exemple, nous examinons la méthode de base de données de secours à chaud et les ressources OCI nécessaires pour mettre en oeuvre la base de données de secours à chaud, qui comprennent une deuxième région pour un déploiement inter-région.

Réseaux

Après avoir créé les bases des réseaux en nuage virtuels et des sous-réseaux dans les régions appropriées, pour configurer la récupération après sinistre, vous devez appairer les réseaux en nuage virtuels des différentes régions pour faciliter la connectivité réseau.

Calcul

Pour exécuter des applications sur des instances de calcul dans deux régions, vous devez rendre les images de calcul disponibles dans les deux régions. Dans la région de récupération après sinistre, déployez une configuration minimale pour tenir à jour une configuration de secours à chaud. Utilisez ensuite des réservations de capacité pour réserver le reste de la capacité requise pour exécuter toutes les machines virtuelles lorsque la région de récupération après sinistre devient la région principale. Pour plus d'informations, voir Aperçu du service de calcul et Meilleures pratiques pour vos instances de calcul.

Stockage

OCI fournit un jeu de services de stockage qui comprend le service Volumes par blocs, le service Stockage de fichiers et le service Stockage d'objets, qui fournissent des fonctions intégrées de redondance et de haute disponibilité en conservant plusieurs copies des données. Ces services de stockage fournissent également une réplication native qui peut être configurée pour la récupération après sinistre inter-région.

Le service de stockage d'objets est une plate-forme de stockage haute performance à l'échelle d'Internet qui assure la durabilité des données de manière fiable et rentable. Le service de stockage d'objets est un service régional disponible dans tous les domaines de disponibilité d'une région. La réplication du stockage d'objets peut être configurée dans plusieurs régions à des fins de récupération après sinistre.

Le service de volumes par blocs offre une fonction de réplication asynchrone entièrement gérée et utile pour la récupération après sinistre. Avec un objectif de délai de récupération (ODR) inférieur à une minute, vous pouvez répliquer des volumes et des groupes de volumes vers une autre région. Une fonction de sauvegarde automatisée est également disponible pour produire des sauvegardes cohérentes en cas d'incident pour les volumes et les groupes de volumes. Ces sauvegardes peuvent être copiées automatiquement dans une autre région.

Comme pour les autres services de stockage d'OCI, File Storage offre des fonctions de réplication intégrées pour effectuer une réplication asynchrone vers un autre domaine de disponibilité et une autre région. À l'aide de la fonction de clonage du service de stockage de fichiers, les données du côté cible peuvent être mises à disposition presque instantanément (ODR). Pour une expérience de reprise après sinistre complète, la réplication réplique également les instantanés avec les données principales du système de fichiers.

Base de données

La conception de haute disponibilité vise à assurer la disponibilité de l'application en cas d'événements de défaillance IaaS, tels qu'une défaillance de noeud ou de réseau. Les scénarios de reprise après sinistre de base de données traitent de la prévention de la perte de données d'affaires critiques en raison d'une interruption importante et inévitable des bases de données principales qui ont souvent une incidence sur une région entière ou sur un domaine de disponibilité.

Nous vous recommandons de vous référer à l'architecture de disponibilité maximale, qui est un ensemble de meilleures pratiques et d'architectures de référence développées par les ingénieurs Oracle pendant de nombreuses années pour l'utilisation intégrée des technologies Oracle de haute disponibilité, de protection des données et de récupération après sinistre.

Les considérations clés pour une conception de récupération après sinistre sont l'OPR (objectif de point de récupération), qui est la quantité de perte de données que votre application peut tolérer, et l'ODR (objectif de délai de récupération), qui est le temps de récupération maximal que votre application peut tolérer avant que les systèmes ne doivent revenir en ligne. Sur la base de ceux-ci, il existe diverses catégories que MAA définit avec des coûts et une complexité croissants. Ceux-ci sont classés comme Bronze, Argent, Aurous, Or et Platine, chacun avec une complexité et une résilience progressivement croissantes. Celles-ci constituent la base des architectures de référence DR spécifiées par MAA.

Niveaux MAA (Maximum Availability Architecture)	Architecture de base	Objectif de point de récupération	Objectif de délai de récupération	Oracle Autonomous AI Database sans serveur (ADB-S)	Oracle Autonomous AI Database sur une infrastructure Exadata dédiée (ADB-D et ADB-C@C)	Oracle Base Database Service (VM)	Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D)	Service Oracle Exadata Database Service on Cloud@Customer (ExaDB-C@C)
BRONZE	Instance unique avec sauvegarde locale et sauvegarde répliquée	Dernière sauvegarde	Heures	Prêt à l'emploi	Prêt à l'emploi	Prêt à l'emploi	Prêt à l'emploi	Prêt à l'emploi
SILVER	RAC avec sauvegarde locale et sauvegarde répliquée	Dernière sauvegarde	Heures (zéro pour la maintenance planifiée)	Prêt à l'emploi	Prêt à l'emploi	Prêt à l'emploi pour 2 noeuds (Exiger EE Extreme Performance)	Prêt à l'emploi	Prêt à l'emploi
AURORE	PDB actualisable	Dernière actualisation	Minutes	+ Autonomous Data Guard	Facultatif	Facultatif	Facultatif	Facultatif
OR	Base de données avec réplication active-passive intersite au moyen de Data Guard (actif)	Zéro	Secondes	Non applicable	+ Data Guard	+ Data Guard (requiert EE/EE HP pour Standard DG, EE EP pour Active DG)	+ Data Guard	+ Data Guard
PLATINUM	Base de données avec réplication active-active intersite au moyen de GoldenGate	Zéro	Zéro	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate	+ GoldenGate

Cette conception et stratégie de reprise après sinistre décrit la prévention des pertes de données dans la base de données Oracle. Une stratégie de reprise après sinistre robuste doit également tenir compte des configurations permettant une disponibilité continue des applications.

Les technologies clés qui constituent la base de l'AAM comprennent :

Surveillance

Le service de surveillance pour OCI vous permet de surveiller vos ressources en nuage, activement et passivement, pour une disponibilité améliorée et des niveaux de service cohérents. Assurez-vous d'être abonné aux avis de statut d'OCI et vérifiez le tableau de bord sur l'état des services. Pour un exemple, voir Surveillance de bout en bout des applications exécutées sur Oracle Cloud Infrastructure.

Informations complémentaires

Livres de jeu de solution :

Architectures de référence :

Documentation et autres ressources :

Documentation sur Oracle Cloud Infrastructure