Utilisation d'instantanés d'artefact pour protéger vos clusters Kubernetes contre les sinistres

Pour assurer la continuité des activités en cas de sinistre, vous devez implémenter une stratégie de récupération après sinistre pour les applications exécutées sur un cluster Kubernetes qui assure la protection des données et vous permet de passer rapidement à un système de secours avec une perte de données et une productivité minimales. Malgré l'énorme changement que l'adoption de Kubernetes implique pour l'architecture du système informatique, un système Kubernetes présente des paradigmes de récupération après sinistre similaires à ceux d'une application traditionnelle (Oracle Java SE, Oracle Java EE, etc.). Vous devez conserver une copie cohérente et à jour de votre système principal dans un emplacement secondaire qui peut reprendre les charges de travail en cas de sinistre, ce qui entraîne un temps d'inactivité dans la région principale.

Oracle Maximum Availability Architecture (MAA) fournit des recommandations et des utilitaires qui vous permettent de récupérer dans des scénarios de sinistre affectant un emplacement et forçant la redirection des charges de travail vers un site de réplique. Ce manuel traite de la réplication de configuration Kubernetes pour les applications. Les applications exécutées sur des clusters Kubernetes dépendent de nombreux composants à utiliser, notamment les noeuds de plan de contrôle, les noeuds de processus actif, les équilibreurs de charge et le stockage. Parallèlement, les données d'exécution générées par les applications exécutées sur Kubernetes présentent les mêmes défis que les applications traditionnelles. Lors de l'exécution, les applications peuvent générer, lire et mettre à jour des données persistantes. Ce guide de solution fournit des recommandations pour répliquer la configuration d'une application exécutée sur Kubernetes. La protection contre les sinistres des données d'exécution n'est pas traitée dans ce document et doit être traitée exactement de la même manière que dans les applications traditionnelles exécutées sur des serveurs d'applications, notamment :

  • Evitez la persistance des polyglottes. L'utilisation de différents types de stockage persistant pour les données d'exécution est presque impossible à résoudre, conformément au théorème de la cohérence de la disponibilité de sauvegarde (BAC).
  • Utilisez un espace de stockage unique pour tous les différents types de données, microservices et applications avec des dépendances, autant que possible.
  • Reportez-vous aux meilleures pratiques Oracle MAA pour Oracle Database pour la protection contre les sinistres de vos données d'exécution.

En outre, vous devez protéger le plan de contrôle du cluster Kubernetes. Utilisez les instantanés etcd appropriés pour éviter les corruptions et les pannes et pour fournir un flashback aux clusters en cours d'utilisation. Bien qu'Oracle Maximum Availability fournisse les meilleures pratiques en matière de protection des plans de contrôle contre les sinistres, ce document ne décrit pas les techniques requises dans ce domaine.

Avant de commencer

Plusieurs présentations techniques d'Oracle Maximum Availability Architecture (MAA) décrivent la configuration d'un système de récupération après sinistre pour les systèmes middleware traditionnels. Ces documents détaillent les exigences en matière de protection contre les sinistres pour les composants d'infrastructure externe (tels que le stockage, les équilibreurs de charge et la base de données) utilisés par les applications Kubernetes.

Pour plus de détails, vérifiez les points suivants :

Architecture

Cette architecture présente la topologie du système de récupération après sinistre pour le cluster Kubernetes.

Toutes les informations d'exécution, de configuration et de métadonnées résidant dans la base de données principale sont répliquées de la région 1 vers la région 2 avec Oracle Autonomous Data Guard. La configuration de cluster Kubernetes (K8s) requise est répliquée via des instantanés ETCD pour la protection du plan de contrôle et avec des instantanés YAML pour la protection de la configuration de l'application. Vous pouvez utiliser des clichés d'artefact ou des copies etcd ou des clichés d'artefact pour une protection de configuration propre à l'application pour une protection de configuration propre à l'application. Pour plus d'informations, reportez-vous à Restauration de clusters Kubernetes basée sur des clichés etcd. Les images utilisées par le conteneur sont hébergées dans des registres, locaux pour chaque cluster ou dans des référentiels externes (les images ne sont pas considérées comme une configuration de cluster Kubernetes par elles-mêmes).

Remarque :

La configuration d'Oracle Autonomous Data Guard pour la base de données d'exécution est hors de portée de ce document.
Description de l'image kubernetes-multiregion-dr.png
Description de l'illustration kubernetes-multiregion-dr.png

kubernetes-multiregion-dr-oracle.zip

Cette architecture prend en charge les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (dans des pays voire des continents).

  • Programme d'équilibrage de charge

    Le service Oracle Cloud Infrastructure Load Balancing fournit une répartition de trafic automatisée à partir d'un seul point d'entrée vers plusieurs serveurs du back-end.

  • Dynamic routing gateway (DRG)

    Le DRG est un routeur virtuel qui fournit un chemin pour le trafic réseau privé entre les réseaux cloud virtuels de la même région, entre un VCN et un réseau en dehors de la région, tel qu'un VCN dans une autre région Oracle Cloud Infrastructure, un réseau sur site ou un réseau dans un autre fournisseur cloud.

  • Data Guard

    Oracle Data Guard fournit un ensemble complet de services permettant de créer, de tenir à jour, de gérer et de surveiller des bases de données de secours afin que les bases de données Oracle de production restent disponibles sans interruption. Oracle Data Guard gère ces bases de données de secours en tant que copies de la base de données de production. Ensuite, si la base de données de production devient indisponible en raison d'une panne planifiée ou non planifiée, Oracle Data Guard peut basculer n'importe quelle base de données de secours vers le rôle de production, ce qui réduit le temps d'arrêt associé à la panne.

  • Oracle Real Application Clusters (Oracle RAC)

    Oracle RAC vous permet d'exécuter une seule base de données Oracle Database sur plusieurs serveurs pour maximiser la disponibilité et activer l'évolutivité horizontale tout en accédant au stockage partagé. Les sessions utilisateur se connectant aux instances Oracle RAC peuvent basculer et réexécuter les modifications en toute sécurité pendant les pannes, sans apporter de modifications aux applications de l'utilisateur final.

  • Registre du conteneur

    Oracle Cloud Infrastructure Registry est un registre géré par Oracle qui vous permet de simplifier votre workflow du développement jusqu'à la production. Registry facilite le stockage, le partage et la gestion des artefacts et des images de développement. L'architecture hautement disponible et évolutive d'Oracle Cloud Infrastructure vous garantit un déploiement et une gestion fiables de vos applications.

  • Container Engine for Kubernetes

    Oracle Cloud Infrastructure Container Engine for Kubernetes est un service entièrement géré, évolutif et hautement disponible que vous pouvez utiliser pour déployer vos applications en conteneur vers le cloud. Indiquez les ressources de calcul dont vos applications ont besoin et Container Engine for Kubernetes les provisionne sur Oracle Cloud Infrastructure dans une location existante. Container Engine for Kubernetes utilise Kubernetes pour automatiser le déploiement, le redimensionnement et la gestion des applications en conteneur sur des clusters d'hôtes.

  • Cluster Kubernetes

    Un cluster Kubernetes est un ensemble de machines qui exécutent des applications en conteneur. Kubernetes fournit une plate-forme open source extensible et portable permettant de gérer les charges de travail et les services en conteneur dans ces noeuds. Un cluster kubernetes est formé de noeuds de processus actif et de noeuds de plan de contrôle.

  • Noeud de processus actif Kubernetes

    Un noeud de processus actif Kubernetes est une machine de processus actif qui exécute des applications en conteneur dans un cluster Kubernetes. Chaque cluster comporte au moins un noeud de processus actif.

  • Plan de contrôle Kubernetes
    Un plan de contrôle Kubernetes gère les ressources pour les noeuds de processus actif et les pods au sein d'un cluster Kubernetes. Les composants du plan de contrôle détectent les événements, effectuent la planification et déplacent les ressources du cluster et y répondent. Les composants de plan de contrôle sont les suivants :
    • kube-apiserver : exécute le serveur d'API Kubernetes.
    • etcd : banque clé-valeur distribuée pour toutes les données de cluster.
    • kube-scheduler : détermine sur quel noeud les nouveaux pods non affectés seront exécutés.
    • kube-controller-manager : exécute les processus du contrôleur.
    • cloud-controller-manager : lie votre cluster à une API propre au cloud.
  • Contrôleur entrant

    Un contrôleur entrant est un composant qui s'exécute dans un cluster Kubernetes et gère les ressources entrantes. Il reçoit le trafic du réseau externe, l'achemine vers le bon service et effectue l'équilibrage de charge et la terminaison SSL. Le contrôleur entrant s'exécute généralement en tant que pod distinct dans le cluster et peut être mis à l'échelle indépendamment des services qu'il gère.

  • API KUBE-Endpoint

    L'API KUBE-Endpoint est le composant kube-apiserver du plan de contrôle Kubernetes. Il exécute le serveur d'API Kubernetes.

  • Sauvegarde ETCD

    La sauvegarde ETCD est une sauvegarde du composant etcd du plan de contrôle Kubernetes. etcd contient la banque clé-valeur distribuée pour toutes les données de cluster. Il est important de créer une sauvegarde ETCD pour récupérer les clusters Kubernetes en vue d'une récupération après sinistre.

  • Clichés YAML

    Un cliché YAML est une copie ponctuelle des fichiers (yaml) contenant la définition des artefacts dans un cluster Kubernetes. Le cliché est un fichier tar que vous pouvez utiliser pour restaurer ces artefacts dans le même cluster Kubernetes ou dans un autre.

Remarques concernant la protection contre les sinistres de Kubernetes

Lors de l'implémentation de la protection contre les sinistres pour Kubernetes, tenez compte des points suivants :

  • Récupération après sinistre symétrique : Oracle recommande d'utiliser exactement la même capacité et la même configuration de ressource dans le primaire et le secondaire. Les espaces de noms Kubernetes concernés doivent disposer de ressources similaires, telles que le nombre de noeuds de processus actif (et leur capacité matérielle) et d'autres infrastructures (stockage partagé, équilibreurs de charge, bases de données, etc.). Les ressources dont dépend le cluster Kubernetes dans la région secondaire doivent pouvoir faire face aux mêmes charges de travail que les charges de travail principales. En outre, les deux systèmes doivent être cohérents sur le plan fonctionnel avec les mêmes services dont dépend le système restauré, les voitures latérales et les cartes de configuration (CM) doivent être utilisées dans les deux emplacements.
  • Les images de conteneur présentent un paradigme similaire aux fichiers binaires : les images ne changent pas aussi souvent que la configuration Kubernetes et vous n'avez peut-être pas besoin de mettre à jour les images avec chaque réplication de cluster Kubernetes. Les images utilisées par le système principal doivent être identiques à celles utilisées dans le système secondaire, ou des incohérences et une défaillance peuvent se produire. Cependant, la réplication d'image est hors de portée de ce livre de jeux. Plusieurs stratégies peuvent être utilisées pour maintenir une utilisation cohérente des images entre deux emplacements, notamment :
    • Enregistrez les images dans le noeud principal et chargez-les vers les noeuds de processus actif du noeud secondaire. Cette approche est très facile à mettre en œuvre, mais implique des frais généraux de gestion. L'utilisation de registres de conteneurs présente des avantages considérables et l'enregistrement d'images localement rend plus difficile la gestion des versions et des mises à jour.
    • Les images peuvent résider dans des registres de conteneurs totalement externes dans différentes régions ou centres de données à partir de ceux utilisés par la base de données principale et la base de données de secours. Les produits et bibliothèques externes sont gérés par des tiers et leur disponibilité est généralement implicite dans leurs versions.
    • Les images peuvent se trouver dans des registres de conteneurs situés en tant que fichiers principal et de secours. Chaque région est mise à jour en parallèle lorsqu'une nouvelle version d'une image est publiée. Cela permet de mieux contrôler le logiciel utilisé, mais entraîne des frais de gestion plus élevés. Il faut dupliquer les images et gérer les informations d'identification pour accéder à deux registres différents. Les outils d'intégration continue et de déploiement continu sont généralement utilisés pour cette approche.

Bien que ce livre de jeux présente un exemple d'utilisation d'Oracle Cloud Infrastructure, les recommandations sont génériques aux clusters Kubernetes personnalisés installés dans les systèmes sur site. Vous pouvez utiliser les étapes et les scripts fournis entre un cluster Kubernetes principal exécuté dans Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) et un cluster secondaire exécuté dans un cluster Kubernetes personnalisé ou sur site. Vous pouvez également utiliser les étapes et les scripts entre un cluster Kubernetes principal exécuté dans OKE et un cluster secondaire exécuté également dans OKE, ou entre deux clusters Kubernetes sur site ou personnalisés.

A propos des produits et rôles requis

Cette solution requiert les produits et rôles suivants :

  • Cluster Kubernetes
  • Noeud de bastion capable de gérer le système kubernetes
  • Oracle Cloud Infrastructure (OCI)

    Ce livre de jeux repose sur l'utilisation des régions et des ressources OCI pour les régions principale et secondaire. Toutefois, cette solution s'applique également aux clusters Kubernetes qui ne se trouvent pas sur OCI.

Il s'agit des rôles nécessaires pour chaque service.

Nom de service : rôle Obligatoire pour...
Oracle Cloud Infrastructure : admin Provisionner et configurer des ressources et des services si vous utilisez des régions OCI.
Cluster Kubernetes (principal) : administrator Exécuter tous les scripts.
Noeuds Kubernetes (principaux) : utilisateur de système d'exploitation disposant de droits d'exécution et de droits d'accès SSH vers les noeuds secondaires

exécuter les scripts suivants :

  • maak8-get-all-artifacts.sh
  • maak8DR-apply.sh
Cluster Kubernetes (secondaire) : administrator Exécuter tous les scripts.
Noeuds Kubernetes (secondaires) : utilisateur de système d'exploitation avec droits d'exécution

exécuter les scripts suivants :

  • removeyamlblock.sh
  • apply-artifacts.sh
  • maak8-push-all-artifacts.sh

Pour obtenir tout ce dont vous avez besoin, reportez-vous à Produits, solutions et services Oracle.

Journal des modifications

Ce journal répertorie les modifications importantes :