Configuration haute disponibilité pour les instances Compute

Pour les instances de calcul, la haute disponibilité signifie une récupération automatisée en cas de panne de l'infrastructure sous-jacente ou d'arrêt d'un composant pour maintenance. L'état des noeuds de calcul, des hyperviseurs et des instances de calcul est surveillé en continu.

La haute disponibilité des instances de calcul est configurable. Le comportement décrit dans cette section est basé sur les paramètres standard. Pour plus d'informations sur les paramètres HA configurables, tels que la migration au redémarrage, le placement de domaine de pannes et la récupération automatique, reportez-vous à la section Configuring High Availability in the Compute Service.

Par défaut, le système tente de migrer en direct ou de redémarrer des instances dans le domaine de pannes sélectionné, mais il peut également redémarrer des instances dans d'autres domaines de pannes si les ressources disponibles dans le domaine de pannes sélectionné sont insuffisantes. Le domaine de pannes sélectionné est celui indiqué dans la configuration d'instance.

Incident de noeud de calcul

Si un noeud de calcul est arrêté en raison d'un redémarrage non planifié, ses instances sont redémarrées lorsque le noeud de calcul reprend son fonctionnement normal. Toutefois, ce comportement est configurable. Lors de l'intervalle d'interrogation suivant, par défaut, si des instances doivent être en cours d'exécution mais sont dans un état différent, la commande start est exécutée à nouveau. Si des instances ont planté et restent dans cet état, l'hyperviseur tente de les redémarrer jusqu'à 5 fois. Les instances qui n'étaient pas en cours d'exécution avant que le noeud de calcul ne devienne indisponible restent arrêtées lorsque le noeud de calcul est à nouveau en cours d'exécution.

Si un noeud de calcul est perdu en raison d'une défaillance, le système tente par défaut de migrer en direct les instances de calcul en cours d'exécution du noeud de calcul en échec vers d'autres noeuds de calcul. Le comportement réel dépend de la façon dont vous avez configuré les paramètres de haute disponibilité du service Compute.

Un noeud de calcul est considéré comme défaillant lorsqu'il est déconnecté du réseau de données ou qu'il est hors tension depuis environ 5 minutes. Ce délai d'expiration de 5 minutes est le seuil permettant de placer le noeud de calcul dans l'état FAIL et son agent dans l'état EVACUATING. Cette condition est requise pour que la migration au redémarrage puisse démarrer.

Migration au redémarrage

La migration au redémarrage implique que toutes les instances de calcul du noeud de calcul défaillant sont arrêtées et redémarrées sur un autre noeud de calcul. Une fois la migration terminée, l'agent du noeud de calcul défaillant indique que les instances ont été évacuées. Si le noeud de calcul se réinitialise, il doit passer par un processus de nettoyage qui enlève toutes les configurations d'instance obsolètes et les disques virtuels associés. Après le nettoyage, le noeud de calcul peut héberger à nouveau les instances de calcul.

Pendant toute la migration au redémarrage, les instances restent dans l'état de configuration "moving". Une fois la migration terminée, l'état de configuration de l'instance devient "en cours d'exécution". Les instances qui ont été arrêtées avant l'échec ne sont pas migrées car elles ne sont associées à aucun noeud de calcul.

Paramètres de domaine de pannes

La préférence de domaine de pannes n'est pas strictement appliquée avec la migration d'instance, ce qui signifie que le service Compute peut arrêter les instances si le domaine de pannes sélectionné ne dispose pas de ressources suffisantes et les redémarrer sur un noeud de calcul d'un autre domaine de pannes. Si une application stricte du domaine de pannes est configurée dans le service Compute, les instances qui ne peuvent pas être migrées vers un autre noeud de calcul dans le domaine de pannes sélectionné doivent être arrêtées.

Si la résolution automatique de domaine de pannes est activée dans le service Compute, les instances qui ont été migrées vers un autre domaine de pannes peuvent être migrées vers le domaine de pannes sélectionné.

Maintenance planifiée

En cas de maintenance planifiée, l'administrateur doit d'abord désactiver le provisionnement pour le noeud de calcul en question et appliquer un verrou de maintenance. Lorsque le noeud de calcul est sous un verrou de provisionnement, l'administrateur peut migrer en direct toutes les instances de calcul en cours d'exécution vers un autre noeud de calcul. Le mode de maintenance ne peut être activé que lorsqu'il n'y a plus d'instances en cours d'exécution sur le noeud de calcul. Vous pouvez indiquer l'option Forcer pour arrêter toutes les instances qui ne peuvent pas être migrées. Toutes les opérations d'instance de calcul sur ce noeud de calcul sont désactivées. Un noeud de calcul en mode maintenance ne peut pas être provisionné ou déprovisionné.

Documentation Oracle Cloud Infrastructure

Configuration haute disponibilité pour les instances Compute