Configuration à haute disponibilité pour les instances de calcul

Pour les instances de calcul, la haute disponibilité signifie une récupération automatisée en cas de défaillance de l'infrastructure sous-jacente ou d'arrêt d'un composant pour maintenance. L'état des noeuds de calcul, des hyperviseurs et des instances de calcul est surveillé en continu.

La haute disponibilité des instances de calcul est configurable. Le comportement décrit dans cette section est basé sur les paramètres standard. Pour plus d'informations sur les paramètres haute disponibilité configurables, tels que la migration avec redémarrage, le positionnement du domaine d'erreur et la récupération automatique, voir Configuration de la haute disponibilité dans le service de calcul.

Par défaut, le système tente de migrer ou de redémarrer en direct les instances dans le domaine d'erreur sélectionné, mais il peut également redémarrer les instances dans d'autres domaines d'erreur si les ressources disponibles dans le domaine d'erreur sélectionné sont insuffisantes. Le domaine d'erreur sélectionné est celui spécifié dans la configuration d'instance.

Interruption du noeud de calcul

Si un noeud de calcul tombe en panne en raison d'un redémarrage non planifié, ses instances sont redémarrées lorsque le noeud de calcul reprend son fonctionnement normal. Toutefois, ce comportement est configurable. Lors de l'intervalle de scrutation suivant, par défaut, si des instances doivent être en cours d'exécution mais dans un état différent, la commande start est réexécutée. Si des instances se sont écrasées et restent dans cet état, l'hyperviseur tente de les redémarrer jusqu'à 5 fois. Les instances qui n'étaient pas en cours d'exécution avant que le noeud de calcul ne soit indisponible restent arrêtées lorsque le noeud de calcul est de nouveau en cours d'exécution.

Si un noeud de calcul est perdu en raison d'une défaillance, le système tente par défaut de migrer en direct les instances de calcul en cours d'exécution du noeud de calcul en échec vers d'autres noeuds de calcul. Le comportement réel dépend de la configuration des paramètres de haute disponibilité du service de calcul.

Un noeud de calcul est considéré comme défaillant lorsqu'il a été déconnecté du réseau de données ou lorsqu'il est hors service depuis environ 5 minutes. Cette temporisation de 5 minutes est le seuil pour placer le noeud de calcul à l'état FAIL et son agent à l'état EVACUATING. Cette condition est requise pour que la migration avec redémarrage puisse commencer.

Migration avec redémarrage

La migration avec redémarrage implique que toutes les instances de calcul à partir du noeud de calcul défaillant sont arrêtées et redémarrées sur un autre noeud de calcul. Une fois la migration terminée, l'agent du noeud de calcul défaillant indique que les instances ont été évacuées. Si le noeud de calcul redémarre avec succès, il doit passer par un processus de nettoyage qui supprime toutes les configurations d'instance obsolètes et les disques virtuels associés. Après le nettoyage, le noeud de calcul peut héberger à nouveau les instances de calcul.

Pendant toute la migration avec redémarrage, les instances restent à l'état de configuration "déplacement". Une fois la migration terminée, l'état de configuration de l'instance passe à "En cours d'exécution". Les instances qui ont été arrêtées avant l'échec ne sont pas migrées, car elles ne sont associées à aucun noeud de calcul.

Paramètres du domaine d'erreur

La préférence de domaine d'erreur n'est pas strictement appliquée à la migration des instances, ce qui signifie que le service de calcul peut par défaut arrêter les instances si les ressources de leur domaine d'erreur sélectionné sont insuffisantes et les redémarrer sur un noeud de calcul d'un autre domaine d'erreur. Si une application de domaine d'erreur stricte est configurée dans le service de calcul, les instances qui ne peuvent pas être migrées vers un autre noeud de calcul dans le domaine d'erreur sélectionné doivent être arrêtées.

Si la résolution automatique de domaine d'erreur est activée dans le service de calcul, les instances qui ont été migrées vers un autre domaine d'erreur peuvent être migrées de nouveau vers le domaine d'erreur sélectionné.

Maintenance planifiée

En cas de maintenance planifiée, l'administrateur doit d'abord désactiver le provisionnement pour le noeud de calcul en question et appliquer un verrouillage de maintenance. Lorsque le noeud de calcul est verrouillé lors du provisionnement, l'administrateur peut migrer en direct toutes les instances de calcul en cours d'exécution vers un autre noeud de calcul. Le mode de maintenance ne peut être activé que s'il n'y a plus d'instances en cours d'exécution sur le noeud de calcul. Vous pouvez spécifier l'option Forcer pour arrêter toutes les instances qui ne peuvent pas être migrées. Toutes les opérations d'instance de calcul sur ce noeud de calcul sont désactivées. Un noeud de calcul en mode de maintenance ne peut pas être provisionné ou déprovisionné.

Documentation sur Oracle Cloud Infrastructure

Configuration à haute disponibilité pour les instances de calcul