Maintenance d'infrastructure
Oracle Cloud Infrastructure effectue une maintenance de centre de données de routine sur l'infrastructure physique des instances de calcul. Cette maintenance comprend des tâches telles que la mise à niveau et le remplacement du matériel ou des opérations arrêtant l'alimentation de l'hôte. Cette rubrique fournit des détails sur la maintenance d'infrastructure, les options de migration et les mesures de statut que vous pouvez utiliser pour surveiller la maintenance d'infrastructure.
Vous pouvez utiliser des mesures d'état d'infrastructure de calcul pour surveiller le statut des instances lors de la maintenance.
Pour les hôtes de machine virtuelle dédiés, reportez-vous àGestion de la migration au redémarrage de maintenance pour les hôtes de machine virtuelle dédiés.
Actions de maintenance
Oracle Cloud Infrastructure prend en charge diverses actions de maintenance pour les instances de calcul, y compris la migration en direct, la maintenance programmée, la reconstruction en place et la migration manuelle. L'action de maintenance dépend de caractéristiques telles que la forme utilisée par l'instance.
Migration en direct (aucun temps d'inactivité)
La migration en direct est un mécanisme permettant de déplacer une machine virtuelle d'un serveur physique vers un autre pendant que la machine virtuelle est toujours en cours d'exécution. Lors d'une migration en direct, l'instance de machine virtuelle source continue de s'exécuter lorsque le service Compute copie la mémoire et tous les composants virtuels vers la nouvelle instance de machine virtuelle cible. Lorsque la copie est terminée, il n'y a qu'une légère pause, généralement mesurée en dizaines de millisecondes, lorsque le système bascule vers la nouvelle machine virtuelle. Les perturbations sont minimales.
Maintenance programmée (temps d'inactivité court)
Avec la maintenance programmée, une date est définie pour le déplacement d'une instance vers un nouvel hôte. A l'aide de la migration au redémarrage, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration. Pour contrôler le moment où le temps d'inactivité survient, migrez l'instance au redémarrage de manière proactive avant la date d'échéance de la maintenance. Dans de rares cas, la migration au redémarrage n'est pas possible et l'instance prend fin.
Reconstruction sur place (temps d'arrêt long)
Cette action de maintenance ne déplace pas l'instance. A l'heure programmée, l'instance est arrêtée, reconstruite sur le même matériel physique, puis redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
Une reconstruction au même emplacement conserve les propriétés d'instance liées au matériel physique, telles que l'adresse MAC ou le numéro d'identification universel. Elle vous permet également de conserver le disque SSD NVMe attaché en local sur une instance à E/S dense.
Pour les machines virtuelles, si vous voulez réduire le temps d'inactivité et que vous êtes en mesure de supprimer le disque SSD NVMe attaché en local, vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. L'instance sera migrée au redémarrage vers un hôte en bon état et le disque SSD sera supprimé définitivement. Un petit temps d'inactivité survient durant la migration.
Migration manuelle
Pour les instances de machine virtuelle où les actions précédentes ne sont pas disponibles, vous devez déplacer l'instance manuellement. Cette méthode implique de supprimer l'instance (d'y mettre fin), puis de lancer une nouvelle instance à partir du volume d'initialisation conservé. Les instances qui disposent de cartes d'interface réseau virtuelles supplémentaires, d'adresses IP secondaires, de volumes de blocs attachés distants, pour lesquelles le module de plate-forme sécurisée est activé ou qui appartiennent à un ensemble de back-ends d'un équilibreur de charge nécessitent des étapes supplémentaires.
Dans de rares cas, la récupération d'une instance de machine virtuelle sur le même hôte physique n'est pas possible. Oracle Cloud Infrastructure vous informe que vous devez supprimer (mettre fin) l'instance dans les 14 jours. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.
Maintenance planifiée
Identification des instances pour lesquelles une maintenance est planifiée
Si une instance prend en charge la migration au redémarrage ou la reconstruction en place, cliquez sur l'onglet Maintenance. La page de détails de la maintenance indique quand la maintenance planifiée doit démarrer. Les heures de début et de fin de la maintenance sont affichées dans la colonne Programmé pour démarrer. Pour les instances qui ne prennent en charge que la migration manuelle, Oracle Cloud Infrastructure vous envoie une notification et un événement de maintenance est affiché sur la page des détails de maintenance.
Afin d'identifier les instances pour lesquelles une maintenance est programmée, utilisez l'une des méthodes suivantes :
- Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Maintenance d'instance.
La liste des instances dont la maintenance est programmée s'affiche.
- Cliquez sur l'instance qui vous intéresse, puis sur l'onglet Maintenance de l'instance. Les dates et heures de début et de fin sont affichées pour tous les événements de maintenance.
Utilisez l'opération InstanceMaintenanceEvents
pour répertorier les événements. Fournissez un champ de compartiment pour répertorier toutes les instances avec des événements de maintenance dans un compartiment donné. Filtrez les résultats à l'aide d'options telles que instanceAction ou lifecycleState pour affiner la recherche.
- Dans la barre de navigation supérieure, sélectionnez Rechercher des ressources, des services, de la documentation et Marketplace, puis Requête de ressource avancée.
- Cliquez sur Sélectionner un exemple de requête, puis sur Requête sur toutes les instances avec un redémarrage de maintenance programmé à venir.
Voici un exemple de requête :
query instancemaintenanceevent resources where (timeWindowStart > 'Now' && lifecycleState = 'SCHEDULED')
- Cliquez sur Rechercher.
La liste des instances correspondantes s'affiche.
Une instance n'est plus concernée par un événement de maintenance lorsque l'onglet Maintenance est vide.
Prolonger la date limite de maintenance
Vous pouvez reporter la date d'échéance de la maintenance des instances pour lesquelles une maintenance ou une terminaison est programmée. Le report de la date limite est pris en charge pour la maintenance de migration au redémarrage, généralement programmée sur les instances de machine virtuelle et Bare Metal qui utilisent des formes standard ou flexibles. OCI détermine le dernier moment possible auquel la date d'échéance peut être reportée.
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse, cliquez sur l'onglet Maintenance, puis sur Replanifier.
- Cliquez sur Reporter la date limite.
- Dans la zone Nouvelle date limite, sélectionnez une nouvelle date et une nouvelle heure.
-
Cliquez sur Enregistrer les modifications.
La date d'échéance de la maintenance est reportée. Dans les 24 heures suivant la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
- Vérifiez le dernier moment auquel la date d'échéance peut être reportée à l'aide de l'opération GetInstanceMaintenanceReboot.
-
Reportez la date d'échéance de la maintenance en effectuant l'une des opérations suivantes :
- Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur
REBOOTMIGRATE
comme action à effectuer. Dans l'attributtimeScheduled
, indiquez la date d'échéance mise à jour. - Machines virtuelles : utilisez l'opération UpdateInstance en transmettant la date d'échéance mise à jour dans l'attribut
timeMaintenanceRebootDue
.
La date d'échéance de la maintenance est reportée. Dans les 24 heures suivant la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
- Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur
Récupération d'une instance
Lorsque l'infrastructure sous-jacente d'une instance est en mauvais état, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance. L'action de maintenance dépend du type d'instance.
- Instances de machine virtuelle : si possible, l'instance est migrée en direct vers un hôte physique en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage ou reconstruite au même emplacement, selon la forme.
- Instances Bare Metal : si possible, l'instance est migrée au redémarrage vers un hôte physique en bon état. Si la migration au redémarrage n'est pas possible, vous devez migrer manuellement l'instance.
Maintenance planifiée des instances de machine virtuelle
Lorsqu'un événement de maintenance d'infrastructure a une incidence sur les instances de machine virtuelle, Oracle Cloud Infrastructure migre en direct les instances de machine virtuelle prises en charge de l'hôte de machine virtuelle physique nécessitant une maintenance vers un nouvel hôte de machine virtuelle, avec une interruption minimale des instances en cours d'exécution.
Si une instance de machine virtuelle ne peut pas être migrée en direct ou ne prend pas en charge la migration en direct, Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours, puis vous envoie une notification décrivant le type de l'action de maintenance requise, telle que la migration au redémarrage. Une migration en direct peut échouer si l'un des événements suivants survient lors de la migration : trop d'activité sur l'instance, instance modifiée à l'aide de l'API ou erreur interne non liée à l'instance.
Si la maintenance d'une instance de machine virtuelle est programmée, vous pouvez migrer l'instance de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. La migration au redémarrage proactive vous permet de contrôler comment et quand vos applications subissent des temps d'inactivité. Si vous ne migrez pas l'instance avant la date d'échéance de manière proactive avant le redémarrage, l'instance est migration au redémarrage ou reconçue à la place pour vous, selon la forme.
La maintenance gérée par le client des instances de machine virtuelle est prise en charge sur les formes d'instance standard et à E/S dense, y compris les images de plate-forme et les images personnalisées importées à partir de l'extérieur d'Oracle Cloud Infrastructure.
Pour les formes standard et DenseIO, vous pouvez reporter la date d'échéance de la maintenance.
Dans certains cas, comme pour un événement de maintenance lié à la sécurité, vous ne pourrez peut-être pas prolonger la date.
Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.
Maintenance planifiée des instances Bare Metal
Lorsqu'un événement de maintenance d'infrastructure a une incidence sur des instances Bare Metal, Oracle Cloud Infrastructure migre au redémarrage les instances Bare Metal prises en charge de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours, puis vous envoie une notification décrivant le type de l'action de maintenance requise, telle que la migration au redémarrage. Dans les 24 heures suivant la date d'échéance de maintenance, l'instance Bare Metal est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
Si la maintenance d'une instance Bare Metal est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. Le redémarrage proactif vous permet de contrôler à quel moment et par quels biais vos applications subissent des temps d'inactivité. Si vous ne redémarrez pas l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage pour vous.
La migration au redémarrage des instances Bare Metal est prise en charge sur les formes d'instance standard qui utilisent des images de plate-forme Linux. La migration au redémarrage des instances Bare Metal n'est pas prise en charge pour les instances qui utilisent des images Windows ou personnalisées, les instances protégées, les instances disposant de cartes d'interface réseau virtuelles secondaires créées et configurées sur une carte d'interface réseau physique avec l'index 1, ni pour les instances qui n'utilisent pas la commande sanboot
standard dans le script iPXE.
Pour les formes standard, vous pouvez reporter la date d'échéance de la maintenance.
Si vous choisissez de ne pas effectuer de redémarrage avant le moment programmé, Oracle Cloud Infrastructure migre ou reconstruit l'instance. Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.
Récupération de machine virtuelle en raison d'un échec d'infrastructure
Lorsque l'infrastructure sous-jacente d'une instance de machine virtuelle échoue en raison de problèmes logiciels ou matériels, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance.
Les instances de machine virtuelle standard sont récupérées à l'aide d'une migration au redémarrage, qui restaure automatiquement la machine virtuelle sur un hôte en bon état, qu'il s'agisse de l'hôte physique d'origine ou d'un autre. Toute défaillance d'une machine virtuelle est détectée dans la minute. Si l'hôte ne peut pas être récupéré immédiatement, la machine virtuelle est déplacée vers un autre hôte, en bon état. Dans ce scénario, le processus de migration vers un hôte en bon état et de redémarrage sur celui-ci commence automatiquement dans les cinq minutes. Lors du redémarrage, les propriétés d'instance telles que les adresses IP publiques éphémères et privées, les volumes de blocs attachés et les cartes d'interface réseau virtuelles sont conservées.
DenseIO Les instances de machine virtuelle sont récupérées en redémarrant l'instance sur le même hôte physique. Si la récupération d'une instance DenseIO sur le même hôte physique n'est pas possible, Oracle Cloud Infrastructure vous informe que vous devez migrer ou supprimer l'instance (arrêter) au redémarrage dans les 14 jours. Si la migration au redémarrage est utilisée, les données NVMe locales sont toujours perdues. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.
Oracle Cloud Infrastructure vous avertit par courriel ou via des annonces de tout événement d'échec d'infrastructure de machine virtuelle, avec le statut de l'action de récupération effectuée. Vous pouvez également surveiller la mesure de statut d'instance pour vous tenir au courant des redémarrages inattendus.
Pour indiquer que vos machines virtuelles ne doivent pas être redémarrées automatiquement, configurez vos instances de sorte qu'elles restent arrêtées après leur récupération.
Mesures d'état d'infrastructure
Vous pouvez utiliser des mesures, des alarmes et des notifications pour surveiller le statut de maintenance de l'infrastructure sur laquelle vos instances de calcul sont exécutées. Les principales mesures à prendre en compte pour la maintenance d'infrastructure sont les mesures d'état d'infrastructure :
- Statut d'état d'instance : la mesure
instance_status
permet de vérifier si une instance de machine virtuelle est disponible (démarrée) ou indisponible (arrêtée) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, contactez le support technique. - Statut de maintenance d'instance : la mesure
maintenance_status
permet de surveiller la programmation d'une instance de machine virtuelle ou Bare Metal pour une maintenance d'infrastructure planifiée. - Etat d'infrastructure Bare Metal : la mesure
health_status
permet de surveiller l'état de l'infrastructure pour les instances Bare Metal, ce qui inclut les composants matériels tels que l'UC et la mémoire.
Affichage du statut d'instance et des notifications de maintenance dans la console
Vous pouvez visualiser les notifications de statut d'instance et de redémarrage de maintenance dans la console sur la page Détails de l'instance. Pour afficher ces champs, procédez comme suit :
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse.
- Dans l'onglet Informations sur l'instance, dans la section Détails de l'instance, reportez-vous aux champs Statut d'instance et Redémarrage de maintenance.Remarque
Le champ Statut d'instance s'affiche uniquement si l'instance a été indisponible au cours du mois écoulé.