Maintenance d'instance

Oracle Cloud Infrastructure effectue une maintenance régulière de centre de données sur l'infrastructure physique des instances de calcul. Cette maintenance comprend des tâches telles que la mise à niveau et le remplacement du matériel ou des opérations arrêtant l'alimentation de l'hôte. Cette rubrique fournit des détails sur la maintenance d'infrastructure, les options de migration et les mesures de statut que vous pouvez utiliser pour surveiller la maintenance d'infrastructure.

Vous pouvez utiliser des mesures d'état d'infrastructure du calcul pour surveiller le statut des instances pendant la maintenance.

Remarque

Pour les hôtes de machine virtuelle dédiés, reportez-vous àGestion de la migration au redémarrage de maintenance pour les hôtes de machine virtuelle dédiés.

Actions de maintenance

Oracle Cloud Infrastructure prend en charge diverses actions de maintenance pour les instances de calcul : réparation sans fin, migration en direct, maintenance programmée, reconstruction en place et migration manuelle. L'action de maintenance dépend de caractéristiques telles que la forme utilisée par l'instance.

Evénements de maintenance

OCI fournit des événements de maintenance pour gérer les processus de maintenance d'instance. Les événements de maintenance sont créés lorsque votre instance/hôte a besoin d'une maintenance. Les événements informent les utilisateurs des activités de maintenance à venir affectant leurs instances. Les événements de maintenance apparaissent dans la ressource Maintenance d'instance de la console OCI. En outre, les événements de maintenance peuvent être gérés à l'aide de la CLI ou des kits SDK. Toutes les interfaces permettent aux utilisateurs de reprogrammer les fenêtres de maintenance, de surveiller la progression de la maintenance et d'effectuer les actions de pré-maintenance ou de post-maintenance nécessaires.

Réparation sans fin

La réparation sans interruption (NTR) dans OCI permet la maintenance et la réparation des composants matériels ou logiciels sous-jacents sans nécessité de mettre fin aux instances en cours d'exécution ou de les évacuer. Cette approche contraste avec les méthodes traditionnelles de terminaison de réparation (TR), qui nécessitent une terminaison d'instance avant la poursuite de la maintenance. NTR réduit les interruptions de service et améliore la disponibilité des applications sur OCI. Grâce à NTR, vous pouvez maintenir l'état et les performances de votre infrastructure cloud en réduisant les temps d'arrêt et en améliorant l'efficacité opérationnelle.

Les types de maintenance NTR sont les suivants :

Réparations en temps d'arrêt : les instances sont arrêtées avant la maintenance.
Réparations en direct : la maintenance se produit lorsque les instances restent opérationnelles.
Réparation en arrière-plan en direct : cas d'utilisation dans lequel aucune action utilisateur n'est nécessaire et où OCI crée un événement de maintenance et exécute la réparation en arrière-plan.

Pour plus d'informations sur la réparation sans fin, voir : Réparation sans fin.

Important

La fonction NTR est uniquement prise en charge sur les formes Bare Metal.

Migration en direct (sans temps d'arrêt)

La migration en direct est un mécanisme permettant de déplacer une machine virtuelle d'un serveur physique vers un autre alors que la machine virtuelle est toujours en cours d'exécution. Lors d'une migration en direct, l'instance de machine virtuelle source continue de s'exécuter car le service Compute copie la mémoire et tous les composants virtuels vers la nouvelle instance de machine virtuelle cible. Lorsque la copie est terminée, il n'y a qu'une légère pause, généralement mesurée en dizaines de millisecondes, lorsque le système passe à la nouvelle machine virtuelle. La perturbation est minimale.

Maintenance programmée (temps d'arrêt court)

Avec la maintenance programmée, une date est définie pour le déplacement d'une instance vers un nouvel hôte. A l'aide de la migration au redémarrage, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration. Pour contrôler le moment où le temps d'inactivité survient, migrez l'instance au redémarrage de manière proactive avant la date d'échéance de la maintenance. Dans de rares cas, la migration au redémarrage n'est pas possible et l'instance prend fin.

Reconstruction en place (temps d'arrêt prolongé)

Cette action de maintenance ne déplace pas l'instance. A l'heure programmée, l'instance est arrêtée, reconstruite sur le même matériel physique, puis redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.

Une reconstruction au même emplacement conserve les propriétés d'instance liées au matériel physique, telles que l'adresse MAC ou le numéro d'identification universel. Elle vous permet également de conserver le disque SSD NVMe attaché en local sur une instance à E/S dense.

Pour les machines virtuelles, si vous voulez réduire le temps d'inactivité et que vous êtes en mesure de supprimer le disque SSD NVMe attaché en local, vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. L'instance sera migrée au redémarrage vers un hôte en bon état et le disque SSD sera supprimé définitivement. Un petit temps d'inactivité survient durant la migration.

Migration manuelle

Pour les instances de machine virtuelle où les actions précédentes ne sont pas disponibles, vous devez déplacer l'instance manuellement. Cette méthode implique de supprimer l'instance (d'y mettre fin), puis de lancer une nouvelle instance à partir du volume d'initialisation conservé. Les instances qui disposent de cartes d'interface réseau virtuelles supplémentaires, d'adresses IP secondaires, de volumes de blocs attachés distants, pour lesquelles le module de plate-forme sécurisée est activé ou qui appartiennent à un ensemble de back-ends d'un équilibreur de charge nécessitent des étapes supplémentaires.

Dans de rares cas, il est impossible de récupérer une instance de machine virtuelle sur le même hôte physique. Oracle Cloud Infrastructure vous informe que vous devez supprimer (arrêter) l'instance dans les 14 jours. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans le sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.

Maintenance planifiée

Identification des instances pour lesquelles une maintenance est planifiée

Si une instance prend en charge la migration au redémarrage ou la reconstruction en place, cliquez sur l'onglet Maintenance. La page de détails de maintenance indique quand la maintenance planifiée doit démarrer. Les heures de début et de fin de la maintenance sont affichées dans la colonne Début planifié. Pour les instances qui prennent uniquement en charge la migration manuelle, Oracle Cloud Infrastructure vous envoie une notification et un événement de maintenance est affiché sur la page des détails de maintenance.

Afin d'identifier les instances pour lesquelles une maintenance est programmée, utilisez l'une des méthodes suivantes :

Utilisation de la console : procédure d'affichage des instances du compartiment en cours pour lesquelles une maintenance est programmée

Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Maintenance d'instance.
La liste des instances programmées pour maintenance s'affiche.
Cliquez sur l'instance qui vous intéresse, puis sur l'onglet Maintenance de l'instance. Ces dates et heures de début et de fin s'affichent pour tous les événements de maintenance.

Utilisation de l'API : procédure d'affichage des instances d'un compartiment pour lesquelles une maintenance est programmée

Utilisez l'opération InstanceMaintenanceEvents pour répertorier les événements. Indiquez un champ de compartiment pour répertorier toutes les instances avec des événements de maintenance dans un compartiment donné. Filtrez les résultats à l'aide d'options telles que instanceAction ou lifecycleState pour affiner la recherche.

Utilisation de la recherche : procédure de recherche de toutes les instances pour lesquelles une maintenance est programmée

Dans la barre de navigation supérieure, sélectionnez Rechercher des ressources, des services, de la documentation et Marketplace, puis Requête de ressource avancée.
Cliquez sur Sélectionner l'exemple de requête, puis sur Requête pour toutes les instances avec un redémarrage de maintenance programmé à venir.
Voici un exemple de requête :
```
query
  instancemaintenanceevent resources
    where (timeWindowStart > 'Now' && lifecycleState = 'SCHEDULED')
```
Cliquez sur Rechercher.

La liste des instances correspondantes s'affiche.

Une instance n'est plus affectée par un événement de maintenance lorsque l'onglet Maintenance est vide.

Prolonger la date limite de maintenance

Vous pouvez reporter la date d'échéance de la maintenance des instances pour lesquelles une maintenance ou une fin de contrat est programmée. Le report de la date limite est pris en charge pour la maintenance de migration au redémarrage, qui est généralement programmée sur les instances de machine virtuelle et Bare Metal qui utilisent des formes standard ou flexibles. OCI détermine le dernier moment possible auquel la date d'échéance peut être reportée.

Utilisation de la console : report de la date d'échéance de la maintenance d'une instance

Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
Cliquez sur l'instance qui vous intéresse, sur l'onglet Maintenance, puis sur Replanifier.
Cliquez sur Reporter la date limite.
Dans la zone Nouvelle date limite, sélectionnez une nouvelle date et une autre heure.
Cliquez sur Sauvegarder les modifications.

La date d'échéance de la maintenance est reportée. Dans les 24 heures qui suivent la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Utilisation de l'API : report de la date d'échéance de la maintenance d'une instance

Vérifiez le dernier moment auquel la date d'échéance peut être reportée à l'aide de l'opération GetInstanceMaintenanceReboot.
Reportez la date d'échéance de la maintenance en effectuant l'une des opérations suivantes :
- Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur REBOOTMIGRATE comme action à effectuer. Dans l'attribut timeScheduled, indiquez la date d'échéance mise à jour.
- Machines virtuelles : utilisez l'opération UpdateInstance en transmettant la date d'échéance mise à jour dans l'attribut timeMaintenanceRebootDue.
La date d'échéance de la maintenance est reportée. Dans les 24 heures qui suivent la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Récupération d'une instance

Lorsque l'infrastructure sous-jacente d'une instance est en mauvais état, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance. L'action de maintenance dépend du type d'instance.

Instances de machine virtuelle : si possible, l'instance est migrée en direct vers un hôte physique en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage ou reconstruite au même emplacement, selon la forme.
Instances bare metal : si possible, l'instance est migrée au redémarrage vers un hôte physique en bon état. Si la migration au redémarrage n'est pas possible, vous devez migrer manuellement l'instance.

Maintenance planifiée des instances de machine virtuelle

Lorsqu'un événement de maintenance d'infrastructure affecte des instances d'une machine virtuelle, Oracle Cloud Infrastructure met en direct les instances d'une machine virtuelle prises en charge à partir de l'hôte de machine virtuelle physique nécessitant des opérations de maintenance vers un nouvel hôte d'une machine virtuelle, avec un arrêt minimal des instances en cours d'exécution

Si une instance de machine virtuelle ne peut être migrée en direct ou ne prise pas en charge de la migration en temps réel, Oracle Cloud Infrastructure programme une date d'échéance d'entretien comprise entre 14 et 16 jours, et vous envoie une notification décrivant le type de action d'entretien requise, telle que l'exécution au redémarrage. Une migration en direct peut échouer si l'un des événements suivants survient lors de la migration : trop d'activité sur l'instance, instance modifiée à l'aide de l'API ou erreur interne non liée à l'instance.

Si la maintenance d'une instance de machine virtuelle est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de cette maintenance. La migration au redémarrage proactive vous permet de contrôler comment et quand vos applications subissent un temps d'inactivité. Si vous n'avez pas redémarré l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage ou reconstruite au niveau de l'emplacement pour vous, selon la forme.

La maintenance gérée par les clients des instances de machine virtuelle est prise en charge sur lesformes d'instance standard et àE/S dense, y compris les images d'une plate-forme et les images personnalisées importées à partir de l'extérieur d'Oracle Cloud Infrastructure.

Pour la forme standard et la forme DenseIO, vous pouvez reporter la date d'échéance de maintenance.

Remarque

Dans certains cas, comme un événement de maintenance lié à la sécurité, vous ne pourrez peut-être pas prolonger la date.

Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.

Maintenance planifiée des instances Bare Metal

When an infrastructure maintenance event affects bare metal instances, Oracle Cloud Infrastructure reboot migrates supported bare metal instances from the physical host that needs maintenance to a healthy host. Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprises entre 14 et 16 jours, et vous envoie une notification décrivant le type de action d'entretien requise, telle que la migration au redémarrage. Dans les 24 heures qui suivent la date d'échéance d'entretien, l'instance Bare Metal est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Si la maintenance d'une instance Bare Metal est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. Le redémarrage proactif vous permet de contrôler à quel moment et par quels biais vos applications subissent des temps d'inactivité. Si vous ne redémarrez pas l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage pour vous.

La migration au redémarrage des instances Bare Metal est prise en charge sur les formes d'instance standard qui utilisent des images de plate-forme Linux. La migration au redémarrage des instances Bare Metal n'est pas prise en charge pour les instances qui utilisent des images Windows ou personnalisées, les instances protégées, les instances disposant de cartes d'interface réseau virtuelles secondaires créées et configurées sur une carte d'interface réseau physique avec l'index 1, ni pour les instances qui n'utilisent pas la commande sanboot standard dans le script iPXE.

Pour les formes standard, vous pouvez reporter la date d'échéance de la maintenance.

Si vous choisissez de ne pas effectuer le redémarrage avant le moment programmé, Oracle Cloud Infrastructure migre ou reconstruit l'instance. Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.

Récupération de machine virtuelle en raison d'un échec d'infrastructure

Lorsque l'infrastructure sous-jacente d'une instance de machine virtuelle échoue en raison de problèmes logiciels ou matériels, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance.

Les instances de machine virtuelle standard sont récupérées à l'aide d'une migration au redémarrage, qui restaure automatiquement la machine virtuelle sur un hôte en bon état, qu'il s'agisse de l'hôte physique d'origine ou d'un autre. Toute défaillance d'une machine virtuelle est détectée dans la minute. Si l'hôte ne peut pas être récupéré immédiatement, la machine virtuelle est déplacée vers un autre hôte, en bon état. Dans ce scénario, le processus de migration vers un hôte en bon état et de redémarrage sur celui-ci commence automatiquement dans les cinq minutes. Lors du redémarrage, les propriétés d'instance telles que les adresses IP publiques éphémères et privées, les volumes de blocs attachés et les cartes d'interface réseau virtuelles sont conservées.

DenseIO Les instances d'une machine virtuelle sont récupérées en redémarrant l'instance sur le même hôte physique. Si une récupération d'une instance à DenseIO sur le même hôte physique n'est pas possible, Oracle Cloud Infrastructure vous informe que vous devrez mettre fin à l'instance (y mettre fin) dans les jours 14. Si la migration au redémarrage est utilisée, les données NVMe locales sont toujours perdues. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans le sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.

Oracle Cloud Infrastructure vous avertit par courriel ou par des annonces de tout événement d'échec d'infrastructure d'une machine virtuelle, avec le statut de l'action de récupération effectuée. Vous pouvez également surveiller la mesure de statut d'instance pour vous tenir au courant des redémarrages inattendus.

Pour indiquer que vos machines virtuelles ne doivent pas être redémarrées automatiquement, configurez vos instances de sorte qu'elles restent arrêtées après leur récupération.

Mesures d'état d'infrastructure

Vous pouvez utiliser des mesures, des alarmes et des notifications pour surveiller le statut de maintenance de l'infrastructure sur laquelle vos instances de calcul sont exécutées. Les principales mesures à prendre en compte pour la maintenance d'infrastructure sont les mesures d'état d'infrastructure :

Statut d'état d'instance (Démarré/Arrêté) : la mesure instance_status permet de vérifier si une instance d'instance de machine virtuelle est disponible (démarrée) ou indisponible (arrêtée) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, contactez le support technique.
Statut de maintenance d'instance : la mesure maintenance_status permet de surveiller l'exécution d'une maintenance d'infrastructure planifiée par une instance Bare Metal ou de machine virtuelle.
Etat d'infrastructure Bare Metal : la mesure health_status permet de surveiller l'état de l'infrastructure pour des instances Bare Metal, ce qui comprend les composants matériels tels que l'UC et la mémoire.

Affichage des notifications de statut et de maintenance d'instance dans la console

Vous pouvez visualiser les notifications d'état d'instance et de redémarrage des opérations de maintenance dans la console sur la page Détails de l'instance. Pour afficher ces champs, procédez comme suit :

Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
Cliquez sur l'instance qui vous intéresse.
Dans l'onglet Informations sur l'instance, dans la section Détails de l'instance, reportez-vous au champ Statut d'instance et au champ Réinitialisation de maintenance.
Remarque

Le champ Statut d'instance s'affiche uniquement si l'instance a été indisponible au cours du mois écoulé.

Documentation Oracle Cloud Infrastructure