Maintenance d'infrastructure

Oracle Cloud Infrastructure effectue une maintenance de centre de données de routine sur l'infrastructure physique des instances de calcul. Cette maintenance comprend des tâches telles que la mise à niveau et le remplacement du matériel ou des opérations arrêtant l'alimentation de l'hôte. Cette rubrique fournit des détails sur la maintenance d'infrastructure, les options de migration et les mesures de statut que vous pouvez utiliser pour surveiller la maintenance d'infrastructure.

Vous pouvez utiliser des mesures d'état d'infrastructure de calcul pour surveiller le statut des instances lors de la maintenance.

Remarque

Pour les hôtes de machine virtuelle dédiés, reportez-vous à Gestion de la migration au redémarrage de maintenance pour les hôtes de machine virtuelle dédiés.

Actions de maintenance

Oracle Cloud Infrastructure prend en charge diverses actions de maintenance pour les instances de calcul, y compris la migration en direct, la maintenance programmée, la reconstruction en place et la migration manuelle. L'action de maintenance dépend de caractéristiques telles que la forme utilisée par l'instance.

Migration en direct (aucun temps d'inactivité)

La migration en direct est un mécanisme permettant de déplacer une machine virtuelle d'un serveur physique vers un autre pendant que la machine virtuelle est toujours en cours d'exécution. Lors d'une migration en direct, l'instance de machine virtuelle source continue de s'exécuter lorsque le service Compute copie la mémoire et tous les composants virtuels vers la nouvelle instance de machine virtuelle cible. Lorsque la copie est terminée, il n'y a qu'une légère pause, généralement mesurée en dizaines de millisecondes, lorsque le système bascule vers la nouvelle machine virtuelle. Les perturbations sont minimales.

Maintenance programmée (temps d'inactivité court)

Avec la maintenance programmée, une date est définie pour le déplacement d'une instance vers un nouvel hôte. A l'aide de la migration au redémarrage, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration. Pour contrôler le moment où le temps d'inactivité survient, migrez l'instance au redémarrage de manière proactive avant la date d'échéance de la maintenance. Dans de rares cas, la migration au redémarrage n'est pas possible et l'instance prend fin.

Reconstruction sur place (temps d'arrêt long)

Cette action de maintenance ne déplace pas l'instance. A l'heure programmée, l'instance est arrêtée, reconstruite sur le même matériel physique, puis redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.

Une reconstruction au même emplacement conserve les propriétés d'instance liées au matériel physique, telles que l'adresse MAC ou le numéro d'identification universel. Elle vous permet également de conserver le disque SSD NVMe attaché en local sur une instance à E/S dense.

Pour les machines virtuelles, si vous voulez réduire le temps d'inactivité et que vous êtes en mesure de supprimer le disque SSD NVMe attaché en local, vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. L'instance sera migrée au redémarrage vers un hôte en bon état et le disque SSD sera supprimé définitivement. Un petit temps d'inactivité survient durant la migration.

Migration manuelle

Pour les instances de machine virtuelle où les actions précédentes ne sont pas disponibles, vous devez déplacer l'instance manuellement. Cette méthode implique de supprimer l'instance (d'y mettre fin), puis de lancer une nouvelle instance à partir du volume d'initialisation conservé. Les instances qui disposent de cartes d'interface réseau virtuelles supplémentaires, d'adresses IP secondaires, de volumes de blocs attachés distants, pour lesquelles le module de plate-forme sécurisée est activé ou qui appartiennent à un ensemble de back-ends d'un équilibreur de charge nécessitent des étapes supplémentaires.

Dans de rares cas, la récupération d'une instance de machine virtuelle sur le même hôte physique n'est pas possible. Oracle Cloud Infrastructure vous informe que vous devez supprimer (mettre fin) l'instance dans les 14 jours. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.

Identification des instances pour lesquelles une maintenance est planifiée

Si une instance prend en charge la migration au redémarrage ou la reconstruction en place, cliquez sur l'onglet Maintenance. La page de détails de la maintenance indique quand la maintenance planifiée doit démarrer. Les heures de début et de fin de la maintenance sont affichées dans la colonne Programmé pour démarrer. Pour les instances qui ne prennent en charge que la migration manuelle, Oracle Cloud Infrastructure vous envoie une notification et un événement de maintenance est affiché sur la page des détails de maintenance.

Afin d'identifier les instances pour lesquelles une maintenance est programmée, utilisez l'une des méthodes suivantes :

Utilisation de la console : procédure d'affichage des instances du compartiment en cours pour lesquelles une maintenance est programmée
  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Maintenance d'instance.

    La liste des instances dont la maintenance est programmée s'affiche.

  2. Cliquez sur l'instance qui vous intéresse, puis sur l'onglet Maintenance de l'instance. Les dates et heures de début et de fin sont affichées pour tous les événements de maintenance.
Utilisation de l'API : procédure d'affichage des instances d'un compartiment pour lesquelles une maintenance est programmée

Utilisez l'opération InstanceMaintenanceEvents pour répertorier les événements. Fournissez un champ de compartiment pour répertorier toutes les instances avec des événements de maintenance dans un compartiment donné. Filtrez les résultats à l'aide d'options telles que instanceAction ou lifecycleState pour affiner la recherche.

Utilisation de la recherche : procédure de recherche de toutes les instances pour lesquelles une maintenance est programmée
  1. Dans la barre de navigation supérieure, cliquez sur Rechercher des ressources, des services, de la documentation, et Marketplace, puis sur Requête de ressource avancée.
  2. Cliquez sur Sélectionner un exemple de requête, puis sur Requête sur toutes les instances avec un redémarrage de maintenance programmé à venir.

    Voici un exemple de requête :

    query
      instancemaintenanceevent resources
        where (timeWindowStart > 'Now' && lifecycleState = 'SCHEDULED')
  3. Cliquez sur Rechercher.

La liste des instances correspondantes s'affiche.

Une instance n'est plus concernée par un événement de maintenance lorsque l'onglet Maintenance est vide.

Prolonger la date limite de maintenance

Vous pouvez reporter la date d'échéance de la maintenance des instances pour lesquelles une maintenance ou une terminaison est programmée. Le report de la date limite est pris en charge pour les instances de machine virtuelle et Bare Metal qui utilisent des formes standard. OCI détermine le dernier moment possible auquel la date d'échéance peut être reportée.

Utilisation de la console : report de la date d'échéance de la maintenance d'une instance
  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Instances.
  2. Cliquez sur l'instance qui vous intéresse, cliquez sur l'onglet Maintenance, puis sur Replanifier.
  3. Cliquez sur Reporter la date limite.
  4. Dans la zone Nouvelle date limite, sélectionnez une nouvelle date et une nouvelle heure.
  5. Cliquez sur Enregistrer les modifications.

    La date d'échéance de la maintenance est reportée. Dans les 24 heures suivant la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Utilisation de l'API : report de la date d'échéance de la maintenance d'une instance
  1. Vérifiez le dernier moment auquel la date d'échéance peut être reportée à l'aide de l'opération GetInstanceMaintenanceReboot.
  2. Reportez la date d'échéance de la maintenance en effectuant l'une des opérations suivantes :

    • Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur REBOOTMIGRATE comme action à effectuer. Dans l'attribut timeScheduled, indiquez la date d'échéance mise à jour.
    • Machines virtuelles : utilisez l'opération UpdateInstance en transmettant la date d'échéance mise à jour dans l'attribut timeMaintenanceRebootDue.

    La date d'échéance de la maintenance est reportée. Dans les 24 heures suivant la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Récupération d'une instance

Lorsque l'infrastructure sous-jacente d'une instance est en mauvais état, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance. L'action de maintenance dépend du type d'instance.

  • Instances de machine virtuelle : si possible, l'instance est migrée en direct vers un hôte physique en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage ou reconstruite au même emplacement, selon la forme.
  • Instances Bare Metal : si possible, l'instance est migrée au redémarrage vers un hôte physique en bon état. Si la migration au redémarrage n'est pas possible, vous devez migrer manuellement l'instance.

Maintenance planifiée des instances de machine virtuelle

Lorsqu'un événement de maintenance d'infrastructure a une incidence sur les instances de machine virtuelle, Oracle Cloud Infrastructure migre en direct les instances de machine virtuelle prises en charge de l'hôte de machine virtuelle physique nécessitant une maintenance vers un nouvel hôte de machine virtuelle, avec une interruption minimale des instances en cours d'exécution.

Si une instance de machine virtuelle ne peut pas être migrée en direct ou ne prend pas en charge la migration en direct, Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours, puis vous envoie une notification décrivant le type de l'action de maintenance requise, telle que la migration au redémarrage. Une migration en direct peut échouer si l'un des événements suivants survient lors de la migration : trop d'activité sur l'instance, instance modifiée à l'aide de l'API ou erreur interne non liée à l'instance.

Si la maintenance d'une instance de machine virtuelle est programmée, vous pouvez la migrer de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. La migration proactive au redémarrage vous permet de contrôler quand et comment vos applications subissent des temps d'inactivité. Si vous ne migrez pas l'instance avant la date d'échéance de manière proactive, l'instance est migrée au redémarrage ou reconstruite sur place pour vous, selon la forme.

La maintenance gérée par le client des instances de machine virtuelle est prise en charge sur les formes d'instance standard et à E/S dense, y compris les images de plate-forme et les images personnalisées importées à partir de l'extérieur d'Oracle Cloud Infrastructure.

Pour les formes standard et DenseIO, vous pouvez reporter la date d'échéance de la maintenance.

Remarque

Dans certains cas, comme pour un événement de maintenance lié à la sécurité, vous ne pourrez peut-être pas prolonger la date.

Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.

Maintenance planifiée des instances Bare Metal

Lorsqu'un événement de maintenance d'infrastructure a une incidence sur des instances Bare Metal, Oracle Cloud Infrastructure migre au redémarrage les instances Bare Metal prises en charge de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours, puis vous envoie une notification décrivant le type de l'action de maintenance requise, telle que la migration au redémarrage. Dans les 24 heures suivant la date d'échéance de maintenance, l'instance Bare Metal est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.

Si la maintenance d'une instance Bare Metal est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. Le redémarrage proactif vous permet de contrôler à quel moment et par quels biais vos applications subissent des temps d'inactivité. Si vous ne redémarrez pas l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage pour vous.

La migration au redémarrage des instances Bare Metal est prise en charge sur les formes d'instance standard qui utilisent des images de plate-forme Linux. La migration au redémarrage des instances Bare Metal n'est pas prise en charge pour les instances qui utilisent des images Windows ou personnalisées, les instances protégées, les instances disposant de cartes d'interface réseau virtuelles secondaires créées et configurées sur une carte d'interface réseau physique avec l'index 1, ni pour les instances qui n'utilisent pas la commande sanboot standard dans le script iPXE.

Pour les formes standard, vous pouvez reporter la date d'échéance de la maintenance.

Si vous choisissez de ne pas effectuer de redémarrage avant le moment programmé, Oracle Cloud Infrastructure migre ou reconstruit l'instance. Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.

Récupération de machine virtuelle en raison d'un échec d'infrastructure

Lorsque l'infrastructure sous-jacente d'une instance de machine virtuelle échoue en raison de problèmes logiciels ou matériels, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance.

Les instances de machine virtuelle standard sont récupérées à l'aide d'une migration au redémarrage, qui restaure automatiquement la machine virtuelle sur un hôte en bon état, qu'il s'agisse de l'hôte physique d'origine ou d'un autre. Toute défaillance d'une machine virtuelle est détectée dans la minute. Si l'hôte ne peut pas être récupéré immédiatement, la machine virtuelle est déplacée vers un autre hôte, en bon état. Dans ce scénario, le processus de migration vers un hôte en bon état et de redémarrage sur celui-ci commence automatiquement dans les cinq minutes. Lors du redémarrage, les propriétés d'instance telles que les adresses IP publiques éphémères et privées, les volumes de blocs attachés et les cartes d'interface réseau virtuelles sont conservées.

DenseIO Les instances de machine virtuelle sont récupérées en redémarrant l'instance sur le même hôte physique. Si la récupération d'une instance DenseIO sur le même hôte physique n'est pas possible, Oracle Cloud Infrastructure vous informe que vous devez migrer ou supprimer l'instance (arrêter) au redémarrage dans les 14 jours. Si la migration au redémarrage est utilisée, les données NVMe locales sont toujours perdues. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.

Oracle Cloud Infrastructure vous avertit par courriel ou via des annonces de tout événement d'échec d'infrastructure de machine virtuelle, avec le statut de l'action de récupération effectuée. Vous pouvez également surveiller la mesure de statut d'instance pour vous tenir au courant des redémarrages inattendus.

Pour indiquer que vos machines virtuelles ne doivent pas être redémarrées automatiquement, configurez vos instances de sorte qu'elles restent arrêtées après leur récupération.

Mesures d'état d'infrastructure

Vous pouvez utiliser des mesures, des alarmes et des notifications pour surveiller le statut de maintenance de l'infrastructure sur laquelle vos instances de calcul sont exécutées. Les principales mesures à prendre en compte pour la maintenance d'infrastructure sont les mesures d'état d'infrastructure :

  • Statut d'état d'instance : la mesure instance_status permet de vérifier si une instance de machine virtuelle est disponible (démarrée) ou indisponible (arrêtée) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, contactez le support technique.
  • Statut de maintenance d'instance : la mesure maintenance_status permet de surveiller la programmation d'une instance de machine virtuelle ou Bare Metal pour une maintenance d'infrastructure planifiée.
  • Etat d'infrastructure Bare Metal : la mesure health_status permet de surveiller l'état de l'infrastructure pour les instances Bare Metal, ce qui inclut les composants matériels tels que l'UC et la mémoire.

Affichage du statut d'instance et des notifications de maintenance dans la console

Vous pouvez visualiser les notifications de statut d'instance et de redémarrage de maintenance dans la console sur la page Détails de l'instance. Pour afficher ces champs, procédez comme suit :

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Instances.
  2. Cliquez sur l'instance qui vous intéresse.
  3. Dans l'onglet Informations sur l'instance, dans la section Détails de l'instance, reportez-vous aux champs Statut d'instance et Redémarrage de maintenance.
    Remarque

    Le champ Statut d'instance s'affiche uniquement si l'instance a été indisponible au cours du mois écoulé.