Maintenance d'infrastructure
Oracle Cloud Infrastructure effectue une maintenance régulière de centre de données sur l'infrastructure physique des instances de calcul. Cette maintenance comprend des tâches telles que la mise à niveau et le remplacement du matériel ou des opérations arrêtant l'alimentation de l'hôte. Cette rubrique fournit des détails sur la maintenance d'infrastructure, les options de migration et les mesures de statut que vous pouvez utiliser pour surveiller la maintenance d'infrastructure.
Vous pouvez utiliser des mesures d'état d'infrastructure du calcul pour surveiller le statut des instances pendant la maintenance.
Pour les hôtes de machine virtuelle dédiés, reportez-vous àGestion de la migration au redémarrage de maintenance pour les hôtes de machine virtuelle dédiés.
Actions de maintenance
Oracle Cloud Infrastructure prend en charge diverses actions de maintenance pour les instances du calcul, notamment la migration en direct, la maintenance programmée, la reconstruction en place et la migration manuelle. L'action de maintenance dépend de caractéristiques telles que la forme utilisée par l'instance.
Migration en direct (sans temps d'arrêt)
La migration en direct est un mécanisme permettant de déplacer une machine virtuelle d'un serveur physique vers un autre alors que la machine virtuelle est toujours en cours d'exécution. Lors d'une migration en direct, l'instance de machine virtuelle source continue de s'exécuter car le service Compute copie la mémoire et tous les composants virtuels vers la nouvelle instance de machine virtuelle cible. Lorsque la copie est terminée, il n'y a qu'une légère pause, généralement mesurée en dizaines de millisecondes, lorsque le système passe à la nouvelle machine virtuelle. La perturbation est minimale.
Maintenance programmée (temps d'arrêt court)
Avec la maintenance programmée, une date est définie pour le déplacement d'une instance vers un nouvel hôte. A l'aide de la migration au redémarrage, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration. Pour contrôler le moment où le temps d'inactivité survient, migrez l'instance au redémarrage de manière proactive avant la date d'échéance de la maintenance. Dans de rares cas, la migration au redémarrage n'est pas possible et l'instance prend fin.
Reconstruction en place (temps d'arrêt prolongé)
Cette action de maintenance ne déplace pas l'instance. A l'heure programmée, l'instance est arrêtée, reconstruite sur le même matériel physique, puis redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
Une reconstruction au même emplacement conserve les propriétés d'instance liées au matériel physique, telles que l'adresse MAC ou le numéro d'identification universel. Elle vous permet également de conserver le disque SSD NVMe attaché en local sur une instance à E/S dense.
Pour les machines virtuelles, si vous voulez réduire le temps d'inactivité et que vous êtes en mesure de supprimer le disque SSD NVMe attaché en local, vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. L'instance sera migrée au redémarrage vers un hôte en bon état et le disque SSD sera supprimé définitivement. Un petit temps d'inactivité survient durant la migration.
Migration manuelle
Pour les instances de machine virtuelle où les actions précédentes ne sont pas disponibles, vous devez déplacer l'instance manuellement. Cette méthode implique de supprimer l'instance (d'y mettre fin), puis de lancer une nouvelle instance à partir du volume d'initialisation conservé. Les instances qui disposent de cartes d'interface réseau virtuelles supplémentaires, d'adresses IP secondaires, de volumes de blocs attachés distants, pour lesquelles le module de plate-forme sécurisée est activé ou qui appartiennent à un ensemble de back-ends d'un équilibreur de charge nécessitent des étapes supplémentaires.
Dans de rares cas, il est impossible de récupérer une instance de machine virtuelle sur le même hôte physique. Oracle Cloud Infrastructure vous informe que vous devez supprimer (arrêter) l'instance dans les 14 jours. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans le sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.
Maintenance planifiée
Identification des instances pour lesquelles une maintenance est planifiée
Si une instance prend en charge la migration au redémarrage ou la reconstruction en place, cliquez sur l'onglet Maintenance. La page de détails de maintenance indique quand la maintenance planifiée doit démarrer. Les heures de début et de fin de la maintenance sont affichées dans la colonne Début planifié. Pour les instances qui prennent uniquement en charge la migration manuelle, Oracle Cloud Infrastructure vous envoie une notification et un événement de maintenance est affiché sur la page des détails de maintenance.
Afin d'identifier les instances pour lesquelles une maintenance est programmée, utilisez l'une des méthodes suivantes :
- Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Maintenance d'instance.
La liste des instances programmées pour maintenance s'affiche.
- Cliquez sur l'instance qui vous intéresse, puis sur l'onglet Maintenance de l'instance. Ces dates et heures de début et de fin s'affichent pour tous les événements de maintenance.
Utilisez l'opération InstanceMaintenanceEvents pour répertorier les événements. Indiquez un champ de compartiment pour répertorier toutes les instances avec des événements de maintenance dans un compartiment donné. Filtrez les résultats à l'aide d'options telles que instanceAction ou lifecycleState pour affiner la recherche.
- Dans la barre de navigation supérieure, sélectionnez Rechercher des ressources, des services, de la documentation et Marketplace, puis Requête de ressource avancée.
- Cliquez sur Sélectionner l'exemple de requête, puis sur Requête pour toutes les instances avec un redémarrage de maintenance programmé à venir.
Voici un exemple de requête :
query instancemaintenanceevent resources where (timeWindowStart > 'Now' && lifecycleState = 'SCHEDULED') - Cliquez sur Rechercher.
La liste des instances correspondantes s'affiche.
Une instance n'est plus affectée par un événement de maintenance lorsque l'onglet Maintenance est vide.
Prolonger la date limite de maintenance
Vous pouvez reporter la date d'échéance de la maintenance des instances pour lesquelles une maintenance ou une fin de contrat est programmée. Le report de la date limite est pris en charge pour la maintenance de migration au redémarrage, qui est généralement programmée sur les instances de machine virtuelle et Bare Metal qui utilisent des formes standard ou flexibles. OCI détermine le dernier moment possible auquel la date d'échéance peut être reportée.
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse, sur l'onglet Maintenance, puis sur Replanifier.
- Cliquez sur Reporter la date limite.
- Dans la zone Nouvelle date limite, sélectionnez une nouvelle date et une autre heure.
-
Cliquez sur Sauvegarder les modifications.
La date d'échéance de la maintenance est reportée. Dans les 24 heures qui suivent la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
- Vérifiez le dernier moment auquel la date d'échéance peut être reportée à l'aide de l'opération GetInstanceMaintenanceReboot.
-
Reportez la date d'échéance de la maintenance en effectuant l'une des opérations suivantes :
-
Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur
REBOOTMIGRATEcomme action à effectuer. Dans l'attributtimeScheduled, indiquez la date d'échéance mise à jour. -
Machines virtuelles : utilisez l'opération UpdateInstance en transmettant la date d'échéance mise à jour dans l'attribut
timeMaintenanceRebootDue.
La date d'échéance de la maintenance est reportée. Dans les 24 heures qui suivent la date d'échéance de la maintenance, l'instance est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
-
Machines virtuelles et instances Bare Metal : utilisez l'opération InstanceAction en transmettant la valeur
Récupération d'une instance
Lorsque l'infrastructure sous-jacente d'une instance est en mauvais état, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance. L'action de maintenance dépend du type d'instance.
- Instances de machine virtuelle : si possible, l'instance est migrée en direct vers un hôte physique en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage ou reconstruite au même emplacement, selon la forme.
- Instances bare metal : si possible, l'instance est migrée au redémarrage vers un hôte physique en bon état. Si la migration au redémarrage n'est pas possible, vous devez migrer manuellement l'instance.
Maintenance planifiée des instances de machine virtuelle
Lorsqu'un événement de maintenance d'infrastructure affecte des instances d'une machine virtuelle, Oracle Cloud Infrastructure met en direct les instances d'une machine virtuelle prises en charge à partir de l'hôte de machine virtuelle physique nécessitant des opérations de maintenance vers un nouvel hôte d'une machine virtuelle, avec un arrêt minimal des instances en cours d'exécution
Si une instance de machine virtuelle ne peut être migrée en direct ou ne prise pas en charge de la migration en temps réel, Oracle Cloud Infrastructure programme une date d'échéance d'entretien comprise entre 14 et 16 jours, et vous envoie une notification décrivant le type de action d'entretien requise, telle que l'exécution au redémarrage. Une migration en direct peut échouer si l'un des événements suivants survient lors de la migration : trop d'activité sur l'instance, instance modifiée à l'aide de l'API ou erreur interne non liée à l'instance.
Si la maintenance d'une instance de machine virtuelle est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de cette maintenance. La migration au redémarrage proactive vous permet de contrôler comment et quand vos applications subissent un temps d'inactivité. Si vous n'avez pas redémarré l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage ou reconstruite au niveau de l'emplacement pour vous, selon la forme.
La maintenance gérée par les clients des instances de machine virtuelle est prise en charge sur lesformes d'instance standard et àE/S dense, y compris les images d'une plate-forme et les images personnalisées importées à partir de l'extérieur d'Oracle Cloud Infrastructure.
Pour la forme standard et la forme DenseIO, vous pouvez reporter la date d'échéance de maintenance.
Dans certains cas, comme un événement de maintenance lié à la sécurité, vous ne pourrez peut-être pas prolonger la date.
Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.
Maintenance planifiée des instances Bare Metal
When an infrastructure maintenance event affects bare metal instances, Oracle Cloud Infrastructure reboot migrates supported bare metal instances from the physical host that needs maintenance to a healthy host. Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprises entre 14 et 16 jours, et vous envoie une notification décrivant le type de action d'entretien requise, telle que la migration au redémarrage. Dans les 24 heures qui suivent la date d'échéance d'entretien, l'instance Bare Metal est arrêtée, migrée vers un hôte en bon état, puis redémarrée. Un petit temps d'inactivité survient durant la migration.
Si la maintenance d'une instance Bare Metal est programmée, vous pouvez redémarrer l'instance de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. Le redémarrage proactif vous permet de contrôler à quel moment et par quels biais vos applications subissent des temps d'inactivité. Si vous ne redémarrez pas l'instance de façon proactive avant la date d'échéance, l'instance est migrée au redémarrage pour vous.
La migration au redémarrage des instances Bare Metal est prise en charge sur les formes d'instance standard qui utilisent des images de plate-forme Linux. La migration au redémarrage des instances Bare Metal n'est pas prise en charge pour les instances qui utilisent des images Windows ou personnalisées, les instances protégées, les instances disposant de cartes d'interface réseau virtuelles secondaires créées et configurées sur une carte d'interface réseau physique avec l'index 1, ni pour les instances qui n'utilisent pas la commande sanboot standard dans le script iPXE.
Pour les formes standard, vous pouvez reporter la date d'échéance de la maintenance.
Si vous choisissez de ne pas effectuer le redémarrage avant le moment programmé, Oracle Cloud Infrastructure migre ou reconstruit l'instance. Après une migration, l'instance est par défaut récupérée dans le même état de cycle de vie qu'avant l'événement de maintenance. Si vous appliquez un autre processus pour récupérer l'instance, vous pouvez éventuellement configurer l'instance afin qu'elle reste arrêtée après sa migration au redémarrage vers le matériel en bon état.
Récupération de machine virtuelle en raison d'un échec d'infrastructure
Lorsque l'infrastructure sous-jacente d'une instance de machine virtuelle échoue en raison de problèmes logiciels ou matériels, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance.
Les instances de machine virtuelle standard sont récupérées à l'aide d'une migration au redémarrage, qui restaure automatiquement la machine virtuelle sur un hôte en bon état, qu'il s'agisse de l'hôte physique d'origine ou d'un autre. Toute défaillance d'une machine virtuelle est détectée dans la minute. Si l'hôte ne peut pas être récupéré immédiatement, la machine virtuelle est déplacée vers un autre hôte, en bon état. Dans ce scénario, le processus de migration vers un hôte en bon état et de redémarrage sur celui-ci commence automatiquement dans les cinq minutes. Lors du redémarrage, les propriétés d'instance telles que les adresses IP publiques éphémères et privées, les volumes de blocs attachés et les cartes d'interface réseau virtuelles sont conservées.
DenseIO Les instances d'une machine virtuelle sont récupérées en redémarrant l'instance sur le même hôte physique. Si une récupération d'une instance à DenseIO sur le même hôte physique n'est pas possible, Oracle Cloud Infrastructure vous informe que vous devrez mettre fin à l'instance (y mettre fin) dans les jours 14. Si la migration au redémarrage est utilisée, les données NVMe locales sont toujours perdues. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans le sept jours suivants. Le volume d'initialisation et le volume de données attaché distant sont conservés.
Oracle Cloud Infrastructure vous avertit par courriel ou par des annonces de tout événement d'échec d'infrastructure d'une machine virtuelle, avec le statut de l'action de récupération effectuée. Vous pouvez également surveiller la mesure de statut d'instance pour vous tenir au courant des redémarrages inattendus.
Pour indiquer que vos machines virtuelles ne doivent pas être redémarrées automatiquement, configurez vos instances de sorte qu'elles restent arrêtées après leur récupération.
Mesures d'état d'infrastructure
Vous pouvez utiliser des mesures, des alarmes et des notifications pour surveiller le statut de maintenance de l'infrastructure sur laquelle vos instances de calcul sont exécutées. Les principales mesures à prendre en compte pour la maintenance d'infrastructure sont les mesures d'état d'infrastructure :
- Statut d'état d'instance (Démarré/Arrêté) : la mesure
instance_statuspermet de vérifier si une instance d'instance de machine virtuelle est disponible (démarrée) ou indisponible (arrêtée) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, contactez le support technique. - Statut de maintenance d'instance : la mesure
maintenance_statuspermet de surveiller l'exécution d'une maintenance d'infrastructure planifiée par une instance Bare Metal ou de machine virtuelle. - Etat d'infrastructure Bare Metal : la mesure
health_statuspermet de surveiller l'état de l'infrastructure pour des instances Bare Metal, ce qui comprend les composants matériels tels que l'UC et la mémoire.
Affichage des notifications de statut et de maintenance d'instance dans la console
Vous pouvez visualiser les notifications d'état d'instance et de redémarrage des opérations de maintenance dans la console sur la page Détails de l'instance. Pour afficher ces champs, procédez comme suit :
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse.
- Dans l'onglet Informations sur l'instance, dans la section Détails de l'instance, reportez-vous au champ Statut d'instance et au champ Réinitialisation de maintenance.Remarque
Le champ Statut d'instance s'affiche uniquement si l'instance a été indisponible au cours du mois écoulé.