Maintenance d'infrastructure
Oracle Cloud Infrastructure effectue la maintenance courante des centres de données sur l'infrastructure physique des instances de calcul. Cette maintenance comprend des tâches telles que la mise à niveau et le remplacement du matériel ou l'exécution d'une maintenance qui arrête l'alimentation de l'hôte. Cette rubrique fournit des informations détaillées sur la maintenance d'infrastructure, les options de migration et les mesures de statut que vous pouvez utiliser pour surveiller la maintenance d'infrastructure.
Vous pouvez utiliser les mesures d'état de l'infrastructure de calcul pour surveiller le statut des instances pendant la maintenance.
Pour les hôtes dédiés de machine virtuelle, voir Gestion de la migration avec redémarrage de maintenance pour les hôtes dédiés de machine virtuelle.
Actions de maintenance
Oracle Cloud Infrastructure prend en charge diverses actions de maintenance pour les instances de calcul, y compris la migration en direct, la maintenance programmée, la reconstruction en place et la migration manuelle. L'action de maintenance dépend de caractéristiques telles que la forme utilisée par l'instance.
Migration en direct (aucun temps d'arrêt)
La migration en direct est un mécanisme permettant de déplacer une machine virtuelle d'un serveur physique à un autre alors que la machine virtuelle est toujours en cours d'exécution. Lors d'une migration en direct, l'instance de machine virtuelle source continue de s'exécuter lorsque le service de calcul copie la mémoire et tous les composants virtuels vers la nouvelle instance de machine virtuelle cible. Lorsque la copie est terminée, il n'y a qu'une légère pause, généralement mesurée en dizaines de millisecondes, lorsque le système passe à la nouvelle machine virtuelle. Les perturbations sont minimes.
Maintenance programmée (temps d'arrêt court)
Avec la maintenance programmée, une date est définie pour le déplacement d'une instance vers un nouvel hôte. À l'aide de la migration de redémarrage, l'instance est arrêtée, migrée vers un hôte sain, puis redémarrée. Un court temps d'arrêt se produit pendant la migration. Vous pouvez contrôler le moment où le temps d'arrêt se produit en migrant de manière proactive l'instance avec redémarrage avant la date d'échéance de la maintenance. Dans de rares cas, la migration avec redémarrage n'est pas possible et l'instance est arrêtée.
Reconstruction en place (temps d'arrêt prolongé)
Cette action de maintenance ne déplace pas l'instance. Au moment programmé, l'instance est arrêtée, recréée sur le même matériel physique, puis redémarrée. Un temps d'arrêt de plusieurs heures se produit pendant le processus de maintenance.
Une recréation sur place conserve les propriétés d'instance liées au matériel physique, telles que l'adresse MAC ou le numéro d'identification universel. Une recréation sur place vous permet également de conserver le SSD NVMe attaché localement sur une instance à E/S denses.
Pour les machines virtuelles, si vous voulez réduire le temps d'arrêt et pouvoir supprimer le SSD NVMe attaché localement, vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. L'instance fera l'objet d'une migration avec redémarrage vers un hôte sain et le SSD sera supprimé définitivement. Un court temps d'arrêt se produit pendant la migration.
Migration manuelle
Pour les instances de machine virtuelle où les actions précédentes ne sont pas disponibles, vous devez déplacer l'instance manuellement. Cette méthode nécessite que vous supprimez (arrêtez) l'instance, puis lancez une nouvelle instance à partir du volume de démarrage conservé. Les instances qui comportent des cartes vNIC supplémentaires, des adresses IP secondaires, des volumes par blocs attachés distants, le module de plate-forme sécurisée (TPM) activé ou ce qui appartiennent au jeu dorsal d'un équilibreur de charge nécessitent des étapes supplémentaires.
Dans de rares cas, la récupération d'une instance de machine virtuelle sur le même hôte physique n'est pas possible. Oracle Cloud Infrastructure vous avise de supprimer (mettre fin) l'instance dans les 14 jours. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept prochains jours. Le volume de démarrage et le volume de données attaché à distance sont conservés.
Maintenance planifiée
Identification des instances avec maintenance planifiée
Si une instance prend en charge la migration avec redémarrage ou la reconstruction en place, cliquez sur l'onglet Maintenance. La page des détails de la maintenance indique à quel moment la maintenance planifiée doit commencer. Les heures de début et de fin de la maintenance sont affichées dans la colonne Programmé au début. Pour les instances qui prennent uniquement en charge la migration manuelle, Oracle Cloud Infrastructure vous envoie un avis et un événement de maintenance s'affiche dans la page des détails de la maintenance.
Pour identifier les instances qui sont programmées pour maintenance, procédez de l'une des façons suivantes :
- Ouvrez le menu de navigation et cliquez sur Calcul. Sous Calcul, cliquez sur Maintenance d'instance.
Une liste des instances programmées pour maintenance s'affiche.
- Cliquez sur l'instance qui vous intéresse, puis cliquez sur l'onglet Maintenance pour l'instance. Les dates et heures de début et de fin sont affichées pour tous les événements de maintenance.
Utilisez l'opération InstanceMaintenanceEvents
pour lister les événements. Indiquez un champ de compartiment pour lister toutes les instances comportant des événements de maintenance dans un compartiment donné. Filtrez les résultats à l'aide d'options telles que instanceAction ou lifecycleState pour restreindre la recherche.
- Dans la barre de navigation supérieure, sélectionnez Rechercher des ressources, des services, de la documentation et le marché des applications, puis Interrogation de ressources avancée.
- Cliquez sur Sélectionner un exemple d'interrogation, puis cliquez sur Interrogation sur toutes les instances ayant un redémarrage de maintenance programmé à venir.
Voici un exemple d'interrogation :
query instancemaintenanceevent resources where (timeWindowStart > 'Now' && lifecycleState = 'SCHEDULED')
- Cliquez sur Rechercher.
Une liste des instances correspondantes s'affiche.
Un événement de maintenance n'a plus d'incidence sur une instance lorsque l'onglet Maintenance est vide.
Prolongation de la date limite de maintenance
Vous pouvez prolonger la date d'échéance de maintenance pour les instances programmées pour une maintenance ou une résiliation. La prolongation de la date limite est prise en charge pour la maintenance de la migration avec redémarrage, qui est généralement programmée sur les instances de machine virtuelle et sans système d'exploitation qui utilisent des formes standard ou flexibles. OCI détermine jusqu'à quel moment la date d'échéance peut être prolongée.
- Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse, cliquez sur l'onglet Maintenance, puis sur Reprogrammer.
- Cliquez sur Reporter l'échéance.
- Dans la zone Nouvelle date limite, sélectionnez une nouvelle date et une nouvelle heure.
-
Cliquez sur enregistrer les modifications.
La date d'échéance de maintenance est prolongée. Dans les 24 heures suivant la date d'échéance de maintenance, l'instance est arrêtée, migrée vers un hôte sain, puis redémarrée. Un court temps d'arrêt se produit pendant la migration.
- Vérifiez jusqu'à quel moment possible la date d'échéance peut être prolongée à l'aide de l'opération GetInstanceMaintenanceReboot.
-
Prolongez la date d'échéance de maintenance en procédant de l'une des façons suivantes :
- Instances de machine virtuelle ou sans système d'exploitation : Utilisez l'opération InstanceAction, transmettant la valeur
REBOOTMIGRATE
comme action à entreprendre. Dans l'attributtimeScheduled
, indiquez la date d'échéance mise à jour. - Machines virtuelles : Utilisez l'opération UpdateInstance, transmettant la date d'échéance mise à jour dans l'attribut
timeMaintenanceRebootDue
.
La date d'échéance de maintenance est prolongée. Dans les 24 heures suivant la date d'échéance de maintenance, l'instance est arrêtée, migrée vers un hôte sain, puis redémarrée. Un court temps d'arrêt se produit pendant la migration.
- Instances de machine virtuelle ou sans système d'exploitation : Utilisez l'opération InstanceAction, transmettant la valeur
Restauration d'une instance
Lorsque l'infrastructure sous-jacente d'une instance n'est pas saine, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance. L'action de maintenance dépend du type d'instance.
- Instances de machine virtuelle : Lorsque cela est possible, l'instance est migrée en direct vers un hôte physique sain. Si la migration en direct est impossible, l'instance fait l'objet d'une migration avec redémarrage ou rdt recréée sur place, selon la forme.
- Instances sans système d'exploitation : Lorsque cela est possible, l'instance fait l'objet d'une migration avec redémarrage vers un hôte physique sain. Si la migration avec redémarrage n'est pas possible, vous devez migrer l'instance manuellement.
Maintenance planifiée pour les instances de machine virtuelle
Lorsqu'un événement de maintenance d'infrastructure a une incidence sur les instances de MV, Oracle Cloud Infrastructure migration en direct des instances de MV prises en charge de l'hôte de MV physique qui a besoin d'une maintenance vers un nouvel hôte de MV avec une perturbation minimale des instances en cours d'exécution.
Si une instance de machine virtuelle ne peut pas être migrée en direct ou ne prend pas en charge la migration en direct, Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours et vous envoie un avis décrivant le type d'action de maintenance requise, telle que la migration par redémarrage. Une migration en direct peut ne pas réussir si l'un des événements suivants se produit au cours de la migration : il y a trop d'activité sur l'instance, une modification de l'instance est effectuée à l'aide de l'API ou une erreur interne non liée à l'instance se produit.
Si une instance de machine virtuelle est programmée pour maintenance, vous pouvez la migrer de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. La migration par redémarrage proactive vous permet de contrôler comment et quand les applications connaissent des temps d'arrêt. Si vous ne migrez pas l'instance de manière proactive avant la date d'échéance, l'instance fait l'objet d'une migration avec redémarrage ou est recréée sur place pour vous, selon la forme.
La maintenance gérée par le client pour les instances de machine virtuelle est prise en charge sur les formes d'instance standard et à E/S denses, notamment les images de plate-forme et les images personnalisées importées en dehors d'Oracle Cloud Infrastructure.
Pour les formes standard et DenseIO, vous pouvez prolonger la date d'échéance de la maintenance.
Dans certains cas, comme un événement de maintenance lié à la sécurité, il se peut que vous ne puissiez pas prolonger la date.
Après une migration, l'instance est récupérée par défaut au même état du cycle de vie qu'avant l'événement de maintenance. S'il existe un autre processus pour récupérer l'instance, vous pouvez facultativement configurer l'instance pour qu'elle demeure arrêtée après avoir fait l'objet d'une migration avec redémarrage vers un matériel sain.
Maintenance planifiée pour les instances sans système d'exploitation
Lorsqu'un événement de maintenance d'infrastructure a une incidence sur les instances sans système d'exploitation, Oracle Cloud Infrastructure effectue une migration avec redémarrage des instances sans système d'exploitation prises en charge de l'hôte physique qui a besoin d'une maintenance vers un hôte sain. Oracle Cloud Infrastructure programme une date d'échéance de maintenance comprise entre 14 et 16 jours et vous envoie un avis décrivant le type d'action de maintenance requise, telle que la migration avec redémarrage. Dans les 24 heures suivant la date d'échéance de la maintenance, l'instance sans système d'exploitation est arrêtée, migrée vers un hôte sain, puis redémarrée. Un court temps d'arrêt se produit pendant la migration.
Si une instance sans système d'exploitation est programmée pour maintenance, vous pouvez la redémarrer de manière proactive à tout moment avant la date d'échéance de la maintenance programmée. Le redémarrage proactif vous permet de contrôler comment et quand les applications connaissent des temps d'arrêt. Si vous ne redémarrez pas l'instance de manière proactive avant la date d'échéance, elle fait l'objet d'une migration avec redémarrage pour vous.
La migration avec redémarrage des instances sans système d'exploitation est prise en charge sur les formes d'instance standard qui utilisent des images de plate-forme Linux. La migration avec redémarrage des instances sans système d'exploitation n'est pas prise en charge pour les instances qui utilisent des images Windows ou personnalisées, des instances dotées d'une protection maximale, des instances comportant des cartes vNIC secondaires créées et configurées sur une carte d'interface réseau physique avec index 1 ou pour les instances qui n'utilisent pas la commande sanboot
standard dans le script iPXE.
Pour les formes standard, vous pouvez prolonger la date d'échéance de la maintenance.
Si vous choisissez de ne pas redémarrer avant le moment programmé, Oracle Cloud Infrastructure migre ou recrée l'instance. Après une migration, l'instance est récupérée par défaut au même état du cycle de vie qu'avant l'événement de maintenance. S'il existe un autre processus pour récupérer l'instance, vous pouvez facultativement configurer l'instance pour qu'elle demeure arrêtée après avoir fait l'objet d'une migration avec redémarrage vers un matériel sain.
Récupération d'une machine virtuelle suite à une défaillance de l'infrastructure
Lorsque l'infrastructure sous-jacente d'une instance de machine virtuelle échoue en raison de problèmes logiciels ou matériels, Oracle Cloud Infrastructure tente automatiquement de récupérer l'instance.
Les instances de machine virtuelle standard sont récupérées à l'aide d'une migration avec redémarrage, qui restaure automatiquement la machine virtuelle sur un hôte sain, qu'il s'agisse de l'hôte physique initial ou d'un autre hôte physique. La défaillance de la machine virtuelle est détectée dans la minute suivant l'événement. Si l'hôte ne peut pas être récupéré immédiatement, un déplacement sain se produit, selon lequel la machine virtuelle est déplacée vers un autre hôte. Dans ce scénario, le processus de migration et de redémarrage sur un hôte sain commence automatiquement en cinq minutes. Lors du redémarrage, les propriétés de l'instance telles que les adresses privées et les adresses IP publiques éphémères, les volumes par blocs attachés et les cartes vNIC sont conservés.
Les instances de machine virtuelle DenseIO sont récupérées en redémarrant l'instance sur le même hôte physique. S'il n'est pas possible de récupérer une instance DenseIO sur le même hôte physique, Oracle Cloud Infrastructure vous avise de redémarrer la migration ou la suppression (mettre fin) de l'instance dans les 14 jours qui suivent. Si la migration avec redémarrage est utilisée, les données NVMe locales sont toujours perdues. Si vous ne supprimez pas l'instance avant la date limite, Oracle Cloud Infrastructure désactive l'instance à la date limite et la supprime dans les sept prochains jours. Le volume de démarrage et le volume de données attaché à distance sont conservés.
Oracle Cloud Infrastructure vous avise par un courriel ou une annonce de tout événement de défaillance d'infrastructure de machine virtuelle, avec le statut de l'action de récupération qui a été effectuée. Vous pouvez également surveiller la mesure du statut de l'instance pour rester au courant de tout redémarrage inattendu.
Vous pouvez choisir de ne pas faire redémarrer automatiquement les machines virtuelles en configurant les instances pour qu'elles restent arrêtées après leur récupération.
Mesures de l'état de l'infrastructure
Vous pouvez utiliser des mesures, des alarmes et des avis pour surveiller le statut de maintenance de l'infrastructure sur laquelle vos instances de calcul s'exécutent. Les mesures principales à prendre en compte pour la maintenance d'infrastructure sont les mesures de l'état de l'infrastructure :
- Statut (Actif/Arrêté) de l'état de l'instance : La mesure
instance_status
permet de vérifier si une instance de machine virtuelle est disponible (active) ou non disponible (arrêt) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, communiquez avec le soutien technique. - Statut de maintenance d'instance : La mesure
maintenance_status
permet de surveiller si une instance de machine virtuelle ou sans système d'exploitation est programmée pour une entretien d'infrastructure. - Statut de l'état de l'infrastructure sans système d'exploitation : La mesure
health_status
vous aide à surveiller l'état de l'infrastructure pour les instances sans système d'exploitation, notamment les composants matériels tels que l'UC et la mémoire.
Affichage du statut et des avis de maintenance des instances dans la console
Vous pouvez voir le statut de l'instance et les avis de redémarrage de maintenance dans la console dans la page Détails de l'instance. Pour voir ces champs :
- Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse.
- Dans l'onglet Informations sur l'instance, dans la section Détails de l'instance, voir le champ Statut de l'instance et le champ Redémarrage de maintenance.Note
Le champ Statut de l'instance s'affiche uniquement si l'instance n'était pas disponible au cours du dernier mois.