Mesures de l'état de l'infrastructure

Vous pouvez surveiller l'état, la capacité et la performance de l'infrastructure des instances de machine virtuelle et des instances sans système d'exploitation du service de calcul en utilisant des mesures, des alarmes et des avis.

Cette rubrique décrit les mesures émises par l'espace de noms de mesure oci_compute_infrastructure_health.

Ressources : Instances du service Calcul.

Aperçu des mesures : oci_compute_infrastructure_health

Les mesures d'état de l'infrastructure de calcul vous aident à surveiller le statut et l'état des instances de calcul.

  • Statut (Actif/Arrêté) de l'état de l'instance : La mesure instance_status permet de vérifier si une instance de machine virtuelle est disponible (active) ou non disponible (arrêt) lorsqu'elle est en cours d'exécution. Si l'instance est indisponible pendant plus de 30 minutes, communiquez avec le soutien technique.
  • Statut de maintenance d'instance : La mesure maintenance_status permet de surveiller si une instance de machine virtuelle ou sans système d'exploitation est programmée pour une entretien d'infrastructure.
  • Statut de l'état de l'infrastructure sans système d'exploitation : La mesure health_status vous aide à surveiller l'état de l'infrastructure pour les instances sans système d'exploitation, notamment les composants matériels tels que l'unité centrale et la mémoire.

En fonction de la valeur des mesures, vous pouvez de manière proactive déplacer les instances touchées vers du matériel sain et ainsi réduire l'incidence sur vos applications.

Politique GIA requise

Pour surveiller des ressources, vous devez disposer du type d'accès requis qui vous est accordé dans une politique écrite par un administrateur, que vous utilisiez la console ou l'API REST avec une trousse SDK, l'interface de ligne de commande ou un autre outil. La politique doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et obtenez un message indiquant que vous ne disposez pas de l'autorisation requise, communiquez avec l'administrateur pour connaître le type d'accès qui vous a été octroyé et le compartiment que vous devez utiliser. Pour plus d'informations sur les autorisations d'utilisateur pour la surveillance, voir Politiques IAM.

Mesures disponibles : oci_compute_infrastructure_health

Les mesures indiquées dans le tableau suivant sont automatiquement disponibles pour vos instances. Il n'est pas nécessaire d'activer la surveillance de l'instance pour obtenir ces mesures.

Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.

Selon la mesure, les dimensions suivantes sont disponibles :

faultClass

Type de problème matériel :

  • CPU : Une erreur a été détectée dans une ou plusieurs UC.
  • MEM-BOOT : Une erreur est survenue dans le sous-système de mémoire lors du lancement de l'instance ou d'un redémarrage récent.
  • MEM-RUNTIME : Une erreur a été détectée dans le sous-système de mémoire.
  • MGMT-CONTROLLER : Une erreur a été détectée dans le contrôleur de gestion d'instances.
  • PCI : Une erreur a été détectée dans le sous-système PCI.
  • PCI-NIC : Une erreur de la carte d'interface (NIC) réseau d'instance a été détectée.

    Important

    La classe d'erreur PCI-NIC est obsolète. Vous devez migrer vers la classe d'erreur PCI pour une fonctionnalité similaire.
  • SDN-INTERFACE : Une erreur de l'interface réseau définie par le logiciel de l'instance a été détectée.

Pour des suggestions de dépannage et plus d'informations sur ces problèmes matériels, voir Surveillance de l'état du service de calcul pour les instances sans système d'exploitation.

resourceDisplayName
Nom convivial de l'instance.
resourceId
OCID de l'instance.
maintenanceDueTime

Heure de début programmée de la fenêtre de maintenance de 24 heures, au format défini par RFC3339.

computeMaintenanceAction

Action effectuée par Oracle Cloud Infrastructure sur une instance lors d'un événement de maintenance programmée :

  • REBOOT : L'instance est migrée de l'hôte physique qui a besoin d'une maintenance vers un hôte sain. Si la migration en direct n'est pas possible, l'instance fait l'objet d'une migration avec redémarrage.
  • REBUILD_IN_PLACE : L'instance est arrêtée, reconstruite sur le même matériel physique, et redémarrée. Un temps d'arrêt de plusieurs heures se produit pendant le processus de maintenance.
recommendedAction

Action que vous pouvez entreprendre avant l'événement de maintenance programmée, afin de pouvoir contrôler comment et quand vos applications connaissent des temps d'arrêt.

  • REBOOT: Vous pouvez redémarrer l'instance de manière proactive avant l'heure de maintenance programmée. Lorsque vous effectuez la migration avec redémarrage d'une instance pour maintenance, l'instance est arrêtée sur l'hôte physique qui a besoin de maintenance, puis redémarrée sur un hôte sain.
Mesure Nom d'affichage de la mesure Unité Description Dimensions
health_status Statut de l'état de l'infrastructure Problèmes

Nombre de problèmes d'état pour une instance. Une valeur différente de zéro indique la présence d'un défaut.

Cette mesure est seulement disponible pour les instances sans système d'exploitation.

faultClass

resourceDisplayName

resourceId

instance_status Statut de l'instance Nombre

Statut d'une instance en cours d'exécution. La valeur 0 indique que l'instance est disponible (active). La valeur 1 indique que l'instance n'est pas disponible (inactive) en raison d'un problème lié à l'infrastructure. Si l'instance est arrêtée, la mesure n'a pas de valeur.

Cette mesure est seulement disponible pour les instances de machine virtuelle.

resourceDisplayName

resourceId

maintenance_status Statut de maintenance Nombre

Statut de maintenance d'une instance. La valeur 0 indique que l'instance n'est pas programmée pour un événement de maintenance d'infrastructure. La valeur 1 indique que l'instance est programmée pour un événement de maintenance d'infrastructure.

Cette mesure est disponible pour les instances de machine virtuelle et sans système d'exploitation.

maintenanceDueTime

computeMaintenanceAction

recommendedAction

resourceDisplayName

resourceId

Utilisation de la console

Pour voir les mesures d'état de l'infrastructure pour une seule instance de calcul
  1. Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
  2. Cliquez sur l'instance qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesure, sélectionnez oci_compute_infrastructure_health.

    La page Mesures affiche un jeu de graphiques par défaut pour l'instance courante.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.

Pour voir les mesures d'état de l'infrastructure pour toutes les instances de calcul d'un compartiment
  1. Ouvrez le menu de navigation et sélectionnez Observabilité et gestion. Sous Surveillance, sélectionnez Mesures de service.
  2. Sélectionnez un compartiment.
  3. Pour Espace de noms de mesure, sélectionnez oci_compute_infrastructure_health.

    La page Mesures de service est mise à jour de manière dynamique pour afficher les graphiques de chaque mesure émise par l'espace de noms de mesure sélectionné.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.