Surveillance de l'état de Compute pour les instances Bare Metal

La surveillance de l'état de Compute pour les instances Bare Metal est une fonctionnalité qui fournit des notifications concernant les problèmes matériels de vos instances Bare Metal. Elle vous permet de surveiller l'état du matériel de vos instances Bare Metal, y compris les composants tels que l'UC, la carte mère, les modules DIMM et les lecteurs NVMe. Vous pouvez utiliser les notifications pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive vos instances afin d'en améliorer la disponibilité.

Les notifications de surveillance de l'état sont envoyées par courriel à l'administrateur de locataires sous un jour ouvrable à compter de l'apparition de l'erreur. Cet avertissement vous permet de prendre des mesures avant toute défaillance matérielle potentielle et de redéployer vos instances sur du matériel en bon état pour minimiser l'impact sur vos applications.

Vous pouvez également utiliser les mesures d'état de l'infrastructure disponibles dans le service Monitoring pour créer des alarmes  et des notifications en fonction des problèmes matériels.

Messages d'erreur et dépannage

Cette section contient des informations concernant les messages d'erreur de surveillance de l'état les plus courants et suggère de résoudre les problèmes à essayer pour une instance Bare Metal.

Un événement dans l'environnement du centre de données a été détecté, ce qui a un impact sur cet hôte

Classe d'erreur : DC_ENVIRONMENT

Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non un problème de système. En règle générale, le problème est lié à la puissance ou à la température et est également réparable en direct.

Voici quelques exemples de problèmes pouvant entraîner ce type de problème : panne de ventilateur sur un serveur, panne d'une unité d'alimentation ou défaillance de la climatisation dans le centre de données.

Une panne a été détectée dans le GPU

Classe de panne : GPU

Détails : cette erreur indique qu'au moins une unité de traitement graphique (GPU) en échec a été détectée sur l'instance lors de sa création ou de son exécution.

Etapes de dépannage :

Essayez l'une des options de dépannage suivantes :

  • Installez l'outil de diagnostic OCI HPC/GPU dr-hpc, qui exécute une série de commandes permettant de vérifier l'état du matériel.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Exécutez les outils de diagnostic dcgm. (Reportez-vous à la section NVIDIA GPU Debug Guidelines.)
    dcgmi diag -r [1,2,3]
  • Collectez les journaux de débogage NVIDIA et grep pour détecter les erreurs dans les journaux.
    sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Une panne a été détectée dans le RDMA

Classe de panne : RDMA

Détails : cette erreur indique qu'au moins une carte d'interface réseau (NIC) RDMA est dégradée ou défectueuse.

Etapes de dépannage :

Essayez l'une des options de dépannage suivantes :

  • Installez l'outil de diagnostic OCI HPC/GPU dr-hpc, qui exécute une série de commandes permettant de vérifier l'état du matériel.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.
    sudo su
    mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Une panne a été détectée dans des UC

Classe de panne : CPU

Détails : cette erreur signale l'échec d'un processeur ou de coeurs dans l'instance. L'instance peut être inaccessible ou le nombre de coeurs disponibles peut être inférieur à celui attendu.

Etapes de dépannage :

Une panne dans le sous-système de mémoire a été détectée lors du lancement de l'instance ou d'un redémarrage récent

Classe de panne : MEM-BOOT

Détails : cette erreur indique que des modules DIMM en échec ont été détectés dans l'instance lors du lancement ou du redémarrage de cette dernière. Les modules DIMM en échec ont été désactivés.

Etapes de dépannage : la quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a un impact sur l'application, nous vous recommandons de remplacer l'instance en suivant les étapes décrites dans Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.

Pour vérifier la quantité de mémoire dans l'instance, procédez comme suit :

  • Sur les systèmes Linux, exécutez la commande suivante :

    awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
  • Sur les systèmes Windows, ouvrez le moniteur de ressources.

Les valeurs attendues sont documentées dans Formes de calcul.

Une panne a été détectée dans le sous-système de mémoire

Classe de panne : MEM-RUNTIME

Détails : cette erreur indique que des erreurs non critiques ont été détectées sur un module DIMM dans l'instance. L'instance a peut-être été redémarrée de façon inattendue au cours des dernières 72 heures.

Etapes de dépannage :

  • Si l'instance a été redémarrée de façon inattendue au cours des dernières 72 heures, des modules DIMM ont peut-être été désactivés. Pour vérifier la quantité totale de mémoire dans l'instance, procédez comme suit :

    • Sur les systèmes Linux, exécutez la commande suivante :

      awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
    • Sur les systèmes Windows, ouvrez le moniteur de ressources.

    Si la mémoire totale de l'instance est inférieure à la valeur attendue, cela signifie que des modules DIMM ont échoué. Si cela a une incidence sur l'application, nous vous recommandons de remplacer l'instance en suivant les étapes décrites dans Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.

  • Si l'instance n'a pas été redémarrée de façon inattendue, le faire présente un risque accru. Lors du prochain redémarrage, des modules DIMM pourraient être désactivés. Nous vous recommandons de remplacer l'instance en suivant les étapes décrites dans Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.

Une panne a été détectée dans le contrôleur de gestion d'instances

Classe de panne : MGMT-CONTROLLER

Détails : cette erreur indique qu'un périphérique utilisé pour gérer l'instance a peut-être échoué. Vous risquez de ne pas pouvoir utiliser la console, l'interface de ligne de commande, les kits SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité restera disponible à partir de l'instance à l'aide des commandes de système d'exploitation standard. Il se peut également que vous ne puissiez pas créer une connexion de console à l'instance. Vous pourrez néanmoins toujours mettre fin à l'instance.

Etapes de dépannage : si cette perte de contrôle a une incidence sur l'application, nous vous recommandons de remplacer l'instance en suivant les étapes décrites dans Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.

Une panne a été détectée dans le sous-système PCI

Classe de panne : PCI

Détails : cette erreur indique que des périphériques PCI de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.

Etapes de dépannage :

Une panne a été détectée dans la carte d'interface réseau d'instance

Classe de panne : PCI-NIC

Détails : cette erreur indique que des périphériques de carte d'interface réseau de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.

Important

La classe de panne PCI-NIC est en phase d'abandon. Vous devez migrer vers la classe de panne PCI pour obtenir des fonctionnalités similaires.

Etapes de dépannage : si vous ne parvenez pas à vous connecter à l'instance sur le réseau, la carte d'interface réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour connaître la procédure à suivre, reportez-vous à arrêt, démarrage ou redémarrage d'une instance.

Si vous ne parvenez toujours pas à vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes décrites dans Etablissement d'une connexion locale à la console série ou dans Connexion à la console VNC pour établir une connexion à la console et redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer en suivant les étapes décrites dans Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.

Une panne a été détectée dans l'interface réseau définie par logiciel de l'instance

Classe de panne : SDN-INTERFACE

Détails : si vous ne pouvez pas vous connecter à l'instance ou que vous rencontrez des problèmes de fonctions de réseau, le périphérique d'interface réseau défini par logiciel est peut-être en panne

Etapes de dépannage : bien que le redémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes Live, Reboot, and Manual Migration : Moving a Compute Instance to a New Host.