Surveillance de l'état de Compute pour les instances Bare Metal

La surveillance de l'état de Compute pour les instances Bare Metal est une fonctionnalité qui fournit des notifications concernant les problèmes matériels de vos instances Bare Metal. Elle vous permet de surveiller l'état du matériel de vos instances Bare Metal, y compris les composants tels que l'UC, la carte mère, les modules DIMM et les lecteurs NVMe. Vous pouvez utiliser les notifications pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive vos instances afin d'en améliorer la disponibilité.

Les notifications de surveillance de l'état sont envoyées par courriel à l'administrateur de locataires sous un jour ouvrable à compter de l'apparition de l'erreur. Cet avertissement vous permet de prendre des mesures avant toute défaillance matérielle potentielle et de redéployer vos instances sur du matériel en bon état pour minimiser l'impact sur vos applications.

Vous pouvez également utiliser les mesures d'état de l'Infrastructure disponibles dans le service Monitoring pour créer desalarmes et des notifications en fonction des problèmes matériels.

Messages d'erreur et dépannage

Cette section contient des informations concernant les messages d'erreur de surveillance de l'état les plus courants et suggère de résoudre les problèmes à essayer pour une instance Bare Metal.

Un événement dans l'environnement du centre de données a été détecté, ce qui a un impact sur cet hôte

Classe d'erreur : DC_ENVIRONMENT

Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non un problème de système. En règle générale, le problème est lié à la puissance ou à la température et est également réparable en direct.

Voici quelques exemples de problèmes pouvant entraîner ce type de problème : panne de ventilateur sur un serveur, panne d'une unité d'alimentation ou défaillance de la climatisation dans le centre de données.

Une panne a été détectée dans le GPU

Classe de panne : GPU

Détails : cette erreur indique qu'au moins une unité de traitement graphique (GPU) en échec a été détectée sur l'instance lors de sa création ou de son exécution.

Etapes de dépannage :

Essayez l'une des options de dépannage suivantes :

Installez l'outil de diagnostic OCI HPC/GPU dr-hpc, qui exécute une série de commandes permettant de vérifier l'état du matériel.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Exécutez les outils de diagnostic dcgm. (Reportez-vous à la section NVIDIA GPU Debug Guidelines.)
```
dcgmi diag -r [1,2,3]
```
Collectez les journaux de débogage NVIDIA et grep pour détecter les erreurs dans les journaux.
```
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
```

Une panne a été détectée dans le RDMA

Classe de panne : RDMA

Détails : cette erreur indique qu'au moins une carte d'interface réseau (NIC) RDMA est dégradée ou défectueuse.

Etapes de dépannage :

Essayez l'une des options de dépannage suivantes :

Installez l'outil de diagnostic OCI HPC/GPU dr-hpc, qui exécute une série de commandes permettant de vérifier l'état du matériel.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

Une panne a été détectée dans des UC

Classe de panne : CPU

Détails : cette erreur signale l'échec d'un processeur ou de coeurs dans l'instance. L'instance peut être inaccessible ou le nombre de coeurs disponibles peut être inférieur à celui attendu.

Etapes de dépannage :

Si l'instance est inaccessible, vous devez la remplacer en procédant comme indiqué dans Migration active, de redémarrage et manuelle : déplacement d'une instance Compute vers un nouvel hôte.
Si l'instance est disponible, vérifiez le nombre de coeurs attendu :
- Sur les systèmes Linux, exécutez la commande suivante :
```
nproc --all
```
- Sur les systèmes Windows, ouvrez le moniteur de ressources.
Comparez le nombre de coeurs aux valeurs attendues documentées dans Formes de calcul. Si le nombre de coeurs est inférieur à celui attendu et qu'une telle réduction a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte : migration en direct, redémarrage et migration manuelle.

Une panne dans le sous-système de mémoire a été détectée lors du lancement de l'instance ou d'un redémarrage récent

Classe de panne : MEM-BOOT

Détails : cette erreur indique que des modules DIMM en échec ont été détectés dans l'instance lors du lancement ou du redémarrage de cette dernière. Les modules DIMM en échec ont été désactivés.

Etapes de dépannage : la quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte (en direct, au redémarrage et au redémarrage manuel).

Pour vérifier la quantité de mémoire dans l'instance, procédez comme suit :

Sur les systèmes Linux, exécutez la commande suivante :

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

Sur les systèmes Windows, ouvrez le moniteur de ressources.

Les valeurs attendues sont documentées dans Formes de calcul.

Une panne a été détectée dans le sous-système de mémoire

Classe de panne : MEM-RUNTIME

Détails : cette erreur indique que des erreurs non critiques ont été détectées sur un module DIMM dans l'instance. L'instance a peut-être été redémarrée de façon inattendue au cours des dernières 72 heures.

Etapes de dépannage :

Si l'instance a été redémarrée de façon inattendue au cours des dernières 72 heures, des modules DIMM ont peut-être été désactivés. Pour vérifier la quantité totale de mémoire dans l'instance, procédez comme suit :
- Sur les systèmes Linux, exécutez la commande suivante :
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- Sur les systèmes Windows, ouvrez le moniteur de ressources.
Si la mémoire totale de l'instance est inférieure à la valeur attendue, cela signifie que des modules DIMM ont échoué. Si cela a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte (en direct, au redémarrage et au redémarrage manuel).
Si l'instance n'a pas été redémarrée de façon inattendue, le faire présente un risque accru. Lors du prochain redémarrage, des modules DIMM pourraient être désactivés. Nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte en direct, au redémarrage et au redémarrage manuel.

Une panne a été détectée dans le contrôleur de gestion d'instances

Classe de panne : MGMT-CONTROLLER

Détails : cette erreur indique qu'un périphérique utilisé pour gérer l'instance a peut-être échoué. Vous risquez de ne pas pouvoir utiliser la console, l'interface de ligne de commande, les kits SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité restera disponible à partir de l'instance à l'aide des commandes de système d'exploitation standard. Il se peut également que vous ne puissiez pas créer une connexion de console à l'instance. Vous pourrez néanmoins toujours mettre fin à l'instance.

Etapes du dépannage : si cette perte de contrôle a une incidence sur votre application, nous vous recommandons d'effectuer le remplacement de l'instance en respectant les étapes indiquées dans Déplacement d'une instance Compute vers un nouvel hôte.

Une panne a été détectée dans le sous-système PCI

Classe de panne : PCI

Détails : cette erreur indique que des périphériques PCI de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.

Etapes de dépannage :

Si vous ne parvenez pas à vous connecter à l'instance sur le réseau, la carte d'interface réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne des commandes pour arrêter l'instance, puis la démarrer. Pour connaître les étapes à suivre, reportez-vous à Arrêt, démarrage ou redémarrage d'une instance.

Si vous ne parvenez toujours pas à vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes de la section Making a Local Connection to the Console ou de la section Connecting to the VNC Console pour établir une connexion à cette console et redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer en procédant comme indiqué dans Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte
Un périphérique NVMe est peut-être en échec.

Sur les systèmes Linux, exécutez la commande sudo lsblk pour obtenir la liste des périphériques NVMe attachés.

Sur les systèmes Windows, ouvrez le gestionnaire de disque. Comparez le nombre de périphériques NVMe avec le nombre de périphériques attendu dans Formes de calcul.

Si vous déterminez qu'un périphérique NVMe est absent de la liste des périphériques de l'instance, nous vous recommandons d'effectuer le remplacement de l'instance en respectant les étapes indiquées dans Déplacement d'une instance Compute vers un nouvel hôte.

Une panne a été détectée dans la carte d'interface réseau d'instance

Classe de panne : PCI-NIC

Détails : cette erreur indique que des périphériques de carte d'interface réseau de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.

Important

La classe de panne PCI-NIC est en phase d'abandon. Vous devez migrer vers la classe de panne PCI pour obtenir des fonctionnalités similaires.

Etapes de dépannage : si vous ne parvenez pas de vous connecter à l'instance sur le réseau, la carte d'interface réseau peut-être défaillante. Utilisez la console ou l'interface de ligne des commandes pour arrêter l'instance, puis la démarrer. Pour connaître les étapes à suivre, reportez-vous à Arrêt, démarrage ou redémarrage d'une instance.

Si vous ne parvenez toujours pas à vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes de la section Making a Local Connection to the Console ou de la section Connecting to the VNC Console pour établir une connexion à cette console et redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer en procédant comme indiqué dans Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte

Une panne a été détectée dans l'interface réseau définie par logiciel de l'instance

Classe de panne : SDN-INTERFACE

Détails : si vous ne pouvez pas vous connecter à l'instance ou que vous rencontrez des problèmes de fonctions de réseau, le périphérique d'interface réseau défini par logiciel est peut-être en panne

Etapes du dépannage : bien que leredémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte

Documentation Oracle Cloud Infrastructure

Surveillance de l'état de Compute pour les instances Bare Metal

Messages d'erreur et dépannage