Surveillance de l'état du service de calcul pour des instances sans système d'exploitation

La surveillance de l'état du service Calcul pour des instances sans système d'exploitation est une fonction qui fournit des avis concernant les problèmes matériels liés aux instances sans système d'exploitation. Grâce à la fonction de surveillance de l'état, vous pouvez surveiller l'état du matériel pour les instances sans système d'exploitation, notamment les composants tels que l'UC, la carte mère, le module DIMM et les lecteurs NVMe. Vous pouvez utiliser les avis pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive les instances pour améliorer la disponibilité.

Les avis de surveillance d'état sont envoyés par courriel à l'administrateur du locataire dans le jour ouvrable suivant l'erreur. Cet avertissement vous aide à entreprendre une action avant toute défaillance matérielle potentielle et à redéployer les instances sur un matériel sain afin de réduire l'incidence d'une défaillance sur les applications.

Vous pouvez également utiliser les mesures de l'état de l'infrastructure disponibles dans le service Surveillance pour créer des alarmes et des avis en fonction des problèmes matériels.

Messages d'erreur et dépannage

Cette section contient des informations sur les messages d'erreur de la surveillance de l'état les plus communs et fournit des suggestions de dépannage à essayer pour une instance sans système d'exploitation.

Un événement dans l'environnement du centre de données a été détecté, ce qui a une incidence sur cet hôte

Classe d'erreur : DC_ENVIRONMENT

Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non un problème de système. Généralement, le problème est lié à la puissance ou à la température et est également réparable en direct.

Quelques exemples de problèmes qui peuvent causer ce type de problème sont une défaillance du ventilateur sur un serveur, une défaillance de l'unité d'alimentation ou la climatisation échoue dans le centre de données.

Une erreur dans le GPU a été détectée

classe d'erreur : GPU

Détails : Cette erreur indique qu'au moins une unité de traitement graphique (GPU) en échec a été détectée sur l'instance lors de sa création ou de son exécution.

Étapes de dépannage :

Essayez l'une des options de dépannage suivantes :

Installez l'outil de diagnostic de calcul de haute performance/processeur graphique d'OCI dr-hpc, qui exécute une série de commandes pour vérifier l'état du matériel.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Exécutez les outils de diagnostic dcgm. (Voir Directives de débogage de processeur graphique NVIDIA)
```
dcgmi diag -r [1,2,3]
```
Collectez les journaux de débogage NVIDIA et Grep pour détecter les erreurs dans les journaux.
```
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
```

Une erreur dans le RDMA a été détectée

classe d'erreur : RDMA

Détails : Cette erreur indique qu'au moins une carte d'interface réseau (NIC) RDMA est dégradée ou défectueuse.

Étapes de dépannage :

Essayez l'une des options de dépannage suivantes :

Installez l'outil de diagnostic de calcul de haute performance/processeur graphique d'OCI dr-hpc, qui exécute une série de commandes pour vérifier l'état du matériel.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

Une erreur a été détectée dans une ou plusieurs UC

classe d'erreur : CPU

Détails : Cette erreur indique l'échec d'un processeur ou d'au moins un coeur dans l'instance. L'instance est peut-être inaccessible ou les coeurs disponibles sont peut-être moins nombreux que prévu.

Étapes de dépannage :

Si l'instance est inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Si l'instance est disponible, vérifiez le nombre de coeurs attendu :
- Sur des systèmes Linux, exécutez la commande suivante :
```
nproc --all
```
- Sur des systèmes Windows, ouvrez le moniteur de ressources.
Comparez le nombre de coeurs aux valeurs attendues documentées sous Formes du service de calcul. Si le nombre de coeurs est inférieur aux valeurs attendues et que cette réduction a une incidence sur votre application, il est recommandé de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, avec redémarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur a été détectée dans le sous-système de mémoire lors du lancement ou d'un redémarrage récent de l'instance

classe d'erreur : MEM-BOOT

Détails : Cette erreur indique qu'un ou plusieurs modules DIMM en échec ont été détectés dans l'instance alors qu'elle était en cours de lancement ou de redémarrage. Les modules DIMM en échec ont été désactivés.

Étapes de dépannage : La quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Pour vérifier la quantité de mémoire de l'instance :

Sur des systèmes Linux, exécutez la commande suivante :

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

Sur des systèmes Windows, ouvrez le moniteur de ressources.

Les valeurs attendues sont documentées sous Formes du service de calcul.

Une erreur a été détectée dans le sous-système de mémoire

classe d'erreur : MEM-RUNTIME

Détails : Cette erreur indique qu'une ou plusieurs erreurs non critiques ont été détectées pour un module DIMM dans l'instance. Il se peut que l'instance ait redémarré de manière inattendue au cours des dernières 72 heures.

Étapes de dépannage :

Si l'instance a redémarré de manière inattendue au cours des dernières 72 heures, un ou plusieurs modules DIMM ont peut-être été désactivés. Pour vérifier la quantité totale de mémoire de l'instance :
- Sur des systèmes Linux, exécutez la commande suivante :
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- Sur des systèmes Windows, ouvrez le moniteur de ressources.
Si la mémoire totale de l'instance est inférieure à celle attendue, un ou plusieurs modules DIMM ont échoué. Si cela a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Si l'instance n'a pas été redémarrée de manière inattendue, le risque que cela se produise augmente. Lors du prochain redémarrage, un ou plusieurs modules DIMM peuvent être désactivés. Nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur a été détectée dans le contrôleur de gestion d'instances

classe d'erreur : MGMT-CONTROLLER

Détails : Cette erreur indique que l'appareil utilisé pour gérer l'instance a peut-être échoué. Vous ne pourrez peut-être pas utiliser la console, l'interface de ligne de commande, les trousses SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité reste quand même disponible à partir de l'instance à l'aide des commandes standard de système d'exploitation. Vous pourrez également ne pas pouvoir créer une connexion à la console pour l'instance. Vous pourrez tout de même mettre fin à l'instance.

Étapes de dépannage : Si cette perte de contrôle a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur a été détectée dans le sous-système PCI

classe d'erreur : PCI

Détails : Cette erreur indique qu'un ou plusieurs des appareils PCI de l'instance ont échoué ou ne fonctionnent pas à une performance de pointe.

Étapes de dépannage :

Si vous ne pouvez pas vous connecter à l'instance au moyen du réseau, la carte d'interface réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour les étapes, voir Arrêt, démarrage ou redémarrage d'une instance.

Si vous ne pouvez toujours pas vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes sous Connexion locale à la console ou Connexion à la console VNC pour établir une connexion à la console, puis redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Il y a peut-être eu défaillance d'un appareil NVMe.

Sur des systèmes Linux, exécutez la commande sudo lsblk pour obtenir la liste des appareils NVMe attachés.

Sur des systèmes Windows, ouvrez le gestionnaire de disque. Comparez le nombre d'appareils NVMe au nombre d'appareils attendu sous Formes du service de calcul.

Si vous déterminez qu'un appareil NVMe est manquant dans la liste des appareils de l'instance, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, redémarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur de la carte d'interface réseau (NIC) d'instance a été détectée

classe d'erreur : PCI-NIC

Détails : Cette erreur indique qu'un ou plusieurs appareils de la carte d'interface réseau sur l'instance ont échoué ou ne fonctionnent pas à une performance maximale.

Important

La classe d'erreur PCI-NIC est obsolète. Vous devez migrer vers la classe d'erreur PCI pour une fonctionnalité similaire.

Procédures de dépannage : Si vous ne pouvez pas vous connecter à l'instance au moyen du réseau, la carte réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour les étapes, voir Arrêt, démarrage ou redémarrage d'une instance.

Si vous ne pouvez toujours pas vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes sous Connexion locale à la console ou Connexion à la console VNC pour établir une connexion à la console, puis redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur de l'interface réseau définie par le logiciel de l'instance a été détectée

classe d'erreur : SDN-INTERFACE

Détails : Si vous ne pouvez pas vous connecter à l'instance ou si vous rencontrez des problèmes avec le réseau, l'appareil de l'interface de réseau défini par le logiciel peut être défaillant.

Étapes de dépannage : Bien que le redémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance de calcul vers un nouvel hôte.

Documentation sur Oracle Cloud Infrastructure

Surveillance de l'état du service de calcul pour des instances sans système d'exploitation

Messages d'erreur et dépannage