Surveillance de l'état du service de calcul pour des instances sans système d'exploitation
La surveillance de l'état du service Calcul pour des instances sans système d'exploitation est une fonction qui fournit des avis concernant les problèmes matériels liés aux instances sans système d'exploitation. Grâce à la fonction de surveillance de l'état, vous pouvez surveiller l'état du matériel pour les instances sans système d'exploitation, notamment les composants tels que l'UC, la carte mère, le module DIMM et les lecteurs NVMe. Vous pouvez utiliser les avis pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive les instances pour améliorer la disponibilité.
Les avis de surveillance d'état sont envoyés par courriel à l'administrateur du locataire dans le jour ouvrable suivant l'erreur. Cet avertissement vous aide à entreprendre une action avant toute défaillance matérielle potentielle et à redéployer les instances sur un matériel sain afin de réduire l'incidence d'une défaillance sur les applications.
Vous pouvez également utiliser les mesures de l'état de l'infrastructure disponibles dans le service Surveillance pour créer des alarmes et des avis en fonction des problèmes matériels.
Messages d'erreur et dépannage
Cette section contient des informations sur les messages d'erreur de la surveillance de l'état les plus communs et fournit des suggestions de résolution à essayer pour une instance sans système d'exploitation.
Classe d'erreur : DC_ENVIRONMENT
Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non de système. En général, le problème est lié à la puissance ou à la température et est également réparable en direct.
Quelques exemples de problèmes qui peuvent causer ce type de problème sont une panne de ventilateur sur un serveur, une panne d'unité d'alimentation ou une défaillance de la climatisation dans le centre de données.
Class d'erreur : GPU
Détails : Cette erreur indique qu'au moins une unité de traitement graphique en échec (GPU) a été détectée sur l'instance lors de sa création ou de son exécution.
Étapes de dépannage :
Essayez l'une des options de dépannage suivantes :
-
Installez l'outil de diagnostic HPC/GPU d'OCI
dr-hpc
, qui exécute une série de commandes qui vérifient l'état du matériel.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Exécutez les outils de diagnostic
dcgm
. (Voir les directives de débogage de GPU NVIDIA)dcgmi diag -r [1,2,3]
-
Collectez les journaux de débogage NVIDIA et recherchez les erreurs dans les journaux.
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Class d'erreur : RDMA
Détails : Cette erreur indique qu'au moins une carte d'interface réseau RDMA (NIC) est dégradée ou défectueuse.
Étapes de dépannage :
Essayez l'une des options de dépannage suivantes :
-
Installez l'outil de diagnostic HPC/GPU d'OCI
dr-hpc
, qui exécute une série de commandes qui vérifient l'état du matériel.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Class d'erreur : CPU
Détails : Cette erreur signale l'échec d'un processeur ou d'au moins un coeur dans l'instance. L'instance est peut-être inaccessible ou les coeurs disponibles sont peut-être moins nombreux que prévu.
Étapes de dépannage :
-
Si l'instance est inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
-
Si l'instance est disponible, vérifiez le nombre de coeurs attendu :
-
Sur des systèmes Linux, exécutez la commande suivante :
nproc --all
-
Sur des systèmes Windows, ouvrez le moniteur de ressources.
Comparez le nombre de coeurs aux valeurs attendues documentées sous Formes du service de calcul. Si le nombre de coeurs est inférieur aux valeurs attendues et que cette réduction a une incidence sur votre application, il est recommandé de remplacer l'instance à l'aide des étapes suivantes : Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
-
Class d'erreur : MEM-BOOT
Détails : Cette erreur indique qu'un ou plusieurs modules DIMM en échec ont été détectés dans l'instance alors qu'elle était en cours de lancement ou de redémarrage. Les modules DIMM en échec ont été désactivés.
Étapes de dépannage : La quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Pour vérifier la quantité de mémoire de l'instance :
-
Sur des systèmes Linux, exécutez la commande suivante :
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Sur des systèmes Windows, ouvrez le moniteur de ressources.
Les valeurs attendues sont documentées sous Formes du service de calcul.
Class d'erreur : MEM-RUNTIME
Détails : Cette erreur indique qu'une ou plusieurs erreurs non critiques ont été détectées pour un module DIMM dans l'instance. Il se peut que l'instance ait redémarré de manière inattendue au cours des dernières 72 heures.
Étapes de dépannage :
-
Si l'instance a redémarré de manière inattendue au cours des dernières 72 heures, un ou plusieurs modules DIMM ont peut-être été désactivés. Pour vérifier la quantité totale de mémoire de l'instance :
-
Sur des systèmes Linux, exécutez la commande suivante :
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Sur des systèmes Windows, ouvrez le moniteur de ressources.
Si la mémoire totale de l'instance est inférieure à celle attendue, un ou plusieurs modules DIMM ont échoué. Si cela a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes suivantes : Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
-
-
Si l'instance n'a pas été redémarrée de manière inattendue, le risque que cela se produise augmente. Lors du prochain redémarrage, un ou plusieurs modules DIMM peuvent être désactivés. Nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Class d'erreur : MGMT-CONTROLLER
Détails : Cette erreur indique qu'il y a peut-être eu défaillance d'un appareil utilisé pour gérer l'instance. Vous ne pourrez peut-être pas utiliser la console, l'interface de ligne de commande, les trousses SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité reste quand même disponible à partir de l'instance à l'aide des commandes standard de système d'exploitation. Vous pourrez également ne pas pouvoir créer une connexion à la console pour l'instance. Vous pourrez tout de même mettre fin à l'instance.
Étapes de dépannage : Si cette perte de contrôle a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Class d'erreur : PCI
Détails : Cette erreur indique qu'un ou plusieurs des appareils PCI de l'instance ont échoué ou ne fonctionnent pas à une performance de pointe.
Étapes de dépannage :
-
Si vous ne pouvez pas vous connecter à l'instance au moyen du réseau, la carte d'interface réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour les étapes, voir Arrêt, démarrage ou redémarrage d'une instance.
Si vous ne pouvez toujours pas vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes sous Connexion locale à la console ou Connexion à la console VNC pour établir une connexion à la console, puis redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
-
Il y a peut-être eu défaillance d'un appareil NVMe.
Sur des systèmes Linux, exécutez la commande
sudo lsblk
pour obtenir la liste des appareils NVMe attachés.Sur des systèmes Windows, ouvrez le gestionnaire de disque. Comparez le nombre d'appareils NVMe au nombre d'appareils attendu sous Formes du service de calcul.
Si vous déterminez qu'un appareil NVMe est manquant dans la liste des appareils de l'instance, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Class d'erreur : PCI-NIC
Détails : Cette erreur indique qu'un ou plusieurs appareils de carte d'interface réseau sur l'instance ont échoué ou ne fonctionnent pas à une performance de pointe.
La classe d'erreur
PCI-NIC
est obsolète. Vous devez migrer vers la classe d'erreur PCI
pour une fonctionnalité similaire.Procédures de dépannage : Si vous ne pouvez pas vous connecter à l'instance au moyen du réseau, la carte réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour les étapes, voir Arrêt, démarrage ou redémarrage d'une instance.
Si vous ne pouvez toujours pas vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes sous Connexion locale à la console ou Connexion à la console VNC pour établir une connexion à la console, puis redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.
Class d'erreur : SDN-INTERFACE
Détails : Si vous ne pouvez pas vous connecter à l'instance ou si vous rencontrez des problèmes avec le réseau, l'appareil de l'interface de réseau défini par le logiciel peut être défaillant.
Étapes de dépannage : Bien que le redémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance de calcul vers un nouvel hôte.