Surveillance de l'état du service de calcul pour des instances sans système d'exploitation

La surveillance de l'état du service Calcul pour des instances sans système d'exploitation est une fonction qui fournit des avis concernant les problèmes matériels liés aux instances sans système d'exploitation. Grâce à la fonction de surveillance de l'état, vous pouvez surveiller l'état du matériel pour les instances sans système d'exploitation, notamment les composants tels que l'UC, la carte mère, le module DIMM et les lecteurs NVMe. Vous pouvez utiliser les avis pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive les instances pour améliorer la disponibilité.

Les avis de surveillance d'état sont envoyés par courriel à l'administrateur du locataire dans le jour ouvrable suivant l'erreur. Cet avertissement vous aide à entreprendre une action avant toute défaillance matérielle potentielle et à redéployer les instances sur un matériel sain afin de réduire l'incidence d'une défaillance sur les applications.

Vous pouvez également utiliser les mesures de l'état de l'infrastructure disponibles dans le service Surveillance pour créer des alarmes et des avis en fonction des problèmes matériels.

Messages d'erreur et dépannage

Cette section contient des informations sur les messages d'erreur de la surveillance de l'état les plus communs et fournit des suggestions de résolution à essayer pour une instance sans système d'exploitation.

Un événement dans l'environnement du centre de données a été détecté, ce qui a une incidence sur cet hôte

Classe d'erreur : DC_ENVIRONMENT

Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non de système. En général, le problème est lié à la puissance ou à la température et est également réparable en direct.

Quelques exemples de problèmes qui peuvent causer ce type de problème sont une panne de ventilateur sur un serveur, une panne d'unité d'alimentation ou une défaillance de la climatisation dans le centre de données.

Une erreur a été détectée dans le GPU

Class d'erreur : GPU

Détails : Cette erreur indique qu'au moins une unité de traitement graphique en échec (GPU) a été détectée sur l'instance lors de sa création ou de son exécution.

Étapes de dépannage :

Essayez l'une des options de dépannage suivantes :

  • Installez l'outil de diagnostic HPC/GPU d'OCI dr-hpc, qui exécute une série de commandes qui vérifient l'état du matériel.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Exécutez les outils de diagnostic dcgm. (Voir les directives de débogage de GPU NVIDIA)
    dcgmi diag -r [1,2,3]
  • Collectez les journaux de débogage NVIDIA et recherchez les erreurs dans les journaux.
    sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Une erreur a été détectée dans la RDMA

Class d'erreur : RDMA

Détails : Cette erreur indique qu'au moins une carte d'interface réseau RDMA (NIC) est dégradée ou défectueuse.

Étapes de dépannage :

Essayez l'une des options de dépannage suivantes :

  • Installez l'outil de diagnostic HPC/GPU d'OCI dr-hpc, qui exécute une série de commandes qui vérifient l'état du matériel.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.
    sudo su
    mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Une erreur a été détectée dans une ou plusieurs UC

Class d'erreur : CPU

Détails : Cette erreur signale l'échec d'un processeur ou d'au moins un coeur dans l'instance. L'instance est peut-être inaccessible ou les coeurs disponibles sont peut-être moins nombreux que prévu.

Étapes de dépannage :

Une erreur a été détectée dans le sous-système de mémoire lors du lancement ou d'un redémarrage récent de l'instance

Class d'erreur : MEM-BOOT

Détails : Cette erreur indique qu'un ou plusieurs modules DIMM en échec ont été détectés dans l'instance alors qu'elle était en cours de lancement ou de redémarrage. Les modules DIMM en échec ont été désactivés.

Étapes de dépannage : La quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Pour vérifier la quantité de mémoire de l'instance :

  • Sur des systèmes Linux, exécutez la commande suivante :

    awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
  • Sur des systèmes Windows, ouvrez le moniteur de ressources.

Les valeurs attendues sont documentées sous Formes du service de calcul.

Une erreur a été détectée dans le sous-système de mémoire

Class d'erreur : MEM-RUNTIME

Détails : Cette erreur indique qu'une ou plusieurs erreurs non critiques ont été détectées pour un module DIMM dans l'instance. Il se peut que l'instance ait redémarré de manière inattendue au cours des dernières 72 heures.

Étapes de dépannage :

Une erreur a été détectée dans le contrôleur de gestion d'instances

Class d'erreur : MGMT-CONTROLLER

Détails : Cette erreur indique qu'il y a peut-être eu défaillance d'un appareil utilisé pour gérer l'instance. Vous ne pourrez peut-être pas utiliser la console, l'interface de ligne de commande, les trousses SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité reste quand même disponible à partir de l'instance à l'aide des commandes standard de système d'exploitation. Vous pourrez également ne pas pouvoir créer une connexion à la console pour l'instance. Vous pourrez tout de même mettre fin à l'instance.

Étapes de dépannage : Si cette perte de contrôle a une incidence sur votre application, nous vous recommandons de remplacer l'instance à l'aide des étapes décrites sous Migration en direct, au démarrage et manuelle : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur a été détectée dans le sous-système PCI

Class d'erreur : PCI

Détails : Cette erreur indique qu'un ou plusieurs des appareils PCI de l'instance ont échoué ou ne fonctionnent pas à une performance de pointe.

Étapes de dépannage :

Une erreur de la carte d'interface réseau (NIC) d'instance a été détectée

Class d'erreur : PCI-NIC

Détails : Cette erreur indique qu'un ou plusieurs appareils de carte d'interface réseau sur l'instance ont échoué ou ne fonctionnent pas à une performance de pointe.

Important

La classe d'erreur PCI-NIC est obsolète. Vous devez migrer vers la classe d'erreur PCI pour une fonctionnalité similaire.

Procédures de dépannage : Si vous ne pouvez pas vous connecter à l'instance au moyen du réseau, la carte réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne de commande pour arrêter l'instance, puis la démarrer. Pour les étapes, voir Arrêt, démarrage ou redémarrage d'une instance.

Si vous ne pouvez toujours pas vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes sous Connexion locale à la console ou Connexion à la console VNC pour établir une connexion à la console, puis redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer à l'aide des étapes décrites sous Migration en direct, redémarrage et manuel : Déplacement d'une instance du service de calcul vers un nouvel hôte.

Une erreur de l'interface réseau définie par le logiciel de l'instance a été détectée

Class d'erreur : SDN-INTERFACE

Détails : Si vous ne pouvez pas vous connecter à l'instance ou si vous rencontrez des problèmes avec le réseau, l'appareil de l'interface de réseau défini par le logiciel peut être défaillant.

Étapes de dépannage : Bien que le redémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes sous Migration en direct, redémarrage et manuel : Déplacement d'une instance de calcul vers un nouvel hôte.