Compute-Zustandsmonitoring für Bare-Metal-Instanzen

Das Compute-Zustandsmonitoring für Bare-Metal-Instanzen ist ein Feature, das Benachrichtigungen über Hardwareprobleme mit Ihren Bare-Metal-Instanzen bereitstellt. Mit dem Zustandsmonitoringfeature können Sie den Zustand der Hardware für Ihre Bare-Metal-Instanzen überwachen, einschließlich Komponenten wie CPU, Motherboard, DIMM und NVMe-Laufwerke. Anhand der Benachrichtigungen können Sie Probleme erkennen und Ihre Instanzen proaktiv erneut bereitstellen, um die Verfügbarkeit zu verbessern.

Zustandsmonitoringbenachrichtigungen werden innerhalb eines Geschäftstages nach Auftreten des Fehlers per E-Mail an den Mandantenadministrator gesendet. Mit dieser Warnung können Sie vor einem potenziellen Hardwarefehler Maßnahmen ergreifen und die Instanzen auf fehlerfreie Hardware erneut bereitstellen, um die Auswirkungen auf Ihre Anwendungen zu minimieren.

Anhand der im Monitoringservice verfügbaren Metriken zum Infrastrukturzustand können Sie auch basierend auf Hardwareproblemen Alarme  und Benachrichtigungen erstellen.

Fehlermeldungen und Fehlerbehebung

Dieser Abschnitt enthält Informationen über die gängigsten Zustandsmonitoringfehlermeldungen sowie Vorschläge zur Fehlerbehebung für Bare-Metal-Instanzen.

Ein Ereignis in der Data Center-Umgebung wurde ermittelt, das sich auf diesen Host auswirkt

Faultklasse: DC_ENVIRONMENT

Details: DC_ENVIRONMENT ist ein Ereignis, bei dem es sich nicht um ein Systemproblem, sondern um ein Data Center-Problem handelt. In der Regel ist das Problem strom- oder temperaturbezogen und kann auch live repariert werden.

Einige Beispiele für Probleme, die zu diesem Problem führen können, sind Lüfterausfälle auf einem Server, ein Ausfall der Stromversorgung oder ein Ausfall der Klimaanlage im Data Center.

In der GPU wurde ein Fault ermittelt

Faultklasse: GPU

Details: Dieser Fehler gibt an, dass bei der Erstellung oder Ausführung der Instanz mindestens eine fehlerhafte Grafikverarbeitungseinheit (GPU) auf der Instanz ermittelt wurde.

Schritte zur Fehlerbehebung:

Führen Sie eine der folgenden Aktionen zur Fehlerbehebung aus:

  • Installieren Sie das OCI-HPC/GPU-Diagnosetool dr-hpc, das eine Reihe von Befehlen ausführt, mit denen der Hardwarezustand geprüft wird.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Führen Sie die Diagnosetools dcgm aus. (Siehe Richtlinien für NVIDIA-GPU-Debugging)
    dcgmi diag -r [1,2,3]
  • Erfassen Sie die NVIDIA-Debug-Logs und Grep für Fehler in den Logs.
    sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Im RDMA wurde ein Fault ermittelt

Faultklasse: RDMA

Details: Dieser Fehler gibt an, dass mindestens eine RDMA-Netzwerkschnittstellenkarte (NIC) herabgestuft oder fehlerhaft ist.

Schritte zur Fehlerbehebung:

Führen Sie eine der folgenden Aktionen zur Fehlerbehebung aus:

  • Installieren Sie das OCI-HPC/GPU-Diagnosetool dr-hpc, das eine Reihe von Befehlen ausführt, mit denen der Hardwarezustand geprüft wird.
    wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
    sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
    cd /opt/oci-hpc/oci-dr-hpc/
    ./oci-dr-hpc run-health-checks
  • Führen Sie Mellanox-Debug-Befehle für die NIC aus.
    sudo su
    mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
In mindestens einer CPU wurde ein Fault ermittelt.

Faultklasse: CPU

Details: Dieser Fehler gibt an, dass ein Prozessor oder mindestens ein Core in der Instanz ausgefallen ist. Entweder können Sie nicht auf die Instanz zugreifen, oder es sind weniger Cores verfügbar als erwartet.

Schritte zur Fehlerbehebung:

Beim Starten der Instanz oder bei einem der letzten Neustarts wurde ein Fault im Speichersubsystem ermittelt.

Faultklasse: MEM-BOOT

Details: Dieser Fehler gibt an, dass in der Instanz mindestens ein fehlerhaftes DIMM ermittelt wurde, während die Instanz gestartet oder neu gestartet wurde. Alle fehlerhaften DIMMs wurden deaktiviert.

Schritte zur Fehlerbehebung: Der Gesamt-Arbeitsspeicherkapazität in der Instanz ist niedriger als erwartet. Wenn sich dies auf die Anwendung auswirkt, wird empfohlen, dass Sie die Instanz mit den Schritten unter Live, Neustart und manuelle Migration: Compute-Instanzen auf neuen Host verschieben ersetzen.

So prüfen Sie die Arbeitsspeicherkapazität in der Instanz:

  • Führen Sie auf Linux-basierten Systemen den folgenden Befehl aus:

    awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
  • Öffnen Sie auf Windows-basierten Systemen den Ressourcenmonitor.

Die erwarteten Werte sind unter Compute-Ausprägungen dokumentiert.

Im Arbeitsspeicher-Subsystem wurde ein Fault ermittelt.

Faultklasse: MEM-RUNTIME

Details: Dieser Fehler gibt an, dass bei einem DIMM in der Instanz mindestens ein nicht kritischer Fehler ermittelt wurde. Die Instanz wurde möglicherweise in den letzten 72 Stunden unerwartet neu gestartet.

Schritte zur Fehlerbehebung:

  • Wenn die Instanz während der letzten 72 Stunden unerwartet neu gestartet wurde, wurde möglicherweise mindestens ein DIMM deaktiviert. So prüfen Sie die Gesamt-Arbeitsspeicherkapazität in der Instanz:

    • Führen Sie auf Linux-basierten Systemen den folgenden Befehl aus:

      awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
    • Öffnen Sie auf Windows-basierten Systemen den Ressourcenmonitor.

    Wenn der Gesamtarbeitsspeicher in der Instanz niedriger ist als erwartet, ist mindestens ein DIMM fehlerhaft. Wenn sich dies auf die Anwendung auswirkt, wird empfohlen, dass Sie die Instanz mit den Schritten unter Live, Neustart und manuelle Migration: Compute-Instanzen auf neuen Host verschieben ersetzen.

  • Wenn die Instanz nicht unerwartet neu gestartet wurde, besteht dafür ein erhöhtes Risiko. Beim nächsten Neustart wird möglicherweise mindestens ein DIMM deaktiviert. Wir empfehlen, die Instanz mit den Schritten unter Live, Neustart und manuelle Migration: Compute-Instanzen auf neuen Host verschieben zu ersetzen.

Im Instanzverwaltungscontroller wurde ein Fault ermittelt.

Faultklasse: MGMT-CONTROLLER

Details: Dieser Fehler gibt an, dass ein Gerät für die Verwaltung der Instanz möglicherweise ausgefallen ist. Möglicherweise können Sie die Instanz nicht mit der Konsole, der CLI, den SDKs oder APIs stoppen, starten oder neu starten. Diese Funktionalität ist weiterhin innerhalb der Instanz über die Standardbefehle des Betriebssystems verfügbar. Möglicherweise können Sie zudem keine Konsolenverbindung zur Instanz erstellen. Sie können die Instanz dennoch beenden.

Schritte zur Fehlerbehebung: Wenn sich dieser Kontrollverlust auf die Anwendung auswirkt, wird empfohlen, dass Sie die Instanz mit den Schritten unter Live, Neustart und manuelle Migration: Compute-Instanzen auf neuen Host verschieben ersetzen.

Im PCI-Subsystem wurde ein Fault ermittelt.

Faultklasse: PCI

Details: Dieser Fehler gibt an, dass mindestens ein PCI-Gerät in der Instanz ausgefallen ist oder nicht mit maximaler Performance arbeitet.

Schritte zur Fehlerbehebung:

Ein Fault in der Netzwerkkarte (NIC) der Instanz wurde erkannt

Faultklasse: PCI-NIC

Details: Dieser Fehler gibt an, dass eine oder mehrere Netzwerkkarten (NICs) der Instanz ausgefallen sind oder nicht mit Spitzenperformance arbeiten.

Wichtig

Die Faultklasse PCI-NIC ist veraltet. Migrieren Sie zur Faultklasse PCI, um eine ähnliche Funktionalität zu erhalten.

Fehlerbehebungsschritte: Wenn Sie über das Netzwerk keine Verbindung zur Instanz herstellen können, ist die NIC möglicherweise ausgefallen. Stoppen und starten Sie die Instanz mit der Konsole oder CLI. Die Schritte finden Sie unter Instanzen stoppen, starten oder neu starten.

Wenn Sie weiterhin über das Netzwerk keine Verbindung zur Instanz herstellen können, können Sie möglicherweise über eine Konsolenverbindung eine Verbindung herstellen. Befolgen Sie die Schritte unter Lokale Verbindung zur seriellen Konsole herstellen oder Verbindung zur VNC-Konsole herstellen, um eine Konsolenverbindung herzustellen und die Instanz dann neu zu starten. Wenn Sie weiterhin nicht auf die Instanz zugreifen können, müssen Sie sie mit den Schritten unter Live, Neustart und manuelle Migration: Compute-Instanzen auf neuen Host verschieben ersetzen.

Ein Fault in der von der Instanzsoftware definierten Netzwerkschnittstelle wurde erkannt

Faultklasse: SDN-INTERFACE

Details: Wenn Sie keine Verbindung zur Instanz herstellen können oder wenn Netzwerkprobleme auftreten, ist das softwaredefinierte Netzwerkschnittstellengerät möglicherweise fehlerhaft.

Fehlerbehebungsschritte: Obwohl sich das Problem durch Neustarten der Instanz möglicherweise vorübergehend beheben lässt, empfehlen wir, die Instanz wie unter Live-, Neustart- und manuelle Migration: Compute-Instanzen auf neuen Host verschieben beschrieben zu ersetzen.