Monitoraggio dello stato di computazione per le istanze Bare Metal

Il monitoraggio dello stato di computazione per le istanze Bare Metal è una funzione che fornisce notifiche sui problemi hardware con le istanze Bare Metal. La funzione di monitoraggio dello stato consente di monitorare lo stato dell'hardware per le istanze Bare Metal, inclusi componenti quali CPU, scheda madre, DIMM e unità NVMe. È possibile utilizzare le notifiche per identificare i problemi, consentendo di ridistribuire in modo proattivo le istanze per migliorare la disponibilità.

Le notifiche di monitoraggio dello stato vengono inviate all'amministratore del tenant tramite posta elettronica entro un giorno lavorativo dal verificarsi dell'errore. Questa avvertenza consente di intraprendere azioni prima di eventuali errori hardware e di ridistribuire le istanze in hardware integro per ridurre al minimo l'impatto sulle applicazioni.

È inoltre possibile utilizzare le metriche dello stato dell'infrastruttura disponibili nel servizio di monitoraggio per creare allarmi e notifiche in base a problemi hardware.

Messaggi di errore e risoluzione dei problemi

Questa sezione contiene informazioni sui messaggi di errore di monitoraggio dello stato più comuni e fornisce suggerimenti per la risoluzione dei problemi da provare per un'istanza Bare Metal.

È stato rilevato un evento nell'ambiente del centro dati che ha impatto su questo host

Classe di errore: DC_ENVIRONMENT

Dettagli: DC_ENVIRONMENT è un evento che costituisce un problema del data center e non del sistema. In genere il problema è legato alla potenza o alla temperatura ed è anche riparabile in tempo reale.

Alcuni esempi di problemi che possono causare questo tipo di problema sono il guasto della ventola su un server, un guasto dell'unità di alimentazione o il guasto del condizionamento dell'aria nel centro dati.

È stato rilevato un errore nella GPU

Classe di errore: GPU

Dettagli: questo errore indica che nell'istanza è stata rilevata almeno un'unità di elaborazione grafica (GPU) non riuscita durante la creazione o l'esecuzione dell'istanza.

Passi per la risoluzione dei problemi:

Provare una delle seguenti opzioni di risoluzione dei problemi:

Installare lo strumento di diagnostica HPC/GPU OCI dr-hpc, che esegue una serie di comandi che controllano l'integrità dell'hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Esecuzione degli strumenti di diagnostica dcgm. (Vedere Regole di debug della GPU NVIDIA)
```
dcgmi diag -r [1,2,3]
```

Raccogli i log di debug NVIDIA e grep per individuare eventuali errori nei log.

sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis

È stato rilevato un errore nell'RDMA

Classe di errore: RDMA

Dettagli: questo errore indica che almeno una scheda di interfaccia di rete RDMA (NIC, Network Interface Card) è danneggiata o difettosa.

Passi per la risoluzione dei problemi:

Provare una delle seguenti opzioni di risoluzione dei problemi:

Installare lo strumento di diagnostica HPC/GPU OCI dr-hpc, che esegue una serie di comandi che controllano l'integrità dell'hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Eseguire i comandi di debug Mellanox per la scheda di rete.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

È stato rilevato un errore in una o più CPU

Classe di errore: CPU

Dettagli: questo errore indica che un processore o una o più memorie centrali non sono riuscite nell'istanza. L'istanza potrebbe non essere accessibile o potrebbero esserci meno memorie centrali disponibili del previsto.

Passi per la risoluzione dei problemi:

Se l'istanza non è accessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione in tempo reale, riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.
Se l'istanza è disponibile, controllare il numero previsto di memorie centrali:
- Nei sistemi basati su Linux, eseguire il comando seguente:
```
nproc --all
```
- Nei sistemi basati su Windows, aprire Resource Monitor.
Confrontare il conteggio delle memorie centrali con i valori previsti documentati nelle forme di computazione. Se il numero di memorie centrali è inferiore al previsto e questa riduzione influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

È stato rilevato un errore nel sottosistema di memoria durante l'avvio dell'istanza o un riavvio recente

Classe di errore: MEM-BOOT

Dettagli: questo errore indica che una o più DIMM non riuscite sono state rilevate nell'istanza durante l'avvio o l'avvio dell'istanza. Tutti i moduli DIMM non riusciti sono stati disabilitati.

Passi di risoluzione dei problemi: la quantità totale di memoria nell'istanza sarà inferiore al previsto. Se questo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

Per verificare la quantità di memoria nell'istanza:

Nei sistemi basati su Linux, eseguire il comando seguente:

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

Nei sistemi basati su Windows, aprire Resource Monitor.

I valori previsti sono documentati in Forme di computazione.

È stato rilevato un errore nel sottosistema di memoria

Classe di errore: MEM-RUNTIME

Dettagli: questo errore indica che uno o più errori non critici sono stati rilevati su un modulo DIMM nell'istanza. L'istanza potrebbe essere stata riavviata in modo imprevisto nelle ultime 72 ore.

Passi per la risoluzione dei problemi:

Se l'istanza è stata riavviata in modo imprevisto nelle ultime 72 ore, è possibile che uno o più DIMM siano stati disabilitati. Per verificare la quantità totale di memoria nell'istanza:
- Nei sistemi basati su Linux, eseguire il comando seguente:
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- Nei sistemi basati su Windows, aprire Resource Monitor.
Se la memoria totale nell'istanza è inferiore al previsto, uno o più DIMM non sono riusciti. Se questo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.
Se l'istanza non viene riavviata in modo imprevisto, aumenta il rischio di farlo. Durante il reboot successivo, è possibile disabilitare uno o più DIMM. Si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

È stato rilevato un errore nel controller di gestione dell'istanza

Classe di errore: MGMT-CONTROLLER

Dettagli: questo errore indica che un dispositivo utilizzato per gestire l'istanza potrebbe non essere riuscito. Potresti non essere in grado di utilizzare la console, l'interfaccia CLI, gli SDK o le API per interrompere, avviare o riavviare l'istanza. Questa funzionalità sarà ancora disponibile dall'interno dell'istanza utilizzando i comandi standard del sistema operativo. Inoltre, potrebbe non essere possibile creare una connessione della console all'istanza. Sarà comunque possibile terminare l'istanza.

Passi per la risoluzione dei problemi: se questa perdita di controllo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando la procedura descritta in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

È stato rilevato un errore nel sottosistema PCI

Classe di errore: PCI

Dettagli: questo errore indica che uno o più dispositivi PCI nell'istanza sono guasti o non funzionano al massimo delle prestazioni.

Passi per la risoluzione dei problemi:

Se non riesci a connetterti all'istanza attraverso la rete, la NIC potrebbe non essere riuscita. Utilizzare la console o l'interfaccia CLI per arrestare l'istanza, quindi avviarla. Per i passi, vedere Arresto, avvio o riavvio di un'istanza.

Se non sei ancora in grado di connetterti all'istanza tramite la rete, potresti essere in grado di connetterti ad essa utilizzando una connessione console. Attenersi alla procedura descritta in Creazione di una connessione locale alla console o Connessione alla console VNC per stabilire una connessione alla console, quindi eseguire il reboot dell'istanza. Se l'istanza rimane inaccessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione in tempo reale, riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.
È possibile che un dispositivo NVMe non sia riuscito.

Nei sistemi basati su Linux, eseguire il comando sudo lsblk per ottenere una lista dei dispositivi NVMe collegati.

Nei sistemi basati su Windows, aprire Gestione dischi. Controlla il conteggio dei dispositivi NVMe rispetto al numero previsto di dispositivi in Forme di computazione.

Se si stabilisce che un dispositivo NVMe non è presente nella lista dei dispositivi per l'istanza, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

È stato rilevato un errore nella scheda di interfaccia di rete (NIC) dell'istanza

Classe di errore: PCI-NIC

Dettagli: questo errore indica che uno o più dispositivi della scheda di interfaccia di rete dell'istanza (NIC) non sono riusciti o non funzionano al massimo delle prestazioni.

Importante

La classe di errore PCI-NIC è non più valida. Per funzionalità simili, eseguire la migrazione alla classe di errore PCI.

Passi di risoluzione dei problemi: se non è possibile connettersi all'istanza in rete, è possibile che la NIC non sia riuscita. Utilizzare la console o l'interfaccia CLI per arrestare l'istanza, quindi avviarla. Per i passi, vedere Arresto, avvio o riavvio di un'istanza.

Se non sei ancora in grado di connetterti all'istanza tramite la rete, potresti essere in grado di connetterti ad essa utilizzando una connessione console. Attenersi alla procedura descritta in Creazione di una connessione locale alla console o Connessione alla console VNC per stabilire una connessione alla console, quindi eseguire il reboot dell'istanza. Se l'istanza rimane inaccessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione in tempo reale, riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

È stato rilevato un errore nell'interfaccia di rete definita dal software dell'istanza

Classe di errore: SDN-INTERFACE

Dettagli: se non è possibile connettersi all'istanza o se si verificano problemi di rete, il dispositivo di interfaccia di rete definito dal software potrebbe avere un errore.

Passi di risoluzione dei problemi: sebbene il riavvio dell'istanza possa risolvere temporaneamente il problema, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, al riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.

Documentazione dell'infrastruttura Oracle Cloud

Monitoraggio dello stato di computazione per le istanze Bare Metal

Messaggi di errore e risoluzione dei problemi