Monitoraggio dello stato di computazione per le istanze Bare Metal
Il monitoraggio dello stato della computazione per le istanze Bare Metal è una funzione che fornisce notifiche sui problemi hardware relativi alle istanze Bare Metal in uso. La funzione di monitoraggio dello stato ti consente di monitorare lo stato dell'hardware per le tue istanze Bare Metal, inclusi componenti come CPU, scheda madre, DIMM e unità NVMe. È possibile utilizzare le notifiche per identificare i problemi, consentendo di ridistribuire le istanze in modo proattivo per migliorare la disponibilità.
Le notifiche di monitoraggio dello stato vengono inviate via e-mail all'amministratore del tenant entro un giorno lavorativo dall'errore che si verifica. Questa avvertenza consente di intervenire prima di qualsiasi potenziale errore hardware e di ridistribuire le istanze in hardware integro per ridurre al minimo l'impatto sulle applicazioni.
È inoltre possibile utilizzare le metriche di integrità dell'infrastruttura disponibili nel servizio di monitoraggio per creare allarmi e notifiche in base a problemi hardware.
Messaggi di errore e risoluzione dei problemi
Questa sezione contiene informazioni sui messaggi di errore più comuni di monitoraggio dello stato e fornisce suggerimenti per la risoluzione dei problemi da provare per un'istanza Bare Metal.
Classe di errore: DC_ENVIRONMENT
Dettagli: DC_ENVIRONMENT è un evento che è un problema del data center e non di sistema. In genere il problema è legato alla potenza o alla temperatura ed è anche riparabile dal vivo.
Alcuni esempi di problemi che possono causare questo tipo di problema sono: guasto della ventola su un server, guasto di un'unità di alimentazione o guasto del condizionamento dell'aria nel centro dati.
Classe di errore: GPU
Dettagli: questo errore indica che nell'istanza è stata rilevata almeno un'unità di elaborazione grafica (GPU) non riuscita durante la creazione o l'esecuzione dell'istanza.
Passi per la risoluzione dei problemi:
Provare a risolvere uno dei problemi riportati di seguito.
-
Installare lo strumento di diagnostica HPC/GPU OCI
dr-hpc
, che esegue una serie di comandi che controllano lo stato dell'hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Eseguire gli strumenti di diagnostica
dcgm
. (Vedi Linee guida per il debug della GPU NVIDIA)dcgmi diag -r [1,2,3]
-
Raccogliere i log di debug e grep NVIDIA per individuare eventuali errori nei log.
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Classe di errore: RDMA
Dettagli: questo errore indica che almeno una scheda dell'interfaccia di rete RDMA (NIC, Network Interface Card) è danneggiata o difettosa.
Passi per la risoluzione dei problemi:
Provare a risolvere uno dei problemi riportati di seguito.
-
Installare lo strumento di diagnostica HPC/GPU OCI
dr-hpc
, che esegue una serie di comandi che controllano lo stato dell'hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Eseguire i comandi di debug Mellanox per il NIC.
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Classe di errore: CPU
Dettagli: questo errore indica che un processore o una o più memorie centrali non sono riuscite nell'istanza. L'istanza potrebbe non essere accessibile o potrebbero esserci meno memorie centrali disponibili del previsto.
Passi per la risoluzione dei problemi:
-
Se l'istanza non è accessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
-
Se l'istanza è disponibile, verificare il numero previsto di memorie centrali:
-
Sui sistemi basati su Linux, eseguire il comando seguente:
nproc --all
-
Nei sistemi basati su Windows, aprire Resource Monitor.
Confrontare il conteggio delle memorie centrali con i valori previsti documentati in Forme di computazione. Se il numero di memorie centrali è inferiore al previsto e questa riduzione influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti nella sezione Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
-
Classe di errore: MEM-BOOT
Dettagli: questo errore indica che nell'istanza sono stati rilevati uno o più DIMM non riusciti durante l'avvio o il riavvio dell'istanza. Tutti i DIMM non riusciti sono stati disabilitati.
Passi per la risoluzione dei problemi: la quantità totale di memoria nell'istanza sarà inferiore al previsto. Se questo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti nella sezione Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
Per verificare la quantità di memoria nell'istanza:
-
Sui sistemi basati su Linux, eseguire il comando seguente:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Nei sistemi basati su Windows, aprire Resource Monitor.
I valori previsti sono documentati in Forme di computazione.
Classe di errore: MEM-RUNTIME
Dettagli: questo errore indica che sono stati rilevati uno o più errori non critici in un DIMM nell'istanza. È possibile che l'istanza sia stata riavviata in modo imprevisto nelle ultime 72 ore.
Passi per la risoluzione dei problemi:
-
Se l'istanza è stata riavviata in modo imprevisto nelle ultime 72 ore, è possibile che uno o più DIMM siano stati disabilitati. Per verificare la quantità totale di memoria nell'istanza:
-
Sui sistemi basati su Linux, eseguire il comando seguente:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Nei sistemi basati su Windows, aprire Resource Monitor.
Se la memoria totale nell'istanza è inferiore al previsto, uno o più DIMM non sono riusciti. Se questo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando i passi descritti nella sezione Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
-
-
Se l'istanza non è stata riavviata in modo imprevisto, il rischio di tale operazione aumenta. Al successivo reboot, uno o più DIMM potrebbero essere disabilitati. Si consiglia di sostituire l'istanza utilizzando i passi descritti nella sezione Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
Classe di errore: MGMT-CONTROLLER
Dettagli: questo errore indica che un dispositivo utilizzato per gestire l'istanza potrebbe aver avuto esito negativo. Potrebbe non essere possibile utilizzare la console, l'interfaccia CLI, gli SDK o le interfacce API per arrestare, avviare o riavviare l'istanza. Questa funzionalità sarà comunque disponibile dall'interno dell'istanza utilizzando i comandi standard del sistema operativo. Inoltre, potrebbe non essere possibile creare una connessione console all'istanza. Sarà comunque possibile arrestare l'istanza.
Passi per la risoluzione dei problemi: se questa perdita di controllo influisce sull'applicazione, si consiglia di sostituire l'istanza utilizzando la procedura descritta in Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
Classe di errore: PCI
Dettagli: questo errore indica che uno o più dispositivi PCI nell'istanza non sono riusciti o non funzionano al massimo delle prestazioni.
Passi per la risoluzione dei problemi:
-
Se non è possibile connettersi all'istanza tramite la rete, è possibile che la scheda NIC non sia riuscita. Utilizzare la console o l'interfaccia CLI per arrestare l'istanza, quindi avviarla. Per i passi, vedere Arresto, avvio o riavvio di un'istanza.
Se non si è ancora in grado di connettersi all'istanza tramite la rete, potrebbe essere possibile connettersi ad essa utilizzando una connessione console. Attenersi alla procedura descritta in Creazione di una connessione locale alla console seriale o in Connessione alla console VNC per stabilire una connessione alla console, quindi riavviare l'istanza. Se l'istanza rimane inaccessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
-
È possibile che un dispositivo NVMe non sia riuscito.
Sui sistemi basati su Linux, eseguire il comando
sudo lsblk
per ottenere un elenco dei dispositivi NVMe collegati.Nei sistemi basati su Windows, aprire Gestione dischi. Controllare il numero di dispositivi NVMe rispetto al numero previsto di dispositivi in Forme di computazione.
Se si determina la mancanza di un dispositivo NVMe nella lista dei dispositivi per l'istanza, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
Classe di errore: PCI-NIC
Dettagli: questo errore indica che uno o più dispositivi della scheda di interfaccia di rete dell'istanza (NIC) nell'istanza non sono riusciti o non funzionano al massimo delle prestazioni.
La classe di errore
PCI-NIC
è non più valida. Per funzionalità simili, è necessario eseguire la migrazione alla classe di errori PCI
.Passi per la risoluzione dei problemi: se non è possibile connettersi all'istanza tramite la rete, è possibile che la scheda NIC non sia riuscita. Utilizzare la console o l'interfaccia CLI per arrestare l'istanza, quindi avviarla. Per i passi, vedere Arresto, avvio o riavvio di un'istanza.
Se non si è ancora in grado di connettersi all'istanza tramite la rete, potrebbe essere possibile connettersi ad essa utilizzando una connessione console. Attenersi alla procedura descritta in Creazione di una connessione locale alla console seriale o in Connessione alla console VNC per stabilire una connessione alla console, quindi riavviare l'istanza. Se l'istanza rimane inaccessibile, è necessario sostituirla utilizzando i passi descritti in Migrazione attiva, riavviata e manuale: spostamento di un'istanza di computazione in un nuovo host.
Classe di errore: SDN-INTERFACE
Dettagli: se non è possibile connettersi all'istanza o se si verificano problemi di rete, il dispositivo dell'interfaccia di rete definito dal software potrebbe avere un errore.
Passi di risoluzione dei problemi: sebbene il riavvio dell'istanza possa risolvere temporaneamente il problema, si consiglia di sostituire l'istanza utilizzando i passi descritti in Migrazione in tempo reale, riavvio e manuale: spostamento di un'istanza di computazione in un nuovo host.