Supervisión de estado de recursos informáticos para instancias con hardware dedicado

La supervisión de estado de Compute para instancias con hardware dedicado es una característica que proporciona notificaciones sobre problemas de hardware con sus instancias con hardware dedicado. Con la función de supervisión de estado, puede supervisar el estado del hardware para sus instancias con hardware dedicado, incluidos componentes como la CPU, la placa base, DIMM y las unidades NVMe. Puede utilizar las notificaciones para identificar problemas, lo que le permite volver a desplegar de forma proactiva las instancias para mejorar la disponibilidad.

Las notificaciones de supervisión de estado se envían por correo electrónico al administrador del inquilino en el plazo de un día laborable desde que se produce el error. Esta advertencia le ayuda a realizar la acción necesaria antes de que se produzca cualquier posible fallo de hardware y al volver a desplegar las instancias en un hardware correcto para minimizar el impacto en sus aplicaciones.

También puede utilizar las métricas de estado de infraestructura disponibles en el servicio de supervisión para crear alarmas y notificaciones basadas en incidencias de hardware.

Mensajes de error y resolución de problemas

En esta sección contiene información sobre los mensajes de error de supervisión de estado más comunes y proporciona sugerencias de resolución de problemas para que intente solucionarlos para una instancia con hardware dedicado.

Se ha detectado un evento en el entorno del centro de datos que afecta a este host

Clase de Fallo: DC_ENVIRONMENT

Detalles: DC_ENVIRONMENT es un evento que es un problema del centro de datos y no un problema del sistema. Por lo general, el problema está relacionado con la energía o la temperatura y también es reparable en vivo.

Algunos ejemplos de problemas que pueden causar este tipo de problema son fallo de ventilador en un servidor, fallo de una unidad de fuente de alimentación o fallo de aire acondicionado en el centro de datos.

Se ha detectado un fallo en la GPU

Clase de fallo: GPU

Detalles: este error indica que se ha detectado al menos una unidad de procesamiento de gráficos (GPU) con fallos en la instancia mientras se creaba o ejecutaba la instancia.

Pasos para la resolución de problemas:

Realice cualquiera de las siguientes opciones de resolución de problemas:

Instale la herramienta de diagnóstico de HPC/GPU de OCI dr-hpc, que ejecuta una serie de comandos que comprueban el estado del hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Ejecute las herramientas de diagnóstico dcgm. (Consulte las directrices de depuración de GPU de NVIDIA)
```
dcgmi diag -r [1,2,3]
```

Recopile los logs de depuración de NVIDIA y grep para detectar errores en los logs.

sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis

Se ha detectado un fallo en la RDMA

Clase de fallo: RDMA

Detalles: este error indica que al menos una tarjeta de interfaz de red (NIC) de RDMA está degradada o es defectuosa.

Pasos para la resolución de problemas:

Realice cualquiera de las siguientes opciones de resolución de problemas:

Instale la herramienta de diagnóstico de HPC/GPU de OCI dr-hpc, que ejecuta una serie de comandos que comprueban el estado del hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Ejecute los comandos de depuración de Mellanox para la NIC.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

Se ha detectado un fallo en una o más CPU

Clase de fallo: CPU

Detalles: este error indica que hay un procesador o uno o varios núcleos fallidos en la instancia. Es posible que no se pueda acceder a la instancia o que haya menos núcleos disponibles de los esperados.

Pasos para la resolución de problemas:

Si no se puede acceder a la instancia, debe sustituirla siguiendo los pasos de Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.
Si la instancia está disponible, compruebe el número esperado de núcleos:
- En sistemas basados en Linux, ejecute el siguiente comando:
```
nproc --all
```
- En sistemas basados en Windows, abra el Monitor de recursos.
Compare el número de núcleos con los valores esperados que se documenta en Unidades de computación. Si el número de núcleos es inferior al esperado y esta reducción afecta a la aplicación, se recomienda que sustituya la instancia siguiendo los pasos de Migración activa, de reinicio y manual: movimiento de una instancia informática a un nuevo host.

Se ha detectado un fallo en el subsistema de memoria durante el inicio de la instancia o un reinicio reciente

Clase de fallo: MEM-BOOT

Detalles: este error indica que se han detectado uno o más DIMM fallidos en la instancia cuando esta se estaba iniciando o reiniciando. Los DIMM defectuosos se han desactivado.

Pasos de resolución de problemas: la cantidad total de memoria de la instancia será inferior a la esperada. Si esto afecta a la aplicación, se recomienda que sustituya la instancia siguiendo los pasos de En directo, reinicio y migración manual: movimiento de una instancia informática a un nuevo host.

Para comprobar la cantidad de memoria en la instancia:

En sistemas basados en Linux, ejecute el siguiente comando:

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

En sistemas basados en Windows, abra el Monitor de recursos.

Los valores esperados se documentan en Unidades de computación.

Se ha detectado un fallo en el subsistema de memoria

Clase de fallo: MEM-RUNTIME

Detalles: este error indica que se han detectado uno o más errores no críticos en un DIMM de la instancia. La instancia podría haberse reiniciado inesperadamente en las últimas 72 horas.

Pasos para la resolución de problemas:

Si la instancia se ha reiniciado inesperadamente en las últimas 72 horas, uno o más DIMM podrían haberse desactivado. Para comprobar la cantidad total de memoria en la instancia:
- En sistemas basados en Linux, ejecute el siguiente comando:
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- En sistemas basados en Windows, abra el Monitor de recursos.
Si la memoria total en la instancia es inferior a la esperada, se producirá un fallo en uno o más DIMM. Si esto afecta a la aplicación, se recomienda que reemplace la instancia siguiendo los pasos de Migración activa, de reinicio y manual: movimiento de una instancia informática a un nuevo host.
Si la instancia no se ha reiniciado de forma inesperada, aumenta el riesgo de que ocurra. Durante el siguiente reinicio, es posible que se desactiven uno o varios DIMM. Se recomienda que sustituya la instancia siguiendo los pasos de Migración activa, de reinicio y manual: movimiento de una instancia informática a un nuevo host.

Se ha detectado un fallo en el controlador de gestión de instancias

Clase de fallo: MGMT-CONTROLLER

Detalles: este error indica que un dispositivo utilizado para gestionar la instancia puede haber fallado. Es posible que no pueda utilizar la consola, la CLI, los SDK o las API para parar, iniciar o reiniciar la instancia. Esta funcionalidad seguirá estando disponible desde la instancia mediante los comandos estándar del sistema operativo. También es posible que no pueda crear una conexión de consola con la instancia. Aun así, será posible terminar la instancia.

Pasos para la solución de problemas: si esta pérdida de control afecta a la aplicación, se recomienda que sustituya la instancia siguiendo los pasos de Migración en directo, reinicio y manual: movimiento de una instancia informática a un nuevo host.

Se ha detectado un fallo en el subsistema PCI

Clase de fallo: PCI

Detalles: este error indica que uno o más de los dispositivos PCI de la instancia han fallado o no funcionan a máximo rendimiento.

Pasos para la resolución de problemas:

Si no puede conectarse a la instancia a través de la red, es posible que NIC haya fallado. Use la consola o la CLI para detener la instancia e iniciarla. Para obtener pasos, consulte Parada, inicio o reinicio de una instancia.

Si sigue sin poder conectarse a la instancia a través de la red, es posible que pueda conectarse con ella mediante una conexión de consola. Siga los pasos en Realización de una conexión local a la consola serie o Conexión a la consola VNC para establecer una conexión de consola y, a continuación, reiniciar la instancia. Si no se puede acceder a la instancia, debe sustituirla siguiendo los pasos de En directo, reinicio y migración manual: movimiento de una instancia informática a un nuevo host.
Puede que un dispositivo NVMe haya fallado.

En sistemas basados en Linux, ejecute el comando sudo lsblk para obtener una lista de los dispositivos NVMe asociados.

En los sistemas basados en Windows, abra Disk Manager. Compruebe el recuento de dispositivos NVMe en el número esperado de dispositivos en Unidades de computación.

Si determina que falta un dispositivo NVMe en la lista de dispositivos para la instancia, le recomendamos que reemplace la instancia siguiendo los pasos en En directo, reinicio y migración manual: movimiento de una instancia informática a un nuevo host.

Se ha detectado un error en la tarjeta de interfaz de red de instancia (NIC)

Clase de fallo: PCI-NIC

Detalles: este error indica que uno o varios dispositivos de la tarjeta de interfaz de red (NIC) de la instancia han fallado o no funcionan con el rendimiento máximo.

Importante

La clase de fallo PCI-NIC está en desuso. Debe migrar a la clase de fallo PCI para obtener una funcionalidad similar.

Pasos de solución de problemas: si no puede conectarse a la instancia a través de la red, es posible que la NIC haya fallado. Use la consola o la CLI para detener la instancia e iniciarla. Para obtener pasos, consulte Parada, inicio o reinicio de una instancia.

Si sigue sin poder conectarse a la instancia a través de la red, es posible que pueda conectarse con ella mediante una conexión de consola. Siga los pasos en Realización de una conexión local a la consola serie o Conexión a la consola VNC para establecer una conexión de consola y, a continuación, reiniciar la instancia. Si no se puede acceder a la instancia, debe sustituirla siguiendo los pasos de En directo, reinicio y migración manual: movimiento de una instancia informática a un nuevo host.

Se ha detectado un error en la interfaz de red definida por el software de instancia

Clase de fallo: SDN-INTERFACE

Detalles: si no puede conectarse a la instancia o si está experimentando problemas de red, el dispositivo de interfaz de red definido por el software puede tener un error.

Pasos de solución de problemas: aunque reiniciar la instancia puede resolver temporalmente el problema, se recomienda que reemplace la instancia utilizando los pasos de En directo, reinicio y migración manual: movimiento de una instancia informática a un nuevo host.

Documentación de Oracle Cloud Infrastructure

Supervisión de estado de recursos informáticos para instancias con hardware dedicado

Mensajes de error y resolución de problemas