Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal

O monitoramento da integridade do serviço Compute para instâncias bare metal é um recurso que fornece notificações sobre problemas do hardware com suas instâncias bare metal. Com o recurso de monitoramento de integridade, você pode monitorar a integridade do hardware de suas instâncias bare metal, incluindo componentes como CPU, placa-mãe, DIMM e unidades NVMe. Você pode usar as notificações para identificar problemas, permitindo que você reimplante de forma proativa suas instâncias para melhorar a disponibilidade.

As notificações de monitoramento de integridade são enviadas por e-mail ao administrador tenant até um dia útil após a ocorrência do erro. Essa advertência ajuda você a tomar uma medida antes de qualquer possível falha de hardware e reimplantar suas instâncias para um hardware íntegro a fim de minimizar o impacto nos seus aplicativos.

Você também pode usar as métricas da integridade de infraestrutura disponíveis no serviço Monitoring para criar alarmes e notificações com base em problemas de hardware.

Mensagens de Erro e Solução de Problemas

Esta seção contém informações sobre as mensagens mais comuns de erro do monitoramento de integridade e fornece sugestões para diagnosticar e diagnosticar e solucionar problemas de uma instância bare metal.

Foi detectado um evento no ambiente do data center, que está impactando este host

Classe de falha: DC_ENVIRONMENT

Detalhes: DC_ENVIRONMENT é um evento que é um problema de data center e não um problema de sistema. Normalmente, o problema é relacionado à energia ou temperatura e também é reparável ao vivo.

Alguns exemplos de problemas que podem causar esse tipo de problema são falha de ventilador em um servidor, falha na unidade de fonte de alimentação ou falha no ar condicionado no data center.

Foi detectada uma falha na GPU

Classe de falha: GPU

Detalhes: Este erro indica que pelo menos uma unidade de processamento gráfico (GPU) com falha foi detectada na instância durante a criação ou execução da instância.

Etapas do diagnóstico e solução de problemas:

Tente uma das seguintes opções de solução de problemas:

Instale a ferramenta de diagnóstico de HPC/GPU do OCI dr-hpc, que executa uma série de comandos que verificam a integridade do hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Execute as ferramentas de diagnóstico dcgm. (Consulte Diretrizes de Depuração de GPU NVIDIA)
```
dcgmi diag -r [1,2,3]
```

Colete os logs de depuração NVIDIA e grep para erros nos logs.

sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis

Foi detectada uma falha no RDMA

Classe de falha: RDMA

Detalhes: Este erro indica que pelo menos uma placa de interface de rede (NIC) RDMA está degradada ou com falha.

Etapas do diagnóstico e solução de problemas:

Tente uma das seguintes opções de solução de problemas:

Instale a ferramenta de diagnóstico de HPC/GPU do OCI dr-hpc, que executa uma série de comandos que verificam a integridade do hardware.

wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm

sudo yum install oci-dr-hpc-latest.el7.noarch.rpm
cd /opt/oci-hpc/oci-dr-hpc/
./oci-dr-hpc run-health-checks

Execute comandos de depuração Mellanox para o NIC.

sudo su
mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }')   for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done

Uma falha foi detectada em uma ou mais CPUs

Classe da falha: CPU

Detalhes: Este erro indica que houve falha em um processador ou em um ou mais núcleos na instância. A instância pode não estar acessível ou pode haver menos núcleos disponíveis do que o esperado.

Etapas do diagnóstico e solução de problemas:

Se a instância estiver inacessível, você deverá substituí-la usando as etapas em Live, Reboot e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
Se a instância estiver disponível, verifique se há o número esperado de núcleos:
- Em sistemas baseados no Linux, execute o seguinte comando:
```
nproc --all
```
- Em sistemas baseados no Windows, abra o Monitor de Recursos.
Compare a contagem de núcleos com os valores esperados documentados em Formas de Computação. Se o número de núcleos for inferior ao esperado e essa redução impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas de Ativo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.

Uma falha no subsistema de memória foi detectada durante a inicialização da instância ou uma reinicialização recente

Classe da falha: MEM-BOOT

Detalhes: Este erro indica que um ou mais DIMMs com falha foram detectados na instância enquanto a instância estava sendo iniciada ou reinicializada. Todos os DIMMs com falhas foram desativados.

Etapas de resolução de problemas: O volume total de memória da instância será inferior ao esperado. Se isso impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas contidas em Ao Vivo, Reinicializando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.

Para verificar o volume de memória na instância:

Em sistemas baseados no Linux, execute o seguinte comando:

awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal

Em sistemas baseados no Windows, abra o Monitor de Recursos.

Os valores esperados são documentados em Formas de Computação.

Foi detectada uma falha no subsistema de memória

Classe da falha: MEM-RUNTIME

Detalhes: Este erro indica que um ou mais erros não críticos foram detectados em um DIMM na instância. A instância pode ter sido reinicializada inesperadamente nas últimas 72 horas.

Etapas do diagnóstico e solução de problemas:

Se a instância tiver sido reinicializada inesperadamente nas últimas 72 horas, um ou mais DIMMs podem ter sido desativados. Para verificar o volume total de memória na instância:
- Em sistemas baseados no Linux, execute o seguinte comando:
```
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal 
```
- Em sistemas baseados no Windows, abra o Monitor de Recursos.
Se a memória total na instância for inferior ao esperado, é porque um ou mais DIMMs apresentaram falha. Se isso impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas contidas em Ao Vivo, Reinicializando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.
Se a instância não foi reinicializada inesperadamente, há um risco maior de isso acontecer. Durante a próxima reinicialização, é possível que um ou mais DIMMs sejam desativados. Recomendamos que você substitua a instância usando as etapas na etapa Conhecendo, Reiniciando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.

Foi detectada uma falha no controlador de gerenciamento de instâncias

Classe da falha: MGMT-CONTROLLER

Detalhes: Esse erro indica que um dispositivo usado para gerenciar a instância pode ter falhado. Talvez você não consiga usar a Console, a CLI, SDKs ou APIs para interromper, iniciar ou reinicializar a instância. Essa funcionalidade ainda estará disponível dentro da instância usando os comandos padrão de sistema operacional. Talvez também não seja possível criar uma conexão de console com a instância. Você ainda poderá encerrar a instância.

Etapas para solucionar problemas: Se essa perda de controle impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas em Migração ao Vivo, de Reinicialização e Manual: Movendo uma Instância de Computação para um Novo Host.

Foi detectada uma falha no subsistema PCI

Classe da falha: PCI

Detalhes: Esse erro indica que um ou mais dispositivos PCI na instância falharam ou não estão operando no pico de desempenho.

Etapas do diagnóstico e solução de problemas:

Se não for possível estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou o CLI para interromper a instância e, em seguida, iniciar a instância. Para obter as etapas, consulte Interrompendo, Iniciando ou Reiniciando uma Instância.

Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas descritas em Fazendo uma Conexão Local com a Console ou Estabelecendo Conexões com a Console VNC para estabelecer uma conexão com a console e, em seguida, reinicializar a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas definidas em Ao Vivo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
Um dispositivo NVMe pode ter falhado.

Em sistemas baseados no Linux, execute o comando sudo lsblk para obter uma lista dos dispositivos NVMe anexados.

Em sistemas baseados no Windows, abra o Disk Manager. Verifique a contagem de dispositivos do NVMe em comparação com o número esperado de dispositivos nas Formas de Computação.

Se você determinar que está faltando um dispositivo NVMe na lista de dispositivos para a instância, recomendamos que você substitua a instância usando as etapas contidas na Levantamento, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.

Foi detectada uma falha na placa de interface de rede (NIC) da instância

Classe de falha: PCI-NIC

Detalhes: Este erro indica que um ou mais dispositivos de NIC (Placa de Interface de Rede) da instância falharam ou não estão operando no desempenho de pico.

Importante

A classe de falha PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.

Etapas de diagnóstico e solução de problemas: Se você não puder estabelecer conexão com a instância pela rede, a NIC poderá ter falhado. Use a Console ou o CLI para interromper a instância e, em seguida, iniciar a instância. Para obter as etapas, consulte Interrompendo, Iniciando ou Reiniciando uma Instância.

Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas descritas em Fazendo uma Conexão Local com a Console ou Estabelecendo Conexões com a Console VNC para estabelecer uma conexão com a console e, em seguida, reinicializar a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas definidas em Ao Vivo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.

Foi detectada uma falha na interface de rede definida pelo software da instância

Classe de falha: SDN-INTERFACE

Detalhes: Se você não puder se conectar à instância ou se estiver tendo problemas com rede, o dispositivo da interface de rede definida por software poderá ter uma falha.

Etapas para a solução de problemas: Embora reiniciar a instância possa resolver temporariamente o problema, recomendamos que você substitua a instância usando as etapas em Ativar, Reinicializar e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.

Documentação do Oracle Cloud Infrastructure

Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal

Mensagens de Erro e Solução de Problemas