Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal
O monitoramento de integridade do serviço Compute para instâncias bare metal é um recurso que fornece notificações sobre problemas de hardware com suas instâncias bare metal. Com o recurso de monitoramento de integridade, você pode monitorar a integridade do hardware de suas instâncias bare metal, incluindo componentes como CPU, placa-mãe, DIMM e unidades NVMe. Você pode usar as notificações para identificar problemas, permitindo que você reimplante de forma proativa suas instâncias para melhorar a disponibilidade.
As notificações de monitoramento de integridade são enviadas por e-mail ao administrador tenant até um dia útil após a ocorrência do erro. Essa advertência ajuda você a tomar uma medida antes de qualquer possível falha de hardware e reimplantar suas instâncias para um hardware íntegro a fim de minimizar o impacto nos seus aplicativos.
Você também pode usar as métricas da integridade de infraestrutura disponíveis no serviço Monitoring para criar alarmes e notificações com base em problemas de hardware.
Mensagens de Erro e Solução de Problemas
Esta seção contém informações sobre as mensagens de erro de monitoramento de integridade mais comuns e fornece sugestões de diagnóstico e solução de problemas para você experimentar em uma instância bare metal.
Classe de falha: DC_ENVIRONMENT
Detalhes: DC_ENVIRONMENT é um evento que é um problema do data center e não um problema do sistema. Normalmente, o problema é relacionado à energia ou temperatura e também é reparável ao vivo.
Alguns exemplos de problemas que podem causar esse tipo de problema são falha do ventilador em um servidor, falha da unidade de fonte de alimentação ou falha de ar condicionado no data center.
Classe da falha: GPU
Detalhes: Esse erro indica que pelo menos uma unidade de processamento gráfico (GPU) com falha foi detectada na instância durante a criação ou execução da instância.
Etapas do diagnóstico e solução de problemas:
Tente qualquer uma das seguintes opções de solução de problemas:
-
Instale a ferramenta de diagnóstico HPC/GPU do OCI
dr-hpc, que executa uma série de comandos que verificam a integridade do hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpmsudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks - Execute as ferramentas de diagnóstico
dcgm. (Consulte Diretrizes de Depuração de GPU NVIDIA)dcgmi diag -r [1,2,3] -
Colete os logs de depuração NVIDIA e grep para erros nos logs.
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Classe da falha: RDMA
Detalhes: Esse erro indica que pelo menos uma placa de interface de rede (NIC) RDMA está degradada ou com falha.
Etapas do diagnóstico e solução de problemas:
Tente qualquer uma das seguintes opções de solução de problemas:
-
Instale a ferramenta de diagnóstico HPC/GPU do OCI
dr-hpc, que executa uma série de comandos que verificam a integridade do hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpmsudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks - Execute comandos de depuração Mellanox para o NIC.
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Classe da falha: CPU
Detalhes: Este erro indica que um processador ou um ou mais núcleos falharam na instância. A instância pode não estar acessível ou pode haver menos núcleos disponíveis do que o esperado.
Etapas do diagnóstico e solução de problemas:
-
Se a instância estiver inacessível, você deverá substituí-la usando as etapas em Live, Reboot e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
-
Se a instância estiver disponível, verifique se há o número esperado de núcleos:
-
Em sistemas baseados no Linux, execute o seguinte comando:
nproc --all -
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Compare a contagem de núcleos com os valores esperados documentados em Formas de Computação. Se o número de núcleos for inferior ao esperado e essa redução impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas de Ativo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
-
Classe da falha: MEM-BOOT
Detalhes: Esse erro indica que um ou mais DIMMs com falha foram detectados na instância enquanto a instância estava sendo inicializada ou reinicializada. Todos os DIMMs com falhas foram desativados.
Etapas de resolução de problemas: O volume total de memória da instância será inferior ao esperado. Se isso impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas contidas em Ao Vivo, Reinicializando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.
Para verificar o volume de memória na instância:
-
Em sistemas baseados no Linux, execute o seguinte comando:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal -
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Os valores esperados são documentados em Formas de Computação.
Classe da falha: MEM-RUNTIME
Detalhes: Esse erro indica que um ou mais erros não críticos foram detectados em um DIMM da instância. A instância pode ter sido reinicializada inesperadamente nas últimas 72 horas.
Etapas do diagnóstico e solução de problemas:
-
Se a instância tiver sido reinicializada inesperadamente nas últimas 72 horas, um ou mais DIMMs podem ter sido desativados. Para verificar o volume total de memória na instância:
-
Em sistemas baseados no Linux, execute o seguinte comando:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal -
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Se a memória total na instância for inferior ao esperado, é porque um ou mais DIMMs apresentaram falha. Se isso impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas contidas em Ao Vivo, Reinicializando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.
-
-
Se a instância não foi reinicializada inesperadamente, há um risco maior de isso acontecer. Durante a próxima reinicialização, é possível que um ou mais DIMMs sejam desativados. Recomendamos que você substitua a instância usando as etapas na etapa Conhecendo, Reiniciando e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.
Classe da falha: MGMT-CONTROLLER
Detalhes: Este erro indica que um dispositivo usado para gerenciar a instância pode ter falhado. Talvez você não consiga usar a Console, a CLI, SDKs ou APIs para interromper, iniciar ou reinicializar a instância. Essa funcionalidade ainda estará disponível dentro da instância usando os comandos padrão de sistema operacional. Talvez também não seja possível criar uma conexão de console com a instância. Você ainda poderá encerrar a instância.
Etapas para solucionar problemas: Se essa perda de controle impactar seu aplicativo, recomendamos que você substitua a instância usando as etapas em Migração ao Vivo, de Reinicialização e Manual: Movendo uma Instância de Computação para um Novo Host.
Classe da falha: PCI
Detalhes: Esse erro indica que um ou mais dos dispositivos PCI da instância falharam ou não estão operando no pico de desempenho.
Etapas do diagnóstico e solução de problemas:
-
Se não for possível estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou o CLI para interromper a instância e, em seguida, iniciar a instância. Para obter as etapas, consulte Interrompendo, Iniciando ou Reiniciando uma Instância.
Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas descritas em Fazendo uma Conexão Local com a Console ou Estabelecendo Conexões com a Console VNC para estabelecer uma conexão com a console e, em seguida, reinicializar a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas definidas em Ao Vivo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
-
Um dispositivo NVMe pode ter falhado.
Em sistemas baseados no Linux, execute o comando
sudo lsblkpara obter uma lista dos dispositivos NVMe anexados.Em sistemas baseados no Windows, abra o Disk Manager. Verifique a contagem de dispositivos do NVMe em comparação com o número esperado de dispositivos nas Formas de Computação.
Se você determinar que está faltando um dispositivo NVMe na lista de dispositivos para a instância, recomendamos que você substitua a instância usando as etapas contidas nas etapas Cabeçalho, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Classe da falha: PCI-NIC
Detalhes: Esse erro indica que um ou mais dos dispositivos NIC (placa de interface de rede) da instância falharam ou não estão operando no desempenho máximo.
A classe de falha
PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.Etapas de diagnóstico e solução de problemas: Se você não puder estabelecer conexão com a instância pela rede, a NIC poderá ter falhado. Use a Console ou o CLI para interromper a instância e, em seguida, iniciar a instância. Para obter as etapas, consulte Interrompendo, Iniciando ou Reiniciando uma Instância.
Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas descritas em Fazendo uma Conexão Local com a Console ou Estabelecendo Conexões com a Console VNC para estabelecer uma conexão com a console e, em seguida, reinicializar a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas definidas em Ao Vivo, Reinicialização e Migração Manual: Movendo uma Instância do Compute para um Novo Host.
Classe da falha: SDN-INTERFACE
Detalhes: Se você não puder estabelecer conexão com a instância ou se estiver tendo problemas de rede, o dispositivo de interface de rede definido por software poderá ter uma falha.
Estas etapas para a solução de problemas: Embora reiniciar a instância possa resolver temporariamente o problema, recomendamos que você substitua a instância por meio das etapas em Ativar, Reinicializar e Migração Manual: Movendo uma Instância do Serviço Compute para um Novo Host.