Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal
O monitoramento de integridade do serviço Compute para instâncias bare metal é um recurso que fornece notificações sobre problemas de hardware com suas instâncias bare metal. Com o recurso de monitoramento de integridade, você pode monitorar a integridade do hardware de suas instâncias bare metal, incluindo componentes como CPU, placa-mãe, DIMM e unidades NVMe. Você pode usar as notificações para identificar problemas, permitindo que você reimplante de forma proativa suas instâncias para melhorar a disponibilidade.
As notificações de monitoramento de integridade são enviadas por e-mail ao administrador tenant até um dia útil após a ocorrência do erro. Essa advertência ajuda você a tomar uma medida antes de qualquer possível falha de hardware e reimplantar suas instâncias para um hardware íntegro a fim de minimizar o impacto nos seus aplicativos.
Você também pode usar as métricas de integridade da infraestrutura disponíveis no serviço Monitoring para criar alarmes e notificações com base em problemas de hardware.
Mensagens de Erro e Solução de Problemas
Esta seção contém informações sobre as mensagens de erro de monitoramento de integridade mais comuns e fornece sugestões de diagnóstico e solução de problemas para você experimentar em uma instância bare metal.
Classe de falha: DC_ENVIRONMENT
Detalhes: DC_ENVIRONMENT é um evento que é um problema do data center e não um problema do sistema. Normalmente, o problema é relacionado à energia ou temperatura e também é reparável ao vivo.
Alguns exemplos de problemas que podem causar esse tipo de problema são falha do ventilador em um servidor, falha da unidade de fonte de alimentação ou falha de ar condicionado no data center.
Classe da falha: GPU
Detalhes: Esse erro indica que pelo menos uma unidade de processamento gráfico (GPU) com falha foi detectada na instância durante a criação ou execução da instância.
Etapas do diagnóstico e solução de problemas:
Tente qualquer uma das seguintes opções de solução de problemas:
-
Instale a ferramenta de diagnóstico
dr-hpc
de HPC/GPU do OCI, que executa uma série de comandos que verificam a integridade do hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Execute as ferramentas de diagnóstico
dcgm
. (Consulte Diretrizes de Depuração de GPU da NVIDIA)dcgmi diag -r [1,2,3]
-
Colete os logs de depuração NVIDIA e grep para erros nos logs.
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Classe da falha: RDMA
Detalhes: Esse erro indica que pelo menos uma placa de interface de rede (NIC) RDMA está degradada ou com falha.
Etapas do diagnóstico e solução de problemas:
Tente qualquer uma das seguintes opções de solução de problemas:
-
Instale a ferramenta de diagnóstico
dr-hpc
de HPC/GPU do OCI, que executa uma série de comandos que verificam a integridade do hardware.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Execute comandos de depuração Mellanox para o NIC.
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Classe da falha: CPU
Detalhes: Este erro indica que um processador ou um ou mais núcleos falharam na instância. A instância pode não estar acessível ou pode haver menos núcleos disponíveis do que o esperado.
Etapas do diagnóstico e solução de problemas:
-
Se a instância não puder ser acessada, você deverá substituí-la usando as etapas descritas em Live, Reboot e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
-
Se a instância estiver disponível, verifique se há o número esperado de núcleos:
-
Em sistemas baseados no Linux, execute o seguinte comando:
nproc --all
-
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Compare a contagem de núcleos com os valores esperados documentados em Formas de Computação. Se o número de núcleos for menor do que o esperado e essa redução afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.
-
Classe da falha: MEM-BOOT
Detalhes: Esse erro indica que um ou mais DIMMs com falha foram detectados na instância enquanto a instância estava sendo inicializada ou reinicializada. Todos os DIMMs com falhas foram desativados.
Etapas de resolução de problemas: O volume total de memória da instância será inferior ao esperado. Se isso afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Para verificar o volume de memória na instância:
-
Em sistemas baseados no Linux, execute o seguinte comando:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Os valores esperados são documentados em Formas de Computação.
Classe da falha: MEM-RUNTIME
Detalhes: Esse erro indica que um ou mais erros não críticos foram detectados em um DIMM da instância. A instância pode ter sido reinicializada inesperadamente nas últimas 72 horas.
Etapas do diagnóstico e solução de problemas:
-
Se a instância tiver sido reinicializada inesperadamente nas últimas 72 horas, um ou mais DIMMs podem ter sido desativados. Para verificar o volume total de memória na instância:
-
Em sistemas baseados no Linux, execute o seguinte comando:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Em sistemas baseados no Windows, abra o Monitor de Recursos.
Se a memória total na instância for inferior ao esperado, é porque um ou mais DIMMs apresentaram falha. Se isso afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
-
-
Se a instância não foi reinicializada inesperadamente, há um risco maior de isso acontecer. Durante a próxima reinicialização, é possível que um ou mais DIMMs sejam desativados. Recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.
Classe da falha: MGMT-CONTROLLER
Detalhes: Este erro indica que um dispositivo usado para gerenciar a instância pode ter falhado. Talvez você não consiga usar a Console, a CLI, SDKs ou APIs para interromper, iniciar ou reinicializar a instância. Essa funcionalidade ainda estará disponível dentro da instância usando os comandos padrão de sistema operacional. Talvez também não seja possível criar uma conexão de console com a instância. Você ainda poderá encerrar a instância.
Etapas de solução de problemas: Se essa perda de controle afetar seu aplicativo, recomendamos que você substitua a instância usando as etapas descritas em Migração ao Vivo, Reinicialização e Manual: Movendo uma Instância de Computação para um Novo Host.
Classe da falha: PCI
Detalhes: Esse erro indica que um ou mais dos dispositivos PCI da instância falharam ou não estão operando no pico de desempenho.
Etapas do diagnóstico e solução de problemas:
-
Se não for possível estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou a CLI para interromper a instância e, em seguida, inicie a instância. Para obter as etapas, consulte Stopping, Starting, or Restarting an Instance.
Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas em Estabelecendo uma Conexão Local com a Console Serial ou Estabelecendo Conexão com a Console VNC para estabelecer uma conexão da console e, em seguida, reinicialize a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
-
Um dispositivo NVMe pode ter falhado.
Em sistemas baseados no Linux, execute o comando
sudo lsblk
para obter uma lista dos dispositivos NVMe anexados.Em sistemas baseados no Windows, abra o Disk Manager. Verifique a contagem de dispositivos do NVMe em comparação com o número esperado de dispositivos nas Formas de Computação.
Se você determinar que falta um dispositivo NVMe na lista de dispositivos da instância, recomendamos que substitua a instância usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Classe da falha: PCI-NIC
Detalhes: Esse erro indica que um ou mais dos dispositivos NIC (placa de interface de rede) da instância falharam ou não estão operando no desempenho máximo.
A classe de falha
PCI-NIC
está obsoleta. Migre para a classe de falha PCI
para obter uma funcionalidade semelhante.Etapas de solução de problemas: Se você não consegue estabelecer conexão com a instância pela rede, a NIC pode ter falhado. Use a Console ou a CLI para interromper a instância e, em seguida, inicie a instância. Para obter as etapas, consulte Stopping, Starting, or Restarting an Instance.
Se você ainda não conseguir estabelecer conexão com a instância por meio da rede, poderá conectar-se a ela usando uma conexão de console. Siga as etapas em Estabelecendo uma Conexão Local com a Console Serial ou Estabelecendo Conexão com a Console VNC para estabelecer uma conexão da console e, em seguida, reinicialize a instância. Se a instância permanecer inacessível, você deverá substituí-la usando as etapas descritas em Ativo, Reinicialização e Migração Manual: Movendo uma Instância de Computação para um Novo Host.
Classe da falha: SDN-INTERFACE
Detalhes: Se você não puder estabelecer conexão com a instância ou se estiver tendo problemas de rede, o dispositivo de interface de rede definido por software poderá ter uma falha.
Etapas de solução de problemas: Embora a reinicialização da instância possa resolver temporariamente o problema, recomendamos que você substitua a instância usando as etapas descritas em Live, Reboot, and Manual Migration: Moving a Compute Instance to a New Host.