Métricas de Computação de Alto Desempenho

O Oracle Cloud Infrastruture fornece métricas especializadas para melhorar a visibilidade do desempenho das instâncias de HPC.

As métricas de HPC são semelhantes às métricas padrão da instância de computação. No entanto, as métricas de HPC só estão disponíveis em instâncias que têm o plug-in de HPC com o monitoramento de GPU e RDMA ativado e estão localizadas nos namespaces de cliente gpu_infrastructure_health e rdma_infrastructure_health. Consulte Métricas da Instância do Serviço Compute para obter detalhes sobre como acessar e gerenciar métricas de computação.

Métricas Disponíveis: gpu_infrastructure_health

As métricas de instância de computação ajudam a medir a atividade e o throughput de instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace da métrica gpu_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente
GPU ou rdma_nic
timestamp
Horário UTC em que o payload/heartbeat é emitido
versão
O número da versão do payload para compatibilidade
Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
GpuUtilization Utilização da GPU percentual

Nível de atividade da GPU. Expresso como um percentual do tempo total.

Para pools de instâncias, o valor é médio entre todas as instâncias do pool.

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization Utilização de memória de GPU percentual A porcentagem do recurso da memória da GPU em uso.
GpuPowerDraw Consumo de energia da GPU número inteiro A quantidade de potência de GPU usada.
GpuTemperature Temperatura da GPU número inteiro A temperatura da GPU relatada.
GpuEccSingleBitErrors Erros em bit simples de GPU número inteiro O número de erros ECC de um único bit de GPU relatados.
GpuEccDoubleBitErrors Erros duplo-bit de GPU número inteiro O número de erros ECC de bit duplo da GPU relatados.

1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.

2O serviço Networking fornece mais métricas (no namespace de métricas do oci_vcn) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking.

3O serviço Block Volume fornece mais métricas (no namespace de métrica oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: gpu_infrastructure_health

Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
Fault Falha de GPU contagem

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.

2O serviço Networking fornece mais métricas (no namespace de métricas do oci_vcn) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking.

3O serviço Block Volume fornece mais métricas (no namespace de métrica oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas Disponíveis: rdma_infrastructure_health

As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace da métrica rdma_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente
GPU ou rdma_nic
timestamp
Horário UTC em que o payload/heartbeat é emitido
versão
O número da versão do payload para compatibilidade
Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
RdmaTxBytes Bytes de transmissão de rede agregados RDMA bytes Os bytes transmitidos na interface RDMA.

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes Bytes de recebimento de rede agregada RDMA bytes Os bytes recebidos na interface RDMA.
RdmaTxPackets Pacotes de transmissão de rede agregada RDMA número inteiro O número de pacotes transmitidos da interface RDMA
RdmaRxPackets Pacotes de recebimento de rede agregada RDMA número inteiro O número de pacotes recebidos da interface RDMA

1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.

2O serviço Networking fornece mais métricas (no namespace de métricas do oci_vcn) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking.

3O serviço Block Volume fornece mais métricas (no namespace de métrica oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: rdma_infrastructure_health

Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
RdmaLinkSpeedFault Falhas contagem Detecta se uma falha na velocidade do link está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault Falhas contagem Detecta se uma falha de endereço PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

RdmaPcieBerCheckFault Falhas contagem Detecta se uma falha de PCIE BER está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

RdmaPcieCableFlapFault Falhas contagem Detecta se uma falha de aba de cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

RdmaPcieCablePlugFault Falhas contagem Detecta se uma falha de plugue de cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

RdmaPcieCableStateFault Falhas contagem Detecta se uma falha no estado do cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.

1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.

2O serviço Networking fornece mais métricas (no namespace de métricas do oci_vcn) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking.

3O serviço Block Volume fornece mais métricas (no namespace de métrica oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Políticas de Computação de Alto Desempenho

Criar um grupo dinâmico

Este exemplo cria um grupo que contém todas as instâncias em um compartimento específico.

Any {instance.compartment.id = '<compartment_ocid>'}

Usar o Gerenciamento de Falhas pelo OCI

Este exemplo cria uma política que permite ao OCI gerenciar suas falhas.

Allow dynamic-group <group_name> to inspect all-resources in tenancy
ou
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>