Métricas de Computação de Alto Desempenho

O Oracle Cloud Infrastruture fornece métricas especializadas para melhorar a visibilidade do desempenho das instâncias de HPC.

As métricas de HPC são semelhantes às métricas padrão da instância de computação. No entanto, as métricas de HPC só estão disponíveis em instâncias que têm o plug-in de HPC com monitoramento de GPU e RDMA ativado e estão localizadas nos namespaces de cliente gpu_infrastructure_health e rdma_infrastructure_health. Consulte Métricas da Instância do Serviço Compute para obter detalhes sobre como acessar e gerenciar métricas de computação.

Métricas Disponíveis: gpu_infrastructure_health

As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace de métricas gpu_infrastructure_health, os pontos de dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente
GPU ou rdma_nic
timestamp
Horário UTC em que o payload/pulsação cardíaca é emitido
versão
O número da versão do payload para compatibilidade
Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
GpuUtilization Utilização de GPU percentual

Nível de atividade da GPU. Expresso como um percentual do tempo total.

Para pools de instâncias, o valor é médio entre todas as instâncias do pool.

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization Utilização de memória de GPU percentual A porcentagem do recurso de memória de GPU em uso.
GpuPowerDraw Sorteio de energia da GPU inteiro A quantidade de potência de GPU usada.
GpuTemperature Temperatura da GPU inteiro A temperatura da GPU informada.
GpuEccSingleBitErrors Erros de bit único da GPU inteiro O número de erros de ECC de bit único de GPU relatados.
GpuEccDoubleBitErrors Erros de dois bits da GPU inteiro O número de erros de ECC de bit duplo de GPU relatados.

1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado.

2 O serviço Networking fornece mais métricas (no namespace de métricas oci_vcn) para cada VNIC da instância. Para obter mais informações, consulte Métricas do serviço Networking.

3 O serviço Block Volume fornece mais métricas (no namespace de métricas oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas com Falha: gpu_infrastructure_health

Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
Fault Falha de GPU contagem

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado.

2 O serviço Networking fornece mais métricas (no namespace de métricas oci_vcn) para cada VNIC da instância. Para obter mais informações, consulte Métricas do serviço Networking.

3 O serviço Block Volume fornece mais métricas (no namespace de métricas oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas Disponíveis: rdma_infrastructure_health

As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace de métricas rdma_infrastructure_health, os pontos de dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente
GPU ou rdma_nic
timestamp
Horário UTC em que o payload/pulsação cardíaca é emitido
versão
O número da versão do payload para compatibilidade
Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
RdmaTxBytes Bytes transmitidos pela rede agregada RDMA bytes Os bytes transmitidos na interface RDMA.

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes RDMA - bytes de recebimento de rede agregada bytes Os bytes recebidos na interface RDMA.
RdmaTxPackets Pacotes de transmissão de rede agregada RDMA inteiro O número de pacotes transmitidos da interface RDMA
RdmaRxPackets Pacotes de recebimento de rede agregada RDMA inteiro O número de pacotes recebidos da interface RDMA

1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado.

2 O serviço Networking fornece mais métricas (no namespace de métricas oci_vcn) para cada VNIC da instância. Para obter mais informações, consulte Métricas do serviço Networking.

3 O serviço Block Volume fornece mais métricas (no namespace de métricas oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas com Falha: rdma_infrastructure_health

Métrica Nome para Exibição da Métrica Unidade Descrição Dimensões
RdmaLinkSpeedFault Falhas contagem Detecta se uma falha de velocidade de link está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault Falhas contagem Detecta se uma falha de endereço PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

RdmaPcieBerCheckFault Falhas contagem Detecta se uma falha do PCIE BER está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

RdmaPcieCableFlapFault Falhas contagem Detecta se uma falha de aba de cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

RdmaPcieCablePlugFault Falhas contagem Detecta se uma falha de plugue de cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

RdmaPcieCableStateFault Falhas contagem Detecta se uma falha de estado do cabo PCIE está presente.

Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas.

1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado.

2 O serviço Networking fornece mais métricas (no namespace de métricas oci_vcn) para cada VNIC da instância. Para obter mais informações, consulte Métricas do serviço Networking.

3 O serviço Block Volume fornece mais métricas (no namespace de métricas oci_blockstore) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Políticas de Computação de Alto Desempenho

Criar um grupo dinâmico

Este exemplo cria um grupo que contém todas as instâncias em um compartimento específico.

Any {instance.compartment.id = '<compartment_ocid>'}

Usar o Gerenciamento de Falhas pelo OCI

Este exemplo cria uma política que permite ao OCI gerenciar suas falhas.

Allow dynamic-group <group_name> to inspect all-resources in tenancy
ou
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>