Métricas de Computação de Alto Desempenho

O Oracle Cloud Infrastruture fornece métricas especializadas para melhorar a visibilidade do desempenho das instâncias de HPC.

As métricas de HPC são semelhantes às métricas padrão da instância de computação. No entanto, as métricas de HPC só estão disponíveis em instâncias que têm o plug-in de HPC com o monitoramento de GPU e RDMA ativado e estão localizadas nos namespaces de cliente gpu_infrastructure_health e rdma_infrastructure_health. Consulte Métricas da Instância do Serviço Compute para obter detalhes sobre como acessar e gerenciar métricas de computação.

Métricas Disponíveis: gpu_infrastructure_health

As métricas de instância de computação ajudam a medir a atividade e o throughput de instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace da métrica gpu_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente: GPU ou rdma_nic
timestamp: Horário UTC em que o payload/heartbeat é emitido
versão: O número da versão do payload para compatibilidade


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`GpuUtilization`	Utilização da GPU	percentual	Nível de atividade da GPU. Expresso como um percentual do tempo total. Para pools de instâncias, o valor é médio entre todas as instâncias do pool.	`availabilityDomain` `faultDomain` `gpuId` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`GpuMemoryUtilization`	Utilização de memória de GPU	percentual	A porcentagem do recurso da memória da GPU em uso.
`GpuPowerDraw`	Consumo de energia da GPU	número inteiro	A quantidade de potência de GPU usada.
`GpuTemperature`	Temperatura da GPU	número inteiro	A temperatura da GPU relatada.
`GpuEccSingleBitErrors`	Erros em bit simples de GPU	número inteiro	O número de erros ECC de um único bit de GPU relatados.
`GpuEccDoubleBitErrors`	Erros duplo-bit de GPU	número inteiro	O número de erros ECC de bit duplo da GPU relatados.
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: gpu_infrastructure_health


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`Fault`	Falha de GPU	contagem	Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.	`availabilityDomain` `faultCode` `faultDomain` `gpuId` `imageId` `instancePoolId` `pcieAddress` `region` `resourceDisplayName` `resourceId` `shape`
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas Disponíveis: rdma_infrastructure_health

As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

Para métricas emitidas pelo namespace da métrica rdma_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente: GPU ou rdma_nic
timestamp: Horário UTC em que o payload/heartbeat é emitido
versão: O número da versão do payload para compatibilidade


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`RdmaTxBytes`	Bytes de transmissão de rede agregados RDMA	bytes	Os bytes transmitidos na interface RDMA.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaRxBytes`	Bytes de recebimento de rede agregada RDMA	bytes	Os bytes recebidos na interface RDMA.
`RdmaTxPackets`	Pacotes de transmissão de rede agregada RDMA	número inteiro	O número de pacotes transmitidos da interface RDMA
`RdmaRxPackets`	Pacotes de recebimento de rede agregada RDMA	número inteiro	O número de pacotes recebidos da interface RDMA
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: rdma_infrastructure_health


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`RdmaLinkSpeedFault`	Falhas	contagem	Detecta se uma falha na velocidade do link está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `pcieAddress` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaPcieAddressFault`	Falhas	contagem	Detecta se uma falha de endereço PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieBerCheckFault`	Falhas	contagem	Detecta se uma falha de PCIE BER está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCableFlapFault`	Falhas	contagem	Detecta se uma falha de aba de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCablePlugFault`	Falhas	contagem	Detecta se uma falha de plugue de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCableStateFault`	Falhas	contagem	Detecta se uma falha no estado do cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Políticas de Computação de Alto Desempenho

Criar um grupo dinâmico

Este exemplo cria um grupo que contém todas as instâncias em um compartimento específico.

Any {instance.compartment.id = '<compartment_ocid>'}

Usar o Gerenciamento de Falhas pelo OCI

Este exemplo cria uma política que permite ao OCI gerenciar suas falhas.

Allow dynamic-group <group_name> to inspect all-resources in tenancy

Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>