Métricas de Computação de Alto Desempenho
O Oracle Cloud Infrastruture fornece métricas especializadas para melhorar a visibilidade do desempenho das instâncias de HPC.
As métricas de HPC são semelhantes às métricas padrão da instância de computação. No entanto, as métricas de HPC só estão disponíveis em instâncias que têm o plug-in de HPC com monitoramento de GPU e RDMA ativado e estão localizadas nos namespaces de cliente gpu_infrastructure_health
e rdma_infrastructure_health
. Consulte Métricas da Instância do Serviço Compute para obter detalhes sobre como acessar e gerenciar métricas de computação.
Métricas Disponíveis: gpu_infrastructure_health
As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.
As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead
é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn
é agregado em todas as VNICs anexadas da instância.
Para métricas emitidas pelo namespace de métricas gpu_infrastructure_health
, os pontos de dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.
Você também pode usar o serviço Monitoring para criar consultas personalizadas.
Cada métrica inclui as seguintes dimensões:
- componente
- GPU ou rdma_nic
- timestamp
- Horário UTC em que o payload/pulsação cardíaca é emitido
- versão
- O número da versão do payload para compatibilidade
Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
---|---|---|---|---|
GpuUtilization
|
Utilização de GPU | percentual |
Nível de atividade da GPU. Expresso como um percentual do tempo total. Para pools de instâncias, o valor é médio entre todas as instâncias do pool. |
|
GpuMemoryUtilization |
Utilização de memória de GPU | percentual | A porcentagem do recurso de memória de GPU em uso. | |
GpuPowerDraw |
Sorteio de energia da GPU | inteiro | A quantidade de potência de GPU usada. | |
GpuTemperature |
Temperatura da GPU | inteiro | A temperatura da GPU informada. | |
GpuEccSingleBitErrors |
Erros de bit único da GPU | inteiro | O número de erros de ECC de bit único de GPU relatados. | |
GpuEccDoubleBitErrors |
Erros de dois bits da GPU | inteiro | O número de erros de ECC de bit duplo de GPU relatados. | |
1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado. 2 O serviço Networking fornece mais métricas (no namespace de métricas 3 O serviço Block Volume fornece mais métricas (no namespace de métricas |
Métricas com Falha: gpu_infrastructure_health
Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
---|---|---|---|---|
Fault |
Falha de GPU | contagem |
Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado. 2 O serviço Networking fornece mais métricas (no namespace de métricas 3 O serviço Block Volume fornece mais métricas (no namespace de métricas |
Métricas Disponíveis: rdma_infrastructure_health
As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.
As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead
é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn
é agregado em todas as VNICs anexadas da instância.
Para métricas emitidas pelo namespace de métricas rdma_infrastructure_health
, os pontos de dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.
Você também pode usar o serviço Monitoring para criar consultas personalizadas.
Cada métrica inclui as seguintes dimensões:
- componente
- GPU ou rdma_nic
- timestamp
- Horário UTC em que o payload/pulsação cardíaca é emitido
- versão
- O número da versão do payload para compatibilidade
Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
---|---|---|---|---|
RdmaTxBytes
|
Bytes transmitidos pela rede agregada RDMA | bytes | Os bytes transmitidos na interface RDMA. |
|
RdmaRxBytes |
RDMA - bytes de recebimento de rede agregada | bytes | Os bytes recebidos na interface RDMA. | |
RdmaTxPackets |
Pacotes de transmissão de rede agregada RDMA | inteiro | O número de pacotes transmitidos da interface RDMA | |
RdmaRxPackets |
Pacotes de recebimento de rede agregada RDMA | inteiro | O número de pacotes recebidos da interface RDMA | |
1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado. 2 O serviço Networking fornece mais métricas (no namespace de métricas 3 O serviço Block Volume fornece mais métricas (no namespace de métricas |
Métricas com Falha: rdma_infrastructure_health
Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
---|---|---|---|---|
RdmaLinkSpeedFault |
Falhas | contagem | Detecta se uma falha de velocidade de link está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
RdmaPcieAddressFault |
Falhas | contagem | Detecta se uma falha de endereço PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
RdmaPcieBerCheckFault |
Falhas | contagem | Detecta se uma falha do PCIE BER está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
RdmaPcieCableFlapFault |
Falhas | contagem | Detecta se uma falha de aba de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
RdmaPcieCablePlugFault |
Falhas | contagem | Detecta se uma falha de plugue de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
RdmaPcieCableStateFault |
Falhas | contagem | Detecta se uma falha de estado do cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, serão detectadas falhas. |
|
1 Esta métrica é um contador cumulativo que mostra um comportamento uniformemente crescente para cada sessão do software Oracle Cloud Agent, fazendo a redefinição quando o sistema operacional é reiniciado. 2 O serviço Networking fornece mais métricas (no namespace de métricas 3 O serviço Block Volume fornece mais métricas (no namespace de métricas |
Políticas de Computação de Alto Desempenho
Criar um grupo dinâmico
Este exemplo cria um grupo que contém todas as instâncias em um compartimento específico.
Any {instance.compartment.id = '<compartment_ocid>'}
Usar o Gerenciamento de Falhas pelo OCI
Este exemplo cria uma política que permite ao OCI gerenciar suas falhas.
Allow dynamic-group <group_name> to inspect all-resources in tenancyou
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>