Métricas de Computação de Alto Desempenho
O Oracle Cloud Infrastruture fornece métricas especializadas para melhorar a visibilidade do desempenho das instâncias de HPC.
As métricas de HPC são semelhantes às métricas padrão da instância de computação. No entanto, as métricas de HPC só estão disponíveis em instâncias que têm o plug-in de HPC com o monitoramento de GPU e RDMA ativado e estão localizadas nos namespaces de cliente gpu_infrastructure_health e rdma_infrastructure_health. Consulte Métricas da Instância do Serviço Compute para obter detalhes sobre como acessar e gerenciar métricas de computação.
Métricas Disponíveis: gpu_infrastructure_health
As métricas de instância de computação ajudam a medir a atividade e o throughput de instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.
As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.
Para métricas emitidas pelo namespace da métrica gpu_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.
Você também pode usar o serviço Monitoring para criar consultas personalizadas.
Cada métrica inclui as seguintes dimensões:
- componente
- GPU ou rdma_nic
- timestamp
- Horário UTC em que o payload/heartbeat é emitido
- versão
- O número da versão do payload para compatibilidade
| Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
|---|---|---|---|---|
GpuUtilization
|
Utilização da GPU | percentual |
Nível de atividade da GPU. Expresso como um percentual do tempo total. Para pools de instâncias, o valor é médio entre todas as instâncias do pool. |
|
GpuMemoryUtilization
|
Utilização de memória de GPU | percentual | A porcentagem do recurso da memória da GPU em uso. | |
GpuPowerDraw
|
Consumo de energia da GPU | número inteiro | A quantidade de potência de GPU usada. | |
GpuTemperature
|
Temperatura da GPU | número inteiro | A temperatura da GPU relatada. | |
GpuEccSingleBitErrors
|
Erros em bit simples de GPU | número inteiro | O número de erros ECC de um único bit de GPU relatados. | |
GpuEccDoubleBitErrors
|
Erros duplo-bit de GPU | número inteiro | O número de erros ECC de bit duplo da GPU relatados. | |
|
1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.
2O serviço Networking fornece mais métricas (no namespace de métricas do
3O serviço Block Volume fornece mais métricas (no namespace de métrica |
||||
Métricas de Falha: gpu_infrastructure_health
| Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
|---|---|---|---|---|
Fault
|
Falha de GPU | contagem |
Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
|
1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.
2O serviço Networking fornece mais métricas (no namespace de métricas do
3O serviço Block Volume fornece mais métricas (no namespace de métrica |
||||
Métricas Disponíveis: rdma_infrastructure_health
As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.
As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.
Para métricas emitidas pelo namespace da métrica rdma_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.
Você também pode usar o serviço Monitoring para criar consultas personalizadas.
Cada métrica inclui as seguintes dimensões:
- componente
- GPU ou rdma_nic
- timestamp
- Horário UTC em que o payload/heartbeat é emitido
- versão
- O número da versão do payload para compatibilidade
| Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
|---|---|---|---|---|
RdmaTxBytes
|
Bytes de transmissão de rede agregados RDMA | bytes | Os bytes transmitidos na interface RDMA. |
|
RdmaRxBytes
|
Bytes de recebimento de rede agregada RDMA | bytes | Os bytes recebidos na interface RDMA. | |
RdmaTxPackets
|
Pacotes de transmissão de rede agregada RDMA | número inteiro | O número de pacotes transmitidos da interface RDMA | |
RdmaRxPackets
|
Pacotes de recebimento de rede agregada RDMA | número inteiro | O número de pacotes recebidos da interface RDMA | |
|
1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.
2O serviço Networking fornece mais métricas (no namespace de métricas do
3O serviço Block Volume fornece mais métricas (no namespace de métrica |
||||
Métricas de Falha: rdma_infrastructure_health
| Métrica | Nome para Exibição da Métrica | Unidade | Descrição | Dimensões |
|---|---|---|---|---|
RdmaLinkSpeedFault
|
Falhas | contagem | Detecta se uma falha na velocidade do link está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
RdmaPcieAddressFault
|
Falhas | contagem | Detecta se uma falha de endereço PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
RdmaPcieBerCheckFault
|
Falhas | contagem | Detecta se uma falha de PCIE BER está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
RdmaPcieCableFlapFault
|
Falhas | contagem | Detecta se uma falha de aba de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
RdmaPcieCablePlugFault
|
Falhas | contagem | Detecta se uma falha de plugue de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
RdmaPcieCableStateFault
|
Falhas | contagem | Detecta se uma falha no estado do cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas. |
|
|
1Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado.
2O serviço Networking fornece mais métricas (no namespace de métricas do
3O serviço Block Volume fornece mais métricas (no namespace de métrica |
||||
Políticas de Computação de Alto Desempenho
Criar um grupo dinâmico
Este exemplo cria um grupo que contém todas as instâncias em um compartimento específico.
Any {instance.compartment.id = '<compartment_ocid>'}
Usar o Gerenciamento de Falhas pelo OCI
Este exemplo cria uma política que permite ao OCI gerenciar suas falhas.
Allow dynamic-group <group_name> to inspect all-resources in tenancyou
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>