Métricas da Instância do Serviço Compute

Você pode monitorar a integridade, a capacidade e o desempenho de suas instâncias de computação usando métricas, alarmes e notificações.

Este tópico descreve as métricas emitidas pelo namespace de métrica oci_computeagent (o plug-in de Monitoramento de Instância de Computação nas instâncias de computação).

Você pode exibir essas métricas para instâncias de computação individuais e para todas as instâncias em um pool de instâncias.

Recursos: Instâncias de computação ativadas para Monitoramento

Visão Geral das Métricas de uma Instância e Recursos Relacionados

Esta seção fornece uma visão geral dos diferentes tipos de métricas disponíveis para uma instância e seus dispositivos de armazenamento e rede. Consulte o diagrama e a tabela a seguir para obter um resumo.

Esta imagem mostra os tipos de métricas disponíveis para uma instância e componentes relacionados.


Namespace de Métricas	ID do Recurso	Onde Medido	Métricas Disponíveis
`oci_computeagent`	OCID da Instância	Na instância. As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, `DiskBytesRead` é agregado em todos os volumes de armazenamento anexados da instância, e `NetworkBytesIn` é agregado em todas as VNICs anexadas da instância.	Consulte Métricas Disponíveis: oci_computeagent.
`oci_blockstore`	OCID do volume em blocos ou de inicialização	Pelo serviço Block Volume. As métricas são para um volume individual (volume de inicialização ou volume em blocos).	Consulte Métricas do Serviço Block Volume.
`oci_vcn`	OCID da VNIC	Pelo serviço de Rede. As métricas são de uma VNIC individual.	Consulte Métricas de VNIC.

Antes de Começar

Políticas do IAM: Para monitorar recursos, você deve receber o tipo necessário de acesso em uma política gravada por um administrador, independentemente de você estar usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta. A política deve conceder acesso aos serviços e aos recursos de monitoramento. Se você tentar executar uma ação e receber uma mensagem de que não tem permissão ou que não está autorizado, entre em contato com o administrador para descobrir em qual tipo de acesso você recebeu e em qual compartimento você precisa trabalhar. Para obter mais informações sobre autorizações de usuário para monitoramento, consulte Políticas do IAM.
Existem métricas no serviço Monitoring: Os recursos que você deseja monitorar devem emitir métricas para o serviço Monitoring.
Instâncias do serviço Compute: Para emitir métricas, o plug-in de Monitoramento da Instância do serviço Compute deve estar ativado na instância e plug-ins devem estar em execução. A instância também deve ter um gateway de serviço ou um endereço IP público para enviar métricas ao serviço Monitoring. Para obter mais informações, consulte Ativando o Monitoramento de Instâncias do Serviço Compute.

Métricas Disponíveis: oci_computeagent

As métricas da instância de computação ajudam você a medir o nível de atividade e o throughput das instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

As métricas deste namespace são agregadas entre todos os recursos relacionados na instância. Por exemplo, DiskBytesRead é agregado em todos os volumes de armazenamento anexados da instância, e NetworkBytesIn é agregado em todas as VNICs anexadas da instância.

Para métricas emitidas pelo namespace de métricas oci_computeagent, os pontos de dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

availabilityDomain: O domínio de disponibilidade no qual a instância reside.
faultDomain: O domínio de falha no qual a instância reside.
imageId: O OCID da imagem da instância.
instancePoolId: O pool de instâncias ao qual a instância pertence.
região: A região onde a instância reside.
resourceDisplayName: O nome amigável da instância.
resourceId: O OCID da instância.
forma: A forma da instância.


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`CpuUtilization`	Utilização de CPU	percentual	Nível de atividade da CPU. Expresso como um percentual do tempo total. Para pools de instâncias, o valor é médio entre todas as instâncias do pool.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`DiskBytesRead`^1,³	Bytes de Leitura de Disco	bytes	Throughput de leitura. Expresso como bytes lidos por intervalo.
`DiskBytesWritten`^1,³	Bytes de Gravação em Disco	bytes	Throughput de gravação. Expresso como bytes gravados por intervalo.
`DiskIopsRead`^1,³	Entrada/Saída de Leitura de Disco	operações	Nível de atividade de leituras de Entrada/Saída. Expresso como leituras por intervalo.
`DiskIopsWritten`^1,³	Entrada/Saída de Gravação em Disco	operações	Nível de atividade de gravações de Entrada/Saída. Expresso como gravações por intervalo.
`LoadAverage`	Média de Carga	número de processos	Carga média do sistema calculada ao longo de um período de 1 minuto.
`MemoryAllocationStalls`	Paralisações de Alocação de Memória	número de paralisações	Número de vezes em que a reivindicação de página foi chamada diretamente.
`MemoryUtilization` ¹	Utilização de Memória	percentual	Espaço usado atualmente. Medido por páginas. Expresso como um percentual de páginas utilizadas. Para pools de instâncias, o valor é médio entre todas as instâncias do pool.
`NetworksBytesIn`^1,²	Bytes Recebidos na Rede	bytes	Throughput de recebimento de rede. Expresso como bytes recebidos.
`NetworksBytesOut` ^1, ²	Bytes Transmitidos na Rede	bytes	Throughput de transmissão de rede. Expresso como bytes transmitidos.
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas Disponíveis: gpu_infrastructure_health

As métricas de instância de computação ajudam a medir a atividade e o throughput de instâncias de computação. As métricas listadas na tabela a seguir estão disponíveis para qualquer instância de computação com monitoramento ativado. Para obter essas métricas, ative o monitoramento na instância.

Para métricas emitidas pelo namespace da métrica gpu_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente: GPU ou rdma_nic
timestamp: Horário UTC em que o payload/heartbeat é emitido
versão: O número da versão do payload para compatibilidade


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`GpuUtilization`	Utilização da GPU	percentual	Nível de atividade da GPU. Expresso como um percentual do tempo total. Para pools de instâncias, o valor é médio entre todas as instâncias do pool.	`availabilityDomain` `faultDomain` `gpuId` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`GpuMemoryUtilization`	Utilização de memória de GPU	percentual	A porcentagem do recurso da memória da GPU em uso.
`GpuPowerDraw`	Consumo de energia da GPU	número inteiro	A quantidade de potência de GPU usada.
`GpuTemperature`	Temperatura da GPU	número inteiro	A temperatura da GPU relatada.
`GpuEccSingleBitErrors`	Erros em bit simples de GPU	número inteiro	O número de erros ECC de um único bit de GPU relatados.
`GpuEccDoubleBitErrors`	Erros duplo-bit de GPU	número inteiro	O número de erros ECC de bit duplo da GPU relatados.
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: gpu_infrastructure_health


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`Fault`	Falha de GPU	contagem	Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.	`availabilityDomain` `faultCode` `faultDomain` `gpuId` `imageId` `instancePoolId` `pcieAddress` `region` `resourceDisplayName` `resourceId` `shape`
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas Disponíveis: rdma_infrastructure_health

Para métricas emitidas pelo namespace da métrica rdma_infrastructure_health, os pontos dos dados são amostrados a cada dez segundos. Um batch de seis pontos de dados é emitido a cada minuto. Portanto, para granularidade a cada minuto, a contagem agregada é sempre seis, a soma agregada é a soma dos seis pontos de dados e a média agregada é a média dos seis pontos de dados.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Cada métrica inclui as seguintes dimensões:

componente: GPU ou rdma_nic
timestamp: Horário UTC em que o payload/heartbeat é emitido
versão: O número da versão do payload para compatibilidade


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`RdmaTxBytes`	Bytes de transmissão de rede agregados RDMA	bytes	Os bytes transmitidos na interface RDMA.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaRxBytes`	Bytes de recebimento de rede agregada RDMA	bytes	Os bytes recebidos na interface RDMA.
`RdmaTxPackets`	Pacotes de transmissão de rede agregada RDMA	número inteiro	O número de pacotes transmitidos da interface RDMA
`RdmaRxPackets`	Pacotes de recebimento de rede agregada RDMA	número inteiro	O número de pacotes recebidos da interface RDMA
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Métricas de Falha: rdma_infrastructure_health


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`RdmaLinkSpeedFault`	Falhas	contagem	Detecta se uma falha na velocidade do link está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `pcieAddress` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaPcieAddressFault`	Falhas	contagem	Detecta se uma falha de endereço PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieBerCheckFault`	Falhas	contagem	Detecta se uma falha de PCIE BER está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCableFlapFault`	Falhas	contagem	Detecta se uma falha de aba de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCablePlugFault`	Falhas	contagem	Detecta se uma falha de plugue de cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
`RdmaPcieCableStateFault`	Falhas	contagem	Detecta se uma falha no estado do cabo PCIE está presente. Se o valor for 0, não haverá falhas. Se o valor for 1, as falhas serão detectadas.
¹Esta métrica é um contador cumulativo que mostra o comportamento monotonicamente crescente para cada sessão do software Oracle Cloud Agent, redefinindo quando o sistema operacional é reiniciado. ²O serviço Networking fornece mais métricas (no namespace de métricas do `oci_vcn`) para cada VNIC na instância. Para obter mais informações, consulte Métricas do serviço Networking. ³O serviço Block Volume fornece mais métricas (no namespace de métrica `oci_blockstore`) para cada volume anexado à instância. Para obter mais informações, consulte Métricas de Volume em Blocos.

Usando a Console

Para exibir gráficos de métrica padrão para uma única instância de computação

Abra o menu de navegação e selecione Compute. Em Compute, selecione Instâncias.
Clique na instância em que você está interessado.
Em Recursos, clique em Métricas.

Na lista Namespace das métricas, selecione oci_computeagent.

A página Métricas exibe um conjunto padrão de gráficos para a instância atual.

Não está visualizando gráficos de métrica para a instância?

Se você não vir gráficos de métricas, pode ser que a instância não esteja emitindo métricas. Consulte as possíveis causas e soluções a seguir.


Possível causa	Como verificar	Solução
O plug-in Compute Instance Monitoring é desativado na instância ou os plug-ins são interrompidos.	Verifique as propriedades da instância.	Ative o plug- in Compute Instance Monitoring e inicie todos os plug-ins.
A instância não pode acessar o serviço Monitoring porque sua VCN não usa a internet.	Verifique o endereço IP da instância. Caso não seja público, será necessário um gateway de serviço.	Configure um gateway de serviço.
A instância não usa uma imagem suportada.	Verifique as imagens suportadas.	Crie uma instância com uma imagem suportada.
Imagens mais antigas e imagens personalizadas: Não existe software do Oracle Cloud Agent na instância.	Conecte-se à instância e procure o software.	Instale o software Oracle Cloud Agent.
Alguma outra coisa está errada com o software Oracle Cloud Agent.	(não aplicável)	Siga as etapas de solução de problemas do Agente do Oracle Cloud.

Para obter mais informações sobre o monitoramento de métricas e o uso de alarmes, consulte Visão Geral do Serviço Monitoring. Para obter informações sobre notificações de alarmes, consulte Visão Geral do Serviço Notifications.

Para exibir gráficos de métrica padrão para recursos relacionados a uma instância de computação

Para um volume de bloco anexado: Ao exibir os detalhes da instância, em Recursos, clique em Volumes de bloco anexados e, em seguida, clique no volume no qual está interessado. Em Recursos, clique em Métricas para ver os gráficos do volume. Para obter mais informações sobre as métricas emitidas, consulte Métricas do Serviço Block Volume.
Para o volume de inicialização anexado: Ao exibir os detalhes da instância, em Recursos, clique em volume de inicialização e, em seguida, clique no volume no qual está interessado. Em Recursos, clique em Métricas para ver os gráficos do volume. Para obter mais informações sobre as métricas emitidas, consulte Métricas do Serviço Block Volume.
Para uma VNIC anexada: Ao exibir os detalhes da instância, em Recursos, clique em VNICs Anexadas e, em seguida, clique na VNIC em que está interessado. Em Recursos, clique em Métricas para ver os gráficos da VNIC. Para obter mais informações sobre as métricas emitidas, consulte Métricas do Serviço Networking.

Para exibir gráficos de métrica padrão de todas as instâncias de computação em um compartimento

Abra o menu de navegação e selecione Observabilidade e Gerenciamento. Em Monitoramento, selecione Métricas de Serviço.
Selecione um compartimento.
Para Namespace da métrica, selecione oci_computeagent.

A página Métricas do Serviço atualiza dinamicamente a página para mostrar gráficos para cada métrica emitida pelo namespace de métricas selecionado.

Para exibir gráficos de métrica padrão para as instâncias em um pool de instâncias

Abra o menu de navegação e selecione Compute. Em Compute, selecione Pools de Instâncias.
Clique no pool de instâncias em que você está interessado.
Em Recursos, clique em Métricas.
Na lista Namespace das métricas, selecione oci_computeagent.

A página Métricas exibe um conjunto padrão de gráficos para o pool de instâncias atual.

Usando a API

Para obter informações sobre o uso da API e as solicitações de assinatura, consulte Documentação da API REST e Credenciais da Segurança. Para obter informações sobre SDKs, consulte SDKs e a CLI.

Use as seguintes APIs para monitoramento:

API do Serviço Monitoring para métricas e alarmes
API de Notificações para notificações (usada com alarmes)

Documentação do Oracle Cloud Infrastructure

Métricas da Instância do Serviço Compute

Visão Geral das Métricas de uma Instância e Recursos Relacionados

Antes de Começar

Métricas Disponíveis: oci_computeagent

Métricas Disponíveis: gpu_infrastructure_health

Métricas de Falha: gpu_infrastructure_health

Métricas Disponíveis: rdma_infrastructure_health

Métricas de Falha: rdma_infrastructure_health

Usando a Console

Usando a API