Métricas de Integridade da Infraestrutura

Você pode monitorar a integridade, a capacidade e o desempenho da infraestrutura de suas instâncias de máquina virtual (VM) e bare metal de computação usando métricas, alarmes e notificações.

Este tópico descreve as métricas emitidas pelo namespace de métricas oci_compute_infrastructure_health.

Recursos: Instâncias do serviço Compute.

Visão Geral das Métricas: oci_compute_infrastructure_health

As métricas de integridade da infraestrutura de computação ajudam a monitorar o status e a integridade das instâncias de computação.

Status de integridade (ativação/desativação) da instância: A métrica instance_status permite verificar se uma instância da VM está disponível (ativação) ou indisponível (desativação) no estado de execução. Se a instância ficar indisponível por mais de 30 minutos, entre em contato com o suporte.
Status de manutenção da instituição: A métrica maintenance_status permite monitorar se uma instância de VM ou bare metal está programada para manutenção planejada de infraestrutura.
Status da integridade de uma infraestrutura Bare metal: A métrica health_status ajuda a monitorar aintegridade da infraestrutura para instâncias bare metal, incluindo componentes de hardware, como CPU e memória.

Com base no valor das métricas, você pode mover as instâncias afetadas para o hardware íntegro de forma proativa, minimizando com isso o impacto em seus aplicativos.

Política de IAM Necessária

Para monitorar recursos, você deve ter o tipo necessário de acesso em uma política gravada por um administrador, quer você esteja usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta, A política deve conceder acesso aos serviços e aos recursos de monitoramento. Se você tentar executar uma ação e receber uma mensagem de que não tem permissão ou que não está autorizado, entre em contato com o administrador para descobrir em qual tipo de acesso você recebeu e em qual compartimento você precisa trabalhar. Para obter mais informações sobre autorizações de usuário para monitoramento, consulte Políticas do IAM.

Métricas Disponíveis: oci_compute_infrastructure_health

As métricas listadas na tabela a seguir estão automaticamente disponíveis para suas instâncias. Você não precisa ativar o monitoramento na instância para obter essas métricas.

Você também pode usar o serviço Monitoring para criar consultas personalizadas.

Dependendo da métrica, as seguintes dimensões estão disponíveis:

faultClass

O tipo de problema de hardware:

CPU: Foi detectada uma falha em uma ou mais CPUs.
MEM-BOOT: Uma falha no subsistema de memória foi detectada durante a inicialização da instância ou uma reinicialização recente.
MEM-RUNTIME: Foi detectada uma falha no subsistema de memória.
MGMT-CONTROLLER: Foi detectada uma falha no controlador de gerenciamento de instâncias.
PCI: Foi detectada uma falha no subsistema PCI.
PCI-NIC: Uma falha na placa de interface de rede (NIC) da instância foi detectada.

Importante

A classe de falha PCI-NIC está obsoleta. Migre para a classe de falha PCI para obter uma funcionalidade semelhante.
SDN-INTERFACE: Uma falha na interface de rede definida pelo software da instância foi detectada.

Para obter sugestões de solução de problemas e mais informações sobre esses problemas de hardware, consulte Monitoramento de Integridade do Serviço Compute para Instâncias Bare Metal.

resourceDisplayName

O nome amigável da instância.

resourceId

O OCID da instância.

maintenanceDueTime

A hora inicial programada da janela de manutenção de 24 horas, no formato definido pela RFC3339.

computeMaintenanceAction

A ação que a Oracle Cloud Infrastructure executará em uma instância durante um evento de manutenção programado:

REBOOT: A instância é migrada do host físico que precisa de manutenção para um host íntegro. Se a migração ao vivo não for possível, a instância será reinicializada migrada.
REBUILD_IN_PLACE: A instância foi interrompida, reconstruída no mesmo hardware físico e reiniciada. Um período de indisponibilidade de várias horas ocorre durante o processo de manutenção.

recommendedAction

A ação que você pode executar antes do evento de manutenção programado, para poder controlar como e quando seus aplicativos enfrentarão períodos de indisponibilidade.

REBOOT: Você pode reinicializar proativamente a instância antes do horário de manutenção programado. Quando você faz a migração com reinicialização de uma instância para manutenção, ela é interrompida no host físico que precisa de manutenção e, em seguida, é reiniciada em um host íntegro.


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Dimensões
`health_status`	Status de Integridade da Infraestrutura	problemas	O número de problemas de integridade de uma instância. Qualquer valor diferente de zero indica um defeito na integridade. Esta métrica só está disponível para instâncias bare metal.	`faultClass` `resourceDisplayName` `resourceId`
`instance_status`	Status da Instância	Contagem	O status de uma instância em execução. Um valor 0 indica que a instância está disponível (ativada). Um valor 1 indica que a instância não está disponível (inativa) por causa de um problema de infraestrutura. Se a instância for interrompida, a métrica não terá um valor. Esta métrica só está disponível para instâncias de VM.	`resourceDisplayName` `resourceId`
`maintenance_status`	Status da Manutenção	Contagem	O status de manutenção de uma instância. Um valor 0 indica que a instância não está programada para um evento de manutenção de infraestrutura. Um valor 1 indica que a instância está programada para um evento de manutenção de infraestrutura. Esta métrica está disponível para instâncias de VM e bare metal.	`maintenanceDueTime` `computeMaintenanceAction` `recommendedAction` `resourceDisplayName` `resourceId`

Usando a Console

Para exibir métricas de integridade de infraestrutura para uma única instância de computação

Abra o menu de navegação e selecione Compute. Em Compute, selecione Instâncias.
Clique na instância em que você está interessado.
Em Recursos, clique em Métricas.
Na lista Namespace das métricas, selecione oci_compute_infrastructure_health.

A página Métricas exibe um conjunto padrão de gráficos para a instância atual.

Para obter mais informações sobre o monitoramento de métricas e o uso de alarmes, consulte Visão Geral do Serviço Monitoring. Para obter informações sobre notificações de alarmes, consulte Visão Geral do Serviço Notifications.

Para exibir métricas de integridade da infraestrutura de todas as instâncias de computação de um compartimento

Abra o menu de navegação e selecione Observabilidade e Gerenciamento. Em Monitoramento, selecione Métricas de Serviço.
Selecione um compartimento.
Para Namespace da métrica, selecione oci_compute_infrastructure_health.

A página Métricas do Serviço é atualizada dinamicamente para mostrar gráficos para cada métrica emitida pelo namespace de métricas selecionado.

Usando a API

Para obter informações sobre o uso da API e as solicitações de assinatura, consulte Documentação da API REST e Credenciais da Segurança. Para obter informações sobre SDKs, consulte SDKs e a CLI.

Use as seguintes APIs para monitoramento:

API do Serviço Monitoring para métricas e alarmes
API de Notificações para notificações (usada com alarmes)