Visão Geral do Serviço Monitoring

Use o serviço Oracle Cloud Infrastructure Monitoring para monitorar ativa e passivamente os recursos da nuvem usando os recursos Metrics and Alarms. Saiba como o serviço Monitoring funciona.

Esta imagem mostra métricas e alarmes como usados no serviço Monitoring.

Dica

Assista a uma introdução em vídeo ao serviço.

Como o Serviço Monitoring Funciona

O serviço Monitoring usa métricas para monitorar recursos e alarmes para notificá-lo quando essas métricas atenderem a acionadores especificados por alarme.

As Métricas são emitidas para o serviço Monitoring como pontos brutos, ou pares de timestamp/valor, juntamente com dimensões e metadados. As métricas vêm de várias fontes:

Você pode transferir métricas do serviço Monitoring usando Hub de Conector. Para obter mais informações, consulte Criando um Conector com uma Origem de Monitoramento.

Os dados de métrica publicados no serviço Monitoring só são apresentados a você ou consumidos pelos recursos do Oracle Cloud Infrastructure que você ativa para usar dados de métrica.

Quando você consulta uma métrica, o serviço Monitoring retorna dados agregados de acordo com os parâmetros especificados. Você pode especificar um intervalo (como as últimas 24 horas), uma estatística e um intervalo . A Console exibe um gráfico de monitoramento por métrica para os recursos selecionados. Os dados agregados em cada gráfico refletem o intervalo e a estatística selecionados. As solicitações de API podem opcionalmente filtrar por dimensão e especificar uma resolução. As respostas de API incluem o nome da métrica com seu compartimento de origem e seu namespace de métricas. Você pode alimentar os dados agregados em uma visualização ou biblioteca de gráficos.

Os dados de métrica e alarme podem ser acessados pela Console, CLI e API. Para períodos de retenção, consulte Limites de Armazenamento.

O recurso Alarmes do serviço Monitoring publica mensagens de alarme para destinos configurados, como tópicos em Notificações e streams no Streaming.

Visão Geral do Recurso de Métricas

O recurso Metrics retransmite dados de métrica sobre a integridade, a capacidade e a performance dos recursos da nuvem.

Uma métrica é uma medida relacionada à integridade, capacidade ou desempenho de um recurso. Recursos, serviços e aplicativos emitem métricas para o serviço Monitoring. Métricas comuns refletem dados relacionados a:

  • Disponibilidade e latência
  • Período de disponibilidade e inatividade do aplicativo
  • Transações concluídas
  • Operações com falha e bem-sucedidas
  • Indicadores chave de desempenho (KPIs), como quantificadores de vendas e engajamento

Ao consultar o Monitoring para esses dados, você pode entender o quão bem os sistemas e processos estão trabalhando para atingir os níveis de serviço que você se compromete com seus clientes. Por exemplo, você pode monitorar a utilização da CPU e leituras de disco de instâncias de computação. Você pode então usar estes dados para decidir quando provisionar mais instâncias para lidar com carga aumentada, diagnosticar problemas com a instância ou compreender melhor a atividade do sistema.

Exemplo de Métrica: Taxa de Falha

Para a integridade do aplicativo, um dos KPIs comuns é a taxa de falha, para a qual uma definição comum é o número de transações com falha dividido pelo total de transações. Esse KPI é normalmente fornecido por meio do software de gerenciamento e monitoramento de aplicativos.

Como desenvolvedor, você pode capturar esse KPI de aplicativos usando métricas personalizadas. Registre observações toda vez que uma transação de aplicativo ocorrer e, em seguida, publique esses dados no serviço Monitoring. Nesse caso, configure métricas para capturar transações com falha, transações bem-sucedidas e latência de transação (tempo gasto por transação concluída).

Visão Geral do Recurso de Alarmes

Use alarmes para monitorar a integridade, a capacidade e a performance dos recursos da nuvem.

Os recursos emitem pontos de dados de métrica para o serviço Monitoring. Quando acionados, os alarmes enviam mensagens para o destino configurado. Para o serviço Notifications, as mensagens são enviadas para assinaturas no tópico configurado. Para o serviço Streaming, as mensagens são enviadas ao stream configurado).

O recurso Alarmes do serviço Monitoring funciona com o serviço de destino configurado para notificá-lo quando as métricas atenderem aos acionadores especificados pelo alarme. A ilustração anterior ilustra o fluxo, começando com recursos emitindo ponto de dados de métrica para Monitoramento. Quando acionado, um alarme envia uma mensagem para alarme para o destino configurado. Para Notificações, as mensagens são enviadas a assinaturas no tópico configurado. Para o serviço Streaming, as mensagens são enviadas ao stream configurado. (Esta ilustração não abrange dados de métrica brutos e agregados. Para obter esses detalhes, consulte a ilustração "Visão Geral de Monitoramento" na parte superior desta página.)

Quando configurado, as notificações repetidas lembram um estado de acionamento contínuo no intervalo de repetição configurado. Você também será notificado quando um alarme passar de volta ao estado OK ou quando um alarme for redefinido.

Avaliações de Alarme

O monitoramento avalia os alarmes uma vez por minuto para localizar o status de alarme.

Quando o alarme divide as notificações, o Monitoring avalia cada fluxo de métricas rastreado. Se a avaliação desse fluxo de métricas indicar um novo status FIRING ou outro evento de qualificação, o Monitoring enviará uma mensagem de alarme.

O monitoramento rastreia fluxos de métrica por alarme para eventos de qualificação, mas as mensagens estão sujeitas aos limites de serviço de destino.

Ilustração de Avaliação de Alarme

Considere um alarme que mede o percentil 90 da métrica CpuUtilization.

{
  "compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "destinations": ["ocid1.onstopic.exampleuniqueID"],
  "displayName": "High CPU Utilization",
  "id": "ocid1.alarm.oc1..exampleuniqueID",
  "lifecycleState": "ACTIVE",
  "metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "namespace": "oci_computeagent",
  "pendingDuration": "PT3M",
  "query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
  "repeatNotificationDuration": "PT2H",
  "severity": "WARNING",
  "isEnabled": true,
  "timeCreated": "2023-02-01T01:02:29.600Z",
  "timeUpdated": "2023-02-03T01:02:29.600Z"
}

Observações sobre este alarme de exemplo:

  • O percentil é especificado na consulta como a estatística (negrito):
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • Cada ponto de dados é o percentil 90 (percentile(0.9)) de uma janela de um minuto, especificado na consulta como o intervalo (negrito):
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • Os valores de ponto de dados para essa estatística podem variar de nulo (ausente) a 100.
  • Avaliações de pontos de dados:
    • Para qualquer valor de ponto de dados maior que 85, a avaliação é verdadeira (1). Uma avaliação verdadeira significa que a condição da regra do acionador foi atendida.
    • Para qualquer valor de ponto de dados que não seja maior que 85, a avaliação é falsa (0).
  • O alarme não é acionado até que a condição regra de acionamento seja atendida por três minutos sucessivos. Essa configuração é o atraso de acionamento do alarme (pendingDuration), definido como PT3M.
  • O alarme atualiza seu estado para OK quando a condição de violação foi clara no minuto mais recente.

A imagem a seguir mostra um fluxo de métricas agregado para o exemplo de alarme. Cada ponto de dados é indicado por um quadrado.


Fluxo de métrica agregado para o alarme de exemplo.

A tabela a seguir mostra avaliações de alarme consecutivas para o alarme de exemplo. O alarme é avaliado em uma janela móvel de três intervalos de um minuto.

Carimbo de data/hora do período de avaliação Minutos de período Avaliações de pontos de dados* Status
3 [1 2 3] [0 0 0] OK
4 [2 3 4] [0 0 1] OK
5 [3 4 5] [0 1 1] OK
6 [4 5 6] [1 1 1] FIRING
7 [5 6 7] [1 1 1] FIRING
8 [6 7 8] [1 1 0] OK
9 [7 8 9] [1 0 0] OK
10 [8 9 10] [0 0 0] OK

*Um valor 1 (um) significa que a condição regra de acionamento é atendida.

Como os Pontos de Dados São Contados

Esta seção descreve como determinar o número de pontos de dados (ou pontos de dados) recuperados por um alarme. Esse número pode ajudar você a estimar os preços de monitoramento.

Para localizar o número de pontos de dados recuperados por um alarme, primeiro obtenha o número de streams de consulta e minutos analisados.

  • O número de streams de consulta depende dos streams de métrica retornados pela consulta de alarme.
  • Os minutos analisados dependem dos atributos de alarme interval, resolution e pendingDuration. Para consultas de alarme, o único valor válido para resolution é 1m. Para obter mais informações sobre interval, consulte Intervalo. Para obter mais informações sobre resolution e pendingDuration, consulte API de Monitoramento.

Cada alarme é avaliado uma vez a cada minuto, e assim cada alarme é avaliado 1440 vezes por dia. Cada avaliação consulta os dados no intervalo de tempo definido por interval e verifica o período em que o alarme persiste definido por pendingDuration. Portanto, os minutos analisados a cada minuto são calculados pela seguinte expressão:

minutos analisados a cada minuto = interval * teto(pendingDuration / resolution)

Sobre o Período de Redefinição Interno

O período de redefinição interno determina quando um alarme interrompe a verificação de uma métrica ausente que acionou o estado de Acionamento na avaliação anterior. Quando a métrica estiver ausente durante todo o período, avaliações de alarme posteriores ignorarão o fluxo de métrica indicado. Se nenhum outro stream de métrica estiver causando o estado Firing do alarme, o alarme fará a transição para OK e enviará uma mensagem RESET. Por padrão, a mensagem RESET chega após 13 minutos (período de redefinição interno mais o período de slack padrão de 3 minutos). Você pode personalizar o período do slack.

A duração do período de redefinição interna é configurada globalmente em 10 minutos, o que faz com que o histórico de alarmes mostre uma diferença de 10 minutos.

O início de um período de redefinição interno depende do tipo de alarme. Para alarmes de limite, o período de redefinição interna começa quando a primeira ausência é detectada. Para alarmes de ausência, o período de redefinição interna começa após a conclusão do período de detecção de ausência (o padrão é 2 horas, pode ser personalizado).

Pontos de Dados Coletados Durante um Período de Redefinição Interno

Cada avaliação durante o período interno de redefinição de dez minutos contabiliza todos os pontos de dados nesse período.

Por exemplo, considere um fluxo de métricas (A) que exceda o limite (linha vermelha tracejada nos diagramas a seguir). O alarme dispara (F). Quando uma falta de pontos de dados emitidos é detectada, um período de redefinição interno começa.

O diagrama a seguir mostra um único período de redefinição interno para o fluxo de métricas A, dos tempos t5 a t15. No momento t16, o fluxo de métricas A não é mais avaliado.

Diagrama representando um único período de redefinição interno.

O diagrama a seguir mostra dois períodos de redefinição internos para o fluxo de métricas A, dos tempos t3 a t5 e de t6 a t16. O A emite um ponto de dados em t6, iniciando outro período de redefinição interno. No momento t17, o fluxo de métricas A não é mais avaliado.

Diagrama representando dois períodos internos de redefinição.
Exemplo de Alarme de Limite

Um alarme de limite reporta streams de métrica que ocorrem fora do limite. Quando um fluxo de métricas anteriormente problemático está ausente, o alarme inicia o período de redefinição interno do fluxo de métricas.

Neste exemplo, quatro streams de métrica são avaliados por um alarme de limite. A Console mostra os estados de transição inicial de Firing (1:30) e Ok (1:51). O período de redefinição interno ocorre enquanto o alarme está no estado Acionando.

Exemplo de alarme de limite com quatro streams de métrica.

O período de redefinição interna e outros eventos significativos neste exemplo são descritos na tabela a seguir.

Horário Estado Transição Eventos Notificações (consulte Tipos de Mensagem)
12:0 OK OK Todas as emissões estão dentro do limite. FIRING_TO_OK
1:30 FIRING FIRING A emissão de resource1 excede o limite. OK_TO_FIRING
1:35 FIRING -- Nenhuma emissão foi detectada para resource1. O alarme inicia o período de redefinição interno para resource1. --
1:38 FIRING -- Nenhuma emissão foi detectada para resource2. O alarme inicia o período de redefinição interno para resource2. --
1:45 FIRING -- O período de redefinição interno termina para resource1, portanto o alarme não verifica mais as emissões de resource1. No entanto, o alarme ainda está sendo acionado porque o resource2 ainda está em seu próprio período de redefinição interno. --
1:48 OK OK O período de redefinição interno termina para resource2, portanto o alarme não verifica mais as emissões de resource2. As emissões dos recursos restantes (resource3 e resource4) estão dentro do limite. RESET (enviado após o período de três minutos do slack, por volta das 1:51)
Exemplo de Alarme de Ausência

Um alarme de ausência relata streams de métrica ausentes. Quando um stream de métrica está ausente, o alarme inicia o período de detecção de ausência do stream de métrica (o padrão é duas horas, pode ser personalizado). Após a conclusão do período de detecção de ausência, o alarme inicia o período de redefinição interno do fluxo de métricas.

Neste exemplo, um fluxo de métricas é avaliado por um alarme de ausência que usa o período de detecção de ausência padrão de duas horas e o período do slack padrão de três minutos. A Console mostra os estados de transição inicial Acionamento (2:00) e Ok (4:10). O período de redefinição interno ocorre enquanto o alarme está no estado Acionando.

Exemplo de alarme de ausência com um único fluxo de métricas.

O período de redefinição interna e outros eventos significativos neste exemplo são descritos na tabela a seguir.

Horário Estado Transição Eventos Notificações (consulte Tipos de Mensagem)
1:00 OK -- Emissões são detectadas.
2:00 FIRING FIRING Nenhuma emissão foi detectada para o recurso-z. O alarme inicia o período de detecção de ausência para o recurso-z. OK_TO_FIRING
4:0 FIRING -- O período de detecção de ausência para o recurso-z termina. O alarme inicia o período de redefinição interno para o resource-z. --
4:10 OK OK O período de redefinição interno termina para o recurso-z, de modo que o alarme não verifica mais as emissões do recurso-z. Nenhum stream de métrica é monitorado pelo alarme mais, portanto, o alarme muda para o estado Ok. RESET (enviado após o período de três minutos do slack, por volta das 4:13)

Tempo Necessário para Refletir Atualizações de Alarme

As atualizações de alarmes levam até cinco minutos para serem refletidas em todos os lugares.

Por exemplo, se você atualizar um alarme para dividir notificações, poderá levar até cinco minutos para que o status de stream de métricas seja preenchido na Console.

Tipos de Mensagem

O tipo de mensagem indica o motivo pelo qual a mensagem foi enviada.

Observação

O tipo de mensagem especificado é enviado na hora indicada mais o atraso do acionador configurado do alarme, se houver.

Mensagens repetidas também são enviadas se configuradas no alarme.

A tabela a seguir lista o estado do alarme e a transição para cada tipo de mensagem.

Tipo de mensagem Estado Transição Comentários
OK_TO_FIRING FIRING da OK para a FIRING
FIRING_TO_OK OK da FIRING para a OK
REPEAT FIRING -- Esse tipo de mensagem é enviado quando o alarme mantém o estado FIRING e o alarme é configurado para notificações repetidas.
RESET OK da FIRING para a OK

Importante: Quando ocorrer uma alteração no status RESET, observe a integridade do recurso.

Esse tipo de mensagem é enviado quando o alarme faz a transição para o estado OK após uma ou mais redefinições internas. Uma redefinição interna ocorre quando um stream de métrica que fez com que o alarme fizesse a transição para o estado FIRING está continuamente ausente durante o período de redefinição interno completo. Um stream de métrica que é redefinido internamente não é mais rastreado pelo alarme.

Possíveis causas para um stream de métrica ausente: o recurso que estava emitindo a métrica pode ter sido movido ou encerrado ou a métrica pode ser emitida apenas em caso de falha. Para obter mais informações sobre o período de redefinição interno, consulte Sobre o Período de Redefinição Interno.

Conceitos do Serviço Monitoring

Os conceitos a seguir são essenciais para trabalhar com a ferramenta Monitoring.

dados agregados
O resultado da aplicação de uma estatística e um intervalo a uma seleção de ponto de dados brutos para uma métrica, Por exemplo, você pode aplicar a estatística max e intervalo 1h (uma hora) às últimas 24 horas de pontos de dados brutos para a métrica CpuUtilization. Os dados agregados são exibidos em gráficos de métricas padrão na Console. Você também pode criar consultas de métricas para conjuntos específicos de dados agregados. Para obter instruções, consulte Exibindo Gráficos de Métricas Padrão e Criando Consultas de Métricas.
alarme
A consulta de alarme para avaliar e o destino da notificação a ser usado quando o alarme estiver no estado de acionamento, com outras propriedades de alarme.
Para criar um alarme, consulte Criando uma Alarme Básico.
consulta de alarme
A expressão Monitoring Query Language (MQL) a ser avaliada para o alarme. Uma consulta de alarme deve especificar uma métrica, uma estatística, um intervalo e uma regra de acionamento (limite ou ausência). O recurso Alarmes do serviço Monitoring interpreta os resultados para cada série de tempo retornada como um valor Booliano, onde zero representa falso e um valor não zero representa verdadeiro. Um valor verdadeiro significa que a condição da regra de acionamento foi atendida.
Para criar uma consulta de alarme básica, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme. Para criar um alarme, consulte Criando uma Alarme Básico.
ponto de dados
Um par de timestamp/valor para a métrica especificada. Exemplo: 2022-05-10T22:19:00Z, 10.4
Um ponto de dados é bruto ou agregado. Pontos de dados brutos são postados pelo namespace de métrica no serviço Monitoring usando a operação PostMetricData. A frequência dos pontos de dados publicados varia de acordo com o namespace de métricas. Por exemplo, um namespace personalizado pode enviar pontos de dados para uma métrica em uma frequência de 20 segundos.
Os pontos de dados agregados são o resultado da aplicação de uma estatística e de um intervalo a pontos de dados brutos. O intervalo dos pontos de dados agregados é especificado na solicitação SummarizeMetricsData. Por exemplo, uma solicitação que especifica estatística sum e intervalo 1h (uma hora) retorna um valor sum para cada hora de pontos disponíveis de dados brutos para a métrica.
dimensão
Um qualificador fornecido em uma definição de métrica. Exemplo: Identificador de Recurso (resourceId), fornecido nas definições de métricas do oci_computeagent. Use dimensões para filtrar ou agrupar dados de métricas. Exemplo de par de nome/valor da dimensão para filtragem por domínio de disponibilidade: availabilityDomain = "VeBZ:PHX-AD-1"
Para selecionar uma dimensão para um gráfico de métrica ou consulta, consulte Selecionando Dimensões para Filtrar Métricas e Selecionando Dimensões para uma Consulta.
Para selecionar um intervalo para um alarme, consulte Selecionando o Intervalo para uma Consulta de Alarme.
frequência
O período entre cada ponto De Dados bruto publicado para uma métrica. (Os pontos de dados brutos são postados pelo namespace de métricas no serviço Monitoring.) Embora a frequência varie por métrica, as métricas do serviço padrão geralmente têm uma frequência de 60 segundos (um ponto da informação postado por minuto). Consulte também resolução.
intervalo
O intervalo de tempo usado para converter o conjunto de ponto de dados brutos.
O timestamp do ponto de dados agregado corresponde ao fim da janela de tempo durante o qual os pontos de dados brutos são avaliados. Por exemplo, para um intervalo de cinco minutos, o timestamp "2:05" corresponde à janela de tempo de cinco minutos de 2:00: n a 2:05:00.
Esta imagem mostra como o timestamp de um ponto de dados agregado corresponde ao intervalo.
O exemplo a seguir de consulta (expressão MQL) especifica um intervalo de 5 minutos. Para ver opções de intervalo válidas em expressões MQL, consulte Referência de Intervalo (MQL).
CpuUtilization[5m].max()
Observação

Os valores suportados para o intervalo dependem do intervalo de tempo especificado na consulta métrica (não aplicável a consultas de alarme). Mais valores de intervalo são suportados para intervalos de tempo menores. Por exemplo, se você selecionar uma hora para o intervalo de tempo, todos os valores de intervalo serão suportados. Se você selecionar 90 dias para o intervalo de tempo, só haverá suporte para os valores de intervalo entre 1 hora e 1 dia.
Para selecionar um intervalo para um gráfico ou consulta de métrica, consulte Alterando o Intervalo para um Gráfico de Métrica Padrão e Selecionando o Intervalo para uma Consulta.
Para selecionar um intervalo para um alarme, consulte Selecionando o Intervalo para uma Consulta de Alarme.
Consulte também resolução.
mensagem
O conteúdo que o recurso Alarmes do serviço Monitoring publica em tópicos nos destinos de notificações configurados do alarme. Uma mensagem é enviada quando o alarme muda para outro estado, como OK para FIRING.
Para obter mais informações sobre mensagens de alarme, consulte Formato e Exemplos de Mensagem.
metadados
Uma referência fornecida em uma definição de métrica. Exemplo: unidade (bytes) fornecida na definição da métricas DiskBytesRead do oci_computeagent. Use metadados para determinar informações adicionais sobre uma métrica. Para definições de métricas, consulte Serviços Suportados.
métrica
Uma medida relacionada à integridade, capacidade ou desempenho de um recurso. Exemplo: A métrica CpuUtilization oci_computeagent, que mede a utilização de uma instância De Computação. Para definições de métricas, consulte Serviços Suportados.
Observação

Os recursos de métrica não têm OCIDs .
definição de métrica
Um conjunto de referências, qualificadores e outras informações fornecidas por um namespace de métrica para uma métrica. Por exemplo, a métricas DiskBytesRead oci_computeagent é definida por dimensões (como identificador de recurso) e metadados (especificando bytes para unidade), bem como a identificação de seu namespace de métrica (oci_computeagent). Cada conjunto publicado de pontos de dados contém essas informações. Use a operação de API ListMetricData para obter definições de métricas. Para definições de métricas, consulte Serviços Suportados.
Para selecionar um nome de métrica para uma consulta, veja Selecionando o Nome da Métrica para uma Consulta.
Para selecionar um nome de métrica para um alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme e Criando uma Alarme Básico.
namespace de métricas
Indicador do recurso , serviço ou aplicativo que emite a métrica. Fornecido na definição da métrica. Por exemplo, a definição de métricas CpuUtilization emitida pelo software Oracle Cloud Agent em instâncias de computação lista o namespace de métricas oci_computeagent como a origem da métrica CpuUtilization. Para definições de métricas, consulte Serviços Suportados.
Para selecionar um namespace de métrica para gráfico ou consulta de métrica, consulte Exibindo Gráficos de Métrica Padrão para um Namespace de Métrica (Vários Recursos) e Selecionando o Namespace de Métrica para uma Consulta.
Para selecionar um namespace de métricas para um alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme e Criando Um Alarme Básico.
stream da métrica
Um conjunto individual de dados agregados para valores de dimensão de métrica e zero ou mais.
Na página Status de streams de métrica, cada stream de métrica corresponde a um conjunto de pares de chave/valor de dimensão.
Em gráficos de métrica (na Console), cada fluxo de métrica é representado como uma linha (a menos que você agrege todos os fluxos de métrica).
A imagem a seguir representa streams de métrica em um gráfico. Cada linha no gráfico corresponde a um stream de métrica.
Esta imagem ilustra streams de métrica em um gráfico. Cada linha no gráfico corresponde a um stream de métrica.
Por exemplo, considere um compartimento que contenha três instâncias de computação no domínio de disponibilidade AD-1 (incluindo duas no pool de instâncias ipexample) e uma quarta instância no domínio de disponibilidade AD-2. Nesse exemplo, o gráfico de métricas Utilização de CPU mostra quatro linhas (uma por instância). Quando filtrado pelo domínio de disponibilidade AD-1, o gráfico mostra três linhas. Quando filtrado ainda mais pelo pool de instâncias ipexample, o gráfico mostra duas linhas.
Para selecionar streamings de métrica em uma consulta, consulte Selecionando Dimensões para Filtrar Métricas, Selecionando Dimensões para uma Consulta e Selecionando Dimensões para uma Consulta de Alarme.
Para configurar um alarme para notificações por stream da métrica, consulte Criando um Alarme Que Divide Mensagens por Stream da Métrica e Cenário: Dividir Mensagens por Stream da Métrica.
destino da notificação
Detalhes para enviar mensagens quando o alarme muda para outro estado, como de OK para FIRING. Os detalhes e a configuração podem variar de acordo com o serviço de destino. Os serviços de destino disponíveis incluem Notificações e Streaming.
Para o serviço Notifications, especifique um tópico. (Se você estiver criando o tópico para o alarme, especifique também um ou mais protocolos de assinatura (como PagerDuty).
Para o serviço Streaming, especifique um stream.
Para obter exemplos de mensagens de alarme enviadas a tópicos e streams, consulte Exemplo de Mensagens de Alarme.
Para configurar um destino de notificação em um alarme, consulte Definindo Notificações para um Alarme.
Software Oracle Cloud Agent
Software usado por uma instância de computação para postar pontos de dados brutos no serviço Monitoring. Instalado automaticamente com as versões mais recentes das imagens suportadas. Consulte Ativando o Monitoramento de Instâncias do Serviço Compute.
query
A expressão MQL (Monitoring Query Language) e informações associadas (como namespace da métrica) a serem avaliados para retornar dados agregados. A consulta deve especificar uma métrica, uma estatística e um intervalo.
Para criar uma consulta de métrica, consulte Criando uma Consulta.
Para criar uma consulta de alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme.
resolução

O período entre janelas de tempo ou a regularidade com que as janelas de tempo mudam. Por exemplo, use uma resolução de 1m para recuperar agregações a cada minuto.

Observação

Para consultas métricas, o intervalo que você seleciona direciona a resolução padrão da solicitação, que determina a faixa de tempo máximo dos dados retornados.

Para consultas de alarme, o intervalo  especificado não tem efeito na resolução  da solicitação. O único valor válido da resolução de uma solicitação de consulta de alarme é 1m. Para obter mais informações sobre o parâmetro de resolução como usado em consultas de alarme, consulte Alarme.

Como mostrado na ilustração a seguir, a resolução controla o horário inicial de cada janela de agregação em relação à janela anterior, enquanto o intervalo controla o tamanho das janelas. Ambas as solicitações aplicam a estatística max aos dados dentro de cada janela de cinco minutos (do intervalo), resultando em um único ponto de dados agregado representando o contador CPUutilization mais alto dessa janela. Somente o valor da resolução é diferente. Essa resolução altera a regularidade com que as janelas de agregação mudam ou os horários iniciais das sucessivas janelas de agregação. A Solicitação A Não especifica uma resolução e, portanto, usa o valor padrão igual ao intervalo (5 minutos). As janelas de agregação de cinco minutos dessa solicitação são obtidas dos conjuntos de pontos de dados emitidos de 0:n a 5:00, 5:n a 10:00, e assim por diante. A solicitação B especifica uma resolução de 1 minuto; portanto, suas janelas de agregação de cinco minutos são obtidas do conjunto de pontos de dados emitidos a cada minuto, de 0:n a 5:00, 1:n a 6:00, e assim por diante.

Esta imagem mostra como as janelas de agregação começam de acordo com a resolução.

Para especificar uma resolução não default que difere do intervalo, consulte Selecionando uma Resolução Não default para uma Consulta e Criando um Alarme.

grupo de recursos
Uma string personalizada fornecida com uma métrica personalizada que pode ser usada como um filtro ou para agregar resultados. O grupo de recursos deve existir na definição da métrica publicada. Somente um grupo de recursos pode ser aplicado por métrica.
Para selecionar um grupo de recursos em uma consulta, consulte Selecionando um Grupo de Recursos em uma Consulta.
Para selecionar um grupo de recursos em uma consulta de alarme, veja Selecionando um Grupo de Recursos em uma Consulta de Alarme.
estatística
A função de agregação aplicada ao conjunto de ponto de dados brutos.
Para selecionar a estatística de um gráfico ou consulta de métrica, veja Alterando a Estatística de um Gráfico de Métrica Padrão e Selecionando a Estatística de uma Consulta.
Para selecionar a estatística de uma consulta de alarme, veja Selecionando a Estatística de uma Consulta de Alarme.
suppression
Uma configuração para interromper a publicação de mensagens durante o intervalo de tempo especificado. Útil para suspender notificações de alarme durante a manutenção do sistema.
Para suprimir alarmes, consulte Suprimindo um Único Alarme e Suprimindo Vários Alarmes.
intervalo de tempo
Os limites (timestamps) dos dados de métrica que você deseja. Por exemplo, a última hora.
Para selecionar a faixa de tempo de um gráfico ou consulta de métricas, consulte Alterando a Faixa de Tempo para Gráficos de Métricas Padrão, Alterando a Faixa de Tempo para um Gráfico de Métricas Personalizado e Selecionando uma Faixa de Tempo Não padrão para uma Consulta.
regra do acionador
A condição que deve ser atendida para que o alarme esteja no estado de acionamento. Uma regra do acionador pode ser baseada em um limite ou na ausência de uma métrica.
Para configurar uma regra de trigger em um alarme, consulte Adicionando Regras de Trigger a um Alarme.

Disponibilidade

O serviço Monitoring está disponível em todas as regiões comerciais da Oracle Cloud Infrastructure. Consulte Sobre Regiões e Domínios de Disponibilidade para obter a lista de regiões disponíveis, juntamente com locais associados, identificadores de região, chaves de região e domínios de disponibilidade.

Serviços Suportados

Os seguintes serviços têm recursos ou componentes que podem emitir métricas para o Monitoring:

Identificadores de Recursos

A maioria dos tipos de recursos do Oracle Cloud Infrastructure tem um identificador exclusivo designado pelo Oracle chamado OCID (Oracle Cloud ID). Para obter informações sobre o formato do OCID e outras maneiras de identificar seus recursos, consulte Identificadores de Recursos., consulte Identificadores de Recursos.

Observação

Os recursos de métrica não têm OCIDs .

Maneiras de Acessar o Serviço Monitoring

Você pode acessar a Oracle Cloud Infrastructure (OCI) usando a Console (uma interface baseada em browser), a API REST ou a CLI da OCI. As instruções para usar a Console, a API e a CLI são incluídas nos tópicos desta documentação. Para obter uma lista de SDKs disponíveis, consulte SDKs (Software Development Kits) e Interface de Linha de Comando.

Console: Para acessar o Monitoring usando a Console, você deve usar um browser suportado. Para ir para a página do sign-in da Console, abra o menu da navegação na parte superior desta página e selecione Console da Infraestrutura. Você é solicitado a digitar seu tenant na nuvem, seu nome de usuário e sua senha. Abra o menu de navegação e selecione Observabilidade e Gerenciamento. Em Monitoramento, selecione Métricas de Serviço.

API: Para acessar o Monitoring por meio de APIs, use API de Monitoramento para métricas e alarmes e API de Notificações para notificações (usadas com alarmes).

CLI: Consulte Referência de Linha de Comando para o Serviço Monitoring e Referência de Linha de Comando para o serviço Notifications.

Autenticação e Autorização

Cada serviço do Oracle Cloud Infrastructure se integra ao IAM para autenticação e autorização, para todas as interfaces (Console, SDK ou CLI e API REST).

Um administrador de uma organização precisa configurar grupos, compartimentos e políticas que controlam quais usuários podem acessar quais serviços, quais recursos e o tipo de acesso. Por exemplo, as políticas controlam quem pode criar novos usuários, criar e gerenciar a rede na nuvem, criar instâncias, criar buckets, fazer download dos objetos, entre outros. Para obter mais informações, consulte Gerenciando Domínios de Identidade. Para ver detalhes específicos sobre a gravação de políticas para cada um dos diversos serviços, consulte Referência de Políticas.

Se você for um usuário normal (não um administrador) que precisa usar os recursos do Oracle Cloud Infrastructure que a empresa possui, entre em contato com um administrador para configurar um ID de usuário para você. O administrador pode confirmar o(s) compartimento(s) que você pode usar.

Para obter mais informações sobre autorizações de usuário para monitoramento, consulte Políticas do IAM.

Administradores: Para políticas comuns que dão aos grupos acesso a métricas, consulte Acesso a Métricas para Grupos. Para obter políticas comuns de alarme, consulte Acesso a Alarmes para Grupos. Para autorizar recursos, como instâncias, para fazer chamadas de API, adicione os recursos a um grupo dinâmico. Use as regras de correspondência do grupo dinâmico para adicionar os recursos e, em seguida, crie uma política que permita que esse grupo dinâmico acesse as métricas. Consulte Acesso a Métricas para Recursos.

Limites do Serviço Monitoring

Consulte Limites do Serviço Monitoring para obter uma lista dos limites e instruções aplicáveis para solicitar um aumento de limite.

Outros limites incluem o seguinte.

Limites de Armazenamento

Item Intervalo de tempo de armazenamento
Definições de métrica 90 dias
Entradas do histórico de alarmes 90 dias

Limites de Mensagem de Alarme

O número máximo de mensagens por avaliação do alarme depende do destino do alarme. Os limites são associados ao serviço Oracle Cloud Infrastructure usado para o destino.

O monitoramento rastreia 200.000 fluxos de métrica por alarme para eventos de qualificação. Para obter mais informações sobre avaliações de alarme, consulte Avaliações de Alarme nesta página.

Destino do alarme Entrega Número máximo de mensagens de alarme por avaliação
tópico (Notificações) Pelo menos uma vez 60
stream (Streaming) Pelo menos uma vez 100,000

Por exemplo, considere as avaliações a seguir de um alarme que divide as notificações entre 200 streams de métrica, usando um tópico como seu destino.

Avaliação de alarme (tempo) Transição do stream de métrica Mensagens geradas Mensagens enviadas Mensagens eliminadas
00:01:00 110 streams de métrica mudam de OK para FIRING. 110 60 50
00:02:00 90 streams de métrica mudam de OK para FIRING. 90 60 30

Quando um tópico ou stream é usado intensivamente, isso pode resultar em notificações de alarme atrasadas. O uso intenso pode ocorrer quando vários recursos estão usando esse tópico ou stream.

Melhores Práticas para Trabalhar Dentro dos Limites

Quando você esperar um alto volume de notificações de alarme, siga essas melhores práticas para ajudar a evitar exceder os limites de mensagens de alarme e atrasos associados.

  • Reserve um único tópico ou stream para uso com um alarme de alto volume. Não use um tópico ou stream para vários alarmes de alto volume.
  • Se você esperar mais de 60 mensagens por minuto, especifique o Streaming como o destino do alarme.
  • Streams:
    • Crie partições com base na carga esperada. Consulte Limites de Recursos do Serviço Streaming.
    • Se as mensagens de alarme excederem o espaço de stream, atualize o alarme para usar um stream diferente que tenha mais partições. Por exemplo, se o stream original contiver cinco partições, crie um stream com dez partições e, em seguida, atualize o alarme para usar o novo stream.
      Observação

      Para evitar mensagens ausentes, continue consumindo o stream original até que nenhuma outra mensagem seja recebida.
  • Aumente os limites da tenancy:

Segurança

Este tópico descreve o monitoramento da segurança.

Para obter informações sobre como proteger o Monitoring, incluindo informações de segurança e recomendações, consulte Protegendo o Monitoring.