Visão Geral do Serviço Monitoring

Use o serviço Oracle Cloud Infrastructure Monitoring para monitorar ativa e passivamente os recursos da nuvem usando os recursos Metrics and Alarms. Saiba como o serviço Monitoring funciona.

Esta imagem mostra métricas e alarmes como usados no serviço Monitoring.

Dica

Assista a uma introdução em vídeo ao serviço.

Como o Serviço Monitoring Funciona

O serviço Monitoring usa métricas para monitorar recursos e alarmes para notificá-lo quando essas métricas atenderem a acionadores especificados por alarme.

As Métricas são emitidas para o serviço Monitoring como pontos brutos, ou pares de timestamp/valor, juntamente com dimensões e metadados. As métricas vêm de várias fontes:

Métricas de recursos postadas automaticamente pelos recursos do Oracle Cloud Infrastructure. Por exemplo, o serviço Compute publica métricas para monitorar instâncias de computação ativadas pelo namespace oci_computeagent. Uma dessas métricas é CpuUtilization. Consulte Serviços Suportados e Exibindo Gráficos de Métrica Padrão.
Métricas personalizadas publicadas usando a API de Monitoramento.
Dados enviados para métricas novas ou existentes usando o Connector Hub (com o Monitoring como serviço de destino para um conector).

Você pode transferir métricas do serviço Monitoring usando o Connector Hub. Para obter mais informações, consulte Criando um Conector com uma Origem de Monitoramento.

Os dados de métrica publicados no serviço Monitoring só são apresentados a você ou consumidos pelos recursos do Oracle Cloud Infrastructure que você ativa para usar dados de métrica.

Quando você consulta uma métrica, o serviço Monitoring retorna dados agregados de acordo com os parâmetros especificados. Você pode especificar um intervalo (como as últimas 24 horas), uma estatística e um intervalo . A Console exibe um gráfico de monitoramento por métrica para os recursos selecionados. Os dados agregados em cada gráfico refletem o intervalo e a estatística selecionados. As solicitações de API podem opcionalmente filtrar por dimensão e especificar uma resolução. As respostas de API incluem o nome da métrica com seu compartimento de origem e seu namespace de métricas. Você pode alimentar os dados agregados em uma visualização ou biblioteca de gráficos.

Os dados de métrica e alarme podem ser acessados pela Console, CLI e API. Para períodos de retenção, consulte Limites de Armazenamento.

O recurso Alarmes do serviço Monitoring publica mensagens de alarme para destinos configurados, como tópicos no Notifications e streams no Streaming .

Visão Geral do Recurso de Métricas

O recurso Metrics retransmite dados de métrica sobre a integridade, a capacidade e a performance dos recursos da nuvem.

Uma métrica é uma medida relacionada à integridade, capacidade ou desempenho de um recurso. Recursos, serviços e aplicativos emitem métricas para o serviço Monitoring. Métricas comuns refletem dados relacionados a:

Disponibilidade e latência
Período de disponibilidade e inatividade do aplicativo
Transações concluídas
Operações com falha e bem-sucedidas
Indicadores chave de desempenho (KPIs), como quantificadores de vendas e engajamento

Ao consultar o Monitoring para esses dados, você pode entender o quão bem os sistemas e processos estão trabalhando para atingir os níveis de serviço que você se compromete com seus clientes. Por exemplo, você pode monitorar a utilização da CPU e leituras de disco de instâncias de computação. Você pode então usar estes dados para decidir quando provisionar mais instâncias para lidar com carga aumentada, diagnosticar problemas com a instância ou compreender melhor a atividade do sistema.

Exemplo de Métrica: Taxa de Falha

Para a integridade do aplicativo, um dos KPIs comuns é a taxa de falha, para a qual uma definição comum é o número de transações com falha dividido pelo total de transações. Esse KPI é normalmente fornecido por meio do software de gerenciamento e monitoramento de aplicativos.

Como desenvolvedor, você pode capturar esse KPI de aplicativos usando métricas personalizadas. Registre observações toda vez que uma transação de aplicativo ocorrer e, em seguida, publique esses dados no serviço Monitoring. Nesse caso, configure métricas para capturar transações com falha, transações bem-sucedidas e latência de transação (tempo gasto por transação concluída).

Visão Geral do Recurso de Alarmes

Use alarmes para monitorar a integridade, a capacidade e a performance dos recursos da nuvem.

Os recursos emitem pontos de dados de métrica para o serviço Monitoring. Quando acionados, os alarmes enviam mensagens para o destino configurado. Para o serviço Notifications, as mensagens são enviadas para assinaturas no tópico configurado. Para o serviço Streaming, as mensagens são enviadas ao stream configurado).

O recurso Alarmes do serviço Monitoring funciona com o serviço de destino configurado para notificá-lo quando as métricas atenderem aos acionadores especificados pelo alarme. A ilustração anterior ilustra o fluxo, começando com recursos emitindo ponto de dados de métrica para Monitoramento. Quando acionado, um alarme envia uma mensagem para alarme para o destino configurado. Para Notificações, as mensagens são enviadas a assinaturas no tópico configurado. Para o serviço Streaming, as mensagens são enviadas ao stream configurado. (Esta ilustração não abrange dados de métrica brutos e agregados. Para obter esses detalhes, consulte a ilustração "Visão Geral do Monitoramento" na parte superior desta página .)

Quando configurado, as notificações repetidas lembram um estado de acionamento contínuo no intervalo de repetição configurado. Você também será notificado quando um alarme passar de volta ao estado OK ou quando um alarme for redefinido.

Avaliações de Alarme

O monitoramento avalia os alarmes uma vez por minuto para localizar o status de alarme.

Quando o alarme divide as notificações, o Monitoring avalia cada fluxo de métricas rastreado. Se a avaliação desse fluxo de métricas indicar um novo status FIRING ou outro evento de qualificação, o Monitoring enviará uma mensagem de alarme.

O monitoramento rastreia fluxos de métrica por alarme para eventos de qualificação, mas as mensagens estão sujeitas aos limites de serviço de destino.

Ilustração de Avaliação de Alarme

Considere um alarme que mede o percentil 90 da métrica CpuUtilization.

{
  "compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "destinations": ["ocid1.onstopic.exampleuniqueID"],
  "displayName": "High CPU Utilization",
  "id": "ocid1.alarm.oc1..exampleuniqueID",
  "lifecycleState": "ACTIVE",
  "metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "namespace": "oci_computeagent",
  "pendingDuration": "PT3M",
  "query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
  "repeatNotificationDuration": "PT2H",
  "severity": "WARNING",
  "isEnabled": true,
  "timeCreated": "2023-02-01T01:02:29.600Z",
  "timeUpdated": "2023-02-03T01:02:29.600Z"
}

Observações sobre este alarme de exemplo:

O percentil é especificado na consulta como a estatística (negrito):

CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85

Cada ponto de dados é o percentil 90 (percentile(0.9)) de uma janela de um minuto, especificado na consulta como o intervalo (negrito):
```
CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
```
Os valores de ponto de dados para essa estatística podem variar de nulo (ausente) a 100.
Avaliações de pontos de dados:
- Para qualquer valor de ponto de dados maior que 85, a avaliação é verdadeira (1). Uma avaliação verdadeira significa que a condição da regra do acionador foi atendida.
- Para qualquer valor de ponto de dados que não seja maior que 85, a avaliação é falsa (0).
O alarme não é acionado até que a condição regra de acionamento seja atendida por três minutos sucessivos. Essa configuração é o atraso de acionamento do alarme (pendingDuration), definido como PT3M.
O alarme atualiza seu estado para OK quando a condição de violação foi clara no minuto mais recente.

A imagem a seguir mostra um fluxo de métricas agregado para o exemplo de alarme. Cada ponto de dados é indicado por um quadrado.

Fluxo de métrica agregado para o alarme de exemplo.

A tabela a seguir mostra avaliações de alarme consecutivas para o alarme de exemplo. O alarme é avaliado em uma janela móvel de três intervalos de um minuto.


Carimbo de data/hora do período de avaliação	Minutos de período	Avaliações de pontos de dados*	Status
3	[1 2 3]	[0 0 0]	`OK`
4	[2 3 4]	[0 0 1]	`OK`
5	[3 4 5]	[0 1 1]	`OK`
6	[4 5 6]	[1 1 1]	`FIRING`
7	[5 6 7]	[1 1 1]	`FIRING`
8	[6 7 8]	[1 1 0]	`OK`
9	[7 8 9]	[1 0 0]	`OK`
10	[8 9 10]	[0 0 0]	`OK`

*Um valor 1 (um) significa que a condição regra de acionamento é atendida.

Como os Pontos de Dados São Contados

Esta seção descreve como determinar o número de pontos de dados (ou pontos de dados) recuperados por um alarme. Esse número pode ajudar você a estimar os preços de monitoramento.

Para localizar o número de pontos de dados recuperados por um alarme, primeiro obtenha o número de streams de consulta e minutos analisados.

O número de streams de consulta depende dos streams de métrica retornados pela consulta de alarme.
Os minutos analisados dependem dos atributos de alarme interval, resolution e pendingDuration. Para consultas de alarme, o único valor válido para resolution é 1m. Para obter mais informações sobre interval, consulte Intervalo. Para obter mais informações sobre resolution e pendingDuration, consulte API de Monitoramento.

Cada alarme é avaliado uma vez a cada minuto, e assim cada alarme é avaliado 1440 vezes por dia. Cada avaliação consulta os dados no intervalo de tempo definido por interval e verifica o período em que o alarme persiste definido por pendingDuration. Portanto, os minutos analisados a cada minuto são calculados pela seguinte expressão:

minutos analisados a cada minuto = interval * teto(pendingDuration / resolution)

Sobre o Período de Redefinição Interno

O período de redefinição interno determina quando um alarme interrompe a verificação de uma métrica ausente que acionou o estado de Acionamento na avaliação anterior. Quando a métrica estiver ausente durante todo o período, avaliações de alarme posteriores ignorarão o fluxo de métrica indicado. Se nenhum outro stream de métrica estiver causando o estado Firing do alarme, o alarme fará a transição para OK e enviará uma mensagem RESET. Por padrão, a mensagem RESET chega após 13 minutos (período de redefinição interno mais o período de folga padrão de 3 minutos). Você pode personalizar o período de folga.

A duração do período de redefinição interna é configurada globalmente em 10 minutos, o que faz com que o histórico de alarmes mostre uma diferença de 10 minutos.

O início de um período de redefinição interno depende do tipo de alarme. Para alarmes de limite, o período de redefinição interna começa quando a primeira ausência é detectada. Para alarmes de ausência, o período de redefinição interna começa após a conclusão do período de detecção de ausência (o padrão é 2 horas, pode ser personalizado).

Pontos de Dados Coletados Durante um Período de Redefinição Interno

Cada avaliação durante o período interno de redefinição de dez minutos contabiliza todos os pontos de dados nesse período.

Por exemplo, considere um fluxo de métricas (A) que exceda o limite (linha vermelha tracejada nos diagramas a seguir). O alarme dispara (F). Quando uma falta de pontos de dados emitidos é detectada, um período de redefinição interno começa.

O diagrama a seguir mostra um único período de redefinição interno para o fluxo de métricas A, dos tempos t5 a t15. No momento t16, o fluxo de métricas A não é mais avaliado.

Diagrama representando um único período de redefinição interno.

O diagrama a seguir mostra dois períodos de redefinição internos para o fluxo de métricas A, dos tempos t3 a t5 e de t6 a t16. O A emite um ponto de dados em t6, iniciando outro período de redefinição interno. No momento t17, o fluxo de métricas A não é mais avaliado.

Diagrama representando dois períodos internos de redefinição.

Exemplo de Alarme de Limite

Um alarme de limite reporta streams de métrica que ocorrem fora do limite. Quando um fluxo de métricas anteriormente problemático está ausente, o alarme inicia o período de redefinição interno do fluxo de métricas.

Neste exemplo, quatro streams de métrica são avaliados por um alarme de limite. A Console mostra os estados de transição inicial de Firing (1:30) e Ok (1:51). O período de redefinição interno ocorre enquanto o alarme está no estado Acionando.

Exemplo de alarme de limite com quatro streams de métrica.

O período de redefinição interna e outros eventos significativos neste exemplo são descritos na tabela a seguir.

Horário	Estado	Transição	Eventos	Notificações (consulte Tipos de Mensagem)
12:0	`OK`	`OK`	Todas as emissões estão dentro do limite.	`FIRING_TO_OK`
1:30	`FIRING`	`FIRING`	A emissão de resource1 excede o limite.	`OK_TO_FIRING`
1:35	`FIRING`	`--`	Nenhuma emissão foi detectada para resource1. O alarme inicia o período de redefinição interno para resource1.	`--`
1:38	`FIRING`	`--`	Nenhuma emissão foi detectada para resource2. O alarme inicia o período de redefinição interno para resource2.	`--`
1:45	`FIRING`	`--`	O período de redefinição interno termina para resource1, portanto o alarme não verifica mais as emissões de resource1. No entanto, o alarme ainda está sendo acionado porque o resource2 ainda está em seu próprio período de redefinição interno.	`--`
1:48	`OK`	`OK`	O período de redefinição interno termina para resource2, portanto o alarme não verifica mais as emissões de resource2. As emissões dos recursos restantes (resource3 e resource4) estão dentro do limite.	`RESET` (enviado após o período de três minutos do slack, por volta das 1:51)

Exemplo de Alarme de Ausência

Um alarme de ausência relata streams de métrica ausentes. Quando um stream de métrica está ausente, o alarme inicia o período de detecção de ausência do stream de métrica (o padrão é duas horas, pode ser personalizado). Após a conclusão do período de detecção de ausência, o alarme inicia o período de redefinição interno do fluxo de métricas.

Neste exemplo, um fluxo de métricas é avaliado por um alarme de ausência que usa o período de detecção de ausência padrão de duas horas e o período do slack padrão de três minutos. A Console mostra os estados de transição inicial Acionamento (2:00) e Ok (4:10). O período de redefinição interno ocorre enquanto o alarme está no estado Acionando.

Exemplo de alarme de ausência com um único fluxo de métricas.

O período de redefinição interna e outros eventos significativos neste exemplo são descritos na tabela a seguir.

Horário	Estado	Transição	Eventos	Notificações (consulte Tipos de Mensagem)
1:00	`OK`	--	Emissões são detectadas.
2:00	`FIRING`	`FIRING`	Nenhuma emissão foi detectada para o recurso-z. O alarme inicia o período de detecção de ausência para o recurso-z.	`OK_TO_FIRING`
4:0	`FIRING`	`--`	O período de detecção de ausência para o recurso-z termina. O alarme inicia o período de redefinição interno para o resource-z.	`--`
4:10	`OK`	`OK`	O período de redefinição interno termina para o recurso-z, de modo que o alarme não verifica mais as emissões do recurso-z. Nenhum stream de métrica é monitorado pelo alarme mais, portanto, o alarme muda para o estado Ok.	`RESET` (enviado após o período de três minutos do slack, por volta das 4:13)

Tempo Necessário para Refletir Atualizações de Alarme

As atualizações de alarmes levam até cinco minutos para serem refletidas em todos os lugares.

Por exemplo, se você atualizar um alarme para dividir notificações, poderá levar até cinco minutos para que o status de stream de métricas seja preenchido na Console.

Procurando Alarmes

Pesquise alarmes usando atributos suportados.

Para obter mais informações sobre a Pesquisa, consulte Visão Geral da Pesquisa. Para obter descrições de atributos, consulte Referência de Alarme.

Atributos Suportados pelo Serviço Search para Alarmes

id
displayName
compartmentId
metricCompartmentId
namespace
query
severity
destinations
suppression
isEnabled
lifecycleState
timeCreated
timeUpdated
tags

Tipos de Mensagem

O tipo de mensagem indica o motivo pelo qual a mensagem foi enviada.

Observação

O tipo de mensagem especificado é enviado na hora indicada mais o atraso do acionador configurado do alarme, se houver.

Mensagens repetidas também são enviadas se configuradas no alarme.

A tabela a seguir lista o estado do alarme e a transição para cada tipo de mensagem.

Tipo de mensagem	Estado	Transição	Comentários
`OK_TO_FIRING`	`FIRING`	da `OK` para a `FIRING`
`FIRING_TO_OK`	`OK`	da `FIRING` para a `OK`
`REPEAT`	`FIRING`	--	Esse tipo de mensagem é enviado quando o alarme mantém o estado `FIRING` e o alarme é configurado para notificações repetidas.
`RESET`	`OK`	da `FIRING` para a `OK`	Importante: Quando ocorrer uma alteração no status `RESET`, observe a integridade do recurso. Esse tipo de mensagem é enviado quando o alarme faz a transição para o estado `OK` após uma ou mais redefinições internas. Uma redefinição interna ocorre quando um stream de métrica que fez com que o alarme fizesse a transição para o estado `FIRING` está continuamente ausente durante o período de redefinição interno completo. Um stream de métrica que é redefinido internamente não é mais rastreado pelo alarme. Possíveis causas para um stream de métrica ausente: o recurso que estava emitindo a métrica pode ter sido movido ou encerrado ou a métrica pode ser emitida apenas em caso de falha. Para obter mais informações sobre o período de redefinição interno, consulte Sobre o Período de Redefinição Interno.

Formato e Exemplos de Mensagem

Consulte Exemplo de Mensagens de Alarme e Formato de Mensagem de Alarme.

Conceitos do Serviço Monitoring

Os conceitos a seguir são essenciais para trabalhar com a ferramenta Monitoring.

dados agregados

O resultado da aplicação de uma estatística e um intervalo a uma seleção de ponto de dados brutos para uma métrica, Por exemplo, você pode aplicar a estatística max e intervalo 1h (uma hora) às últimas 24 horas de pontos de dados brutos para a métrica CpuUtilization. Os dados agregados são exibidos em gráficos de métricas padrão na Console. Você também pode criar consultas de métricas para conjuntos específicos de dados agregados. Para obter instruções, consulte Exibindo Gráficos de Métricas Padrão e Criando Consultas de Métricas.

alarme

A consulta de alarme para avaliar e o destino da notificação a ser usado quando o alarme estiver no estado de acionamento, com outras propriedades de alarme.

Para criar um alarme, consulte Criando uma Alarme Básico.

consulta de alarme

A expressão Monitoring Query Language (MQL) a ser avaliada para o alarme. Uma consulta de alarme deve especificar uma métrica, uma estatística, um intervalo e uma regra de acionamento (limite ou ausência). O recurso Alarmes do serviço Monitoring interpreta os resultados para cada série de tempo retornada como um valor Booliano, onde zero representa falso e um valor não zero representa verdadeiro. Um valor verdadeiro significa que a condição da regra de acionamento foi atendida.

Para criar uma consulta de alarme básica, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme. Para criar um alarme, consulte Criando uma Alarme Básico.

ponto de dados

Um par de timestamp/valor para a métrica especificada. Exemplo: 2022-05-10T22:19:00Z, 10.4

Um ponto de dados é bruto ou agregado. Pontos de dados brutos são postados pelo namespace de métrica no serviço Monitoring usando a operação PostMetricData. A frequência dos pontos de dados publicados varia de acordo com o namespace de métricas. Por exemplo, um namespace personalizado pode enviar pontos de dados para uma métrica em uma frequência de 20 segundos.

Os pontos de dados agregados são o resultado da aplicação de uma estatística e de um intervalo a pontos de dados brutos. O intervalo dos pontos de dados agregados é especificado na solicitação SummarizeMetricsData. Por exemplo, uma solicitação que especifica estatística sum e intervalo 1h (uma hora) retorna um valor sum para cada hora de pontos disponíveis de dados brutos para a métrica.

dimensão

Um qualificador fornecido em uma definição de métrica. Exemplo: Identificador de Recurso (resourceId), fornecido nas definições de métricas do oci_computeagent. Use dimensões para filtrar ou agrupar dados de métricas. Exemplo de par de nome/valor da dimensão para filtragem por domínio de disponibilidade: availabilityDomain = "VeBZ:PHX-AD-1"

Para selecionar uma dimensão para um gráfico de métrica ou consulta, consulte Selecionando Dimensões para Filtrar Métricas e Selecionando Dimensões para uma Consulta.

Para selecionar um intervalo para um alarme, consulte Selecionando o Intervalo para uma Consulta de Alarme.

frequência

O período entre cada ponto De Dados bruto publicado para uma métrica. (Os pontos de dados brutos são postados pelo namespace de métricas no serviço Monitoring.) Embora a frequência varie por métrica, as métricas do serviço padrão geralmente têm uma frequência de 60 segundos (um ponto De Dados postado por minuto). Consulte também resolução .

intervalo

O intervalo de tempo usado para converter o conjunto de ponto de dados brutos.

O timestamp do ponto de dados agregado corresponde ao fim da janela de tempo durante o qual os pontos de dados brutos são avaliados. Por exemplo, para um intervalo de cinco minutos, o timestamp "2:05" corresponde à janela de tempo de cinco minutos de 2:00: n a 2:05:00.

Esta imagem mostra como o timestamp de um ponto de dados agregado corresponde ao intervalo.

O exemplo a seguir de consulta (expressão MQL) especifica um intervalo de 5 minutos. Para ver opções de intervalo válidas em expressões MQL, consulte Referência de Intervalo (MQL).

CpuUtilization[5m].max()

Observação

Os valores suportados para o intervalo dependem do intervalo de tempo especificado na consulta métrica (não aplicável a consultas de alarme). Mais valores de intervalo são suportados para intervalos de tempo menores. Por exemplo, se você selecionar uma hora para o intervalo de tempo, todos os valores de intervalo serão suportados. Se você selecionar 90 dias para o intervalo de tempo, só haverá suporte para os valores de intervalo entre 1 hora e 1 dia.

Para selecionar um intervalo para um gráfico ou consulta de métrica, consulte Alterando o Intervalo para um Gráfico de Métrica Padrão e Selecionando o Intervalo para uma Consulta.

Para selecionar um intervalo para um alarme, consulte Selecionando o Intervalo para uma Consulta de Alarme.

Consulte também resolução.

mensagem

O conteúdo que o recurso Alarmes do serviço Monitoring publica em tópicos nos destinos de notificações configurados do alarme. Uma mensagem é enviada quando o alarme muda para outro estado, como OK para FIRING.

Para obter mais informações sobre mensagens de alarme, consulte Formato e Exemplos de Mensagem.

metadados

Uma referência fornecida em uma definição de métrica. Exemplo: unidade (bytes) fornecida na definição da métricas DiskBytesRead do oci_computeagent. Use metadados para determinar informações adicionais sobre uma métrica. Para definições de métricas, consulte Serviços Suportados.

métrica

Uma medida relacionada à integridade, capacidade ou desempenho de um recurso. Exemplo: A métrica CpuUtilization oci_computeagent, que mede a utilização de uma instância De Computação. Para definições de métricas, consulte Serviços Suportados.

Observação

Os recursos de métrica não têm OCIDs .

definição de métrica

Um conjunto de referências, qualificadores e outras informações fornecidas por um namespace de métrica para uma métrica. Por exemplo, a métricas DiskBytesRead oci_computeagent é definida por dimensões (como identificador de recurso) e metadados (especificando bytes para unidade), bem como a identificação de seu namespace de métrica (oci_computeagent). Cada conjunto publicado de pontos de dados contém essas informações. Use a operação de API ListMetricData para obter definições de métricas. Para definições de métricas, consulte Serviços Suportados.

Para selecionar um nome de métrica para uma consulta, veja Selecionando o Nome da Métrica para uma Consulta.

Para selecionar um nome de métrica para um alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme e Criando uma Alarme Básico.

namespace de métricas

Indicador do recurso , serviço ou aplicativo que emite a métrica. Fornecido na definição da métrica. Por exemplo, a definição de métricas CpuUtilization emitida pelo software Oracle Cloud Agent em instâncias de computação lista o namespace de métricas oci_computeagent como a origem da métrica CpuUtilization. Para definições de métricas, consulte Serviços Suportados.

Para selecionar um namespace de métrica para gráfico ou consulta de métrica, consulte Exibindo Gráficos de Métrica Padrão para um Namespace de Métrica (Vários Recursos) e Selecionando o Namespace de Métrica para uma Consulta.

Para selecionar um namespace de métricas para um alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme e Criando Um Alarme Básico.

stream da métrica

Um conjunto individual de dados agregados para valores de dimensão de métrica e zero ou mais.

Na página Status de streams de métrica, cada stream de métrica corresponde a um conjunto de pares de chave/valor de dimensão.

Em gráficos de métrica (na Console), cada fluxo de métrica é representado como uma linha (a menos que você agrege todos os fluxos de métrica).

A imagem a seguir representa streams de métrica em um gráfico. Cada linha no gráfico corresponde a um stream de métrica.

Esta imagem ilustra streams de métrica em um gráfico. Cada linha no gráfico corresponde a um stream de métrica.

Por exemplo, considere um compartimento que contenha três instâncias de computação no domínio de disponibilidade AD-1 (incluindo duas no pool de instâncias ipexample) e uma quarta instância no domínio de disponibilidade AD-2. Nesse exemplo, o gráfico de métricas Utilização de CPU mostra quatro linhas (uma por instância). Quando filtrado pelo domínio de disponibilidade AD-1, o gráfico mostra três linhas. Quando filtrado ainda mais pelo pool de instâncias ipexample, o gráfico mostra duas linhas.

Para selecionar streamings de métrica em uma consulta, consulte Selecionando Dimensões para Filtrar Métricas, Selecionando Dimensões para uma Consulta e Selecionando Dimensões para uma Consulta de Alarme.

Para configurar um alarme para notificações por stream da métrica, consulte Criando um Alarme Que Divide Mensagens por Stream da Métrica e Cenário: Dividir Mensagens por Stream da Métrica.

destino da notificação

Detalhes para enviar mensagens quando o alarme muda para outro estado, como de OK para FIRING. Os detalhes e a configuração podem variar de acordo com o serviço de destino. Os serviços de destino disponíveis incluem Notificações e Streaming.

Para o serviço Notifications, especifique um tópico. (Se você estiver criando o tópico para o alarme, especifique também um ou mais protocolos de assinatura (como PagerDuty).

Para o serviço Streaming, especifique um stream.

Para obter exemplos de mensagens de alarme enviadas a tópicos e streams, consulte Exemplo de Mensagens de Alarme.

Para configurar um destino de notificação em um alarme, consulte Definindo Notificações para um Alarme.

Software Oracle Cloud Agent

Software usado por uma instância de computação para postar pontos de dados brutos no serviço Monitoring. Instalado automaticamente com as versões mais recentes das imagens suportadas. Consulte Ativando o Monitoramento de Instâncias do Serviço Compute.

query

A expressão MQL (Monitoring Query Language) e informações associadas (como namespace da métrica) a serem avaliados para retornar dados agregados. A consulta deve especificar uma métrica, uma estatística e um intervalo.

Para criar uma consulta de métrica, consulte Criando uma Consulta.

Para criar uma consulta de alarme, consulte Criando uma Consulta Básica para Gerar um Gráfico de Métricas de Alarme.

resolução

O período entre janelas de tempo ou a regularidade com que as janelas de tempo mudam. Por exemplo, use uma resolução de 1m para recuperar agregações a cada minuto.

Observação

Para consultas métricas, o intervalo que você seleciona determina a resolução padrão da solicitação, que determina a faixa de tempo máximo de dados retornados.

Para consultas de alarme, o intervalo especificado não tem efeito na resolução da solicitação. O único valor válido da resolução de uma solicitação de consulta de alarme é 1m. Para obter mais informações sobre o parâmetro de resolução como usado em consultas de alarme, consulte Alarme.

Como mostrado na ilustração a seguir, a resolução controla o horário inicial de cada janela de agregação em relação à janela anterior, enquanto o intervalo controla o tamanho das janelas. Ambas as solicitações aplicam a estatística max aos dados dentro de cada janela de cinco minutos (do intervalo), resultando em um único ponto de dados agregado representando o contador CPUutilization mais alto dessa janela. Somente o valor da resolução é diferente. Essa resolução altera a regularidade com que as janelas de agregação mudam ou os horários iniciais das sucessivas janelas de agregação. A Solicitação A Não especifica uma resolução e, portanto, usa o valor padrão igual ao intervalo (5 minutos). As janelas de agregação de cinco minutos dessa solicitação são obtidas dos conjuntos de pontos de dados emitidos de 0:n a 5:00, 5:n a 10:00, e assim por diante. A solicitação B especifica uma resolução de 1 minuto; portanto, suas janelas de agregação de cinco minutos são obtidas do conjunto de pontos de dados emitidos a cada minuto, de 0:n a 5:00, 1:n a 6:00, e assim por diante.

Esta imagem mostra como as janelas de agregação começam de acordo com a resolução.

Para especificar uma resolução não default que difere do intervalo, consulte Selecionando uma Resolução Não default para uma Consulta e Criando um Alarme.

grupo de recursos

Uma string personalizada fornecida com uma métrica personalizada que pode ser usada como um filtro ou para agregar resultados. O grupo de recursos deve existir na definição da métrica publicada. Somente um grupo de recursos pode ser aplicado por métrica.

Para selecionar um grupo de recursos em uma consulta, consulte Selecionando um Grupo de Recursos em uma Consulta.

Para selecionar um grupo de recursos em uma consulta de alarme, veja Selecionando um Grupo de Recursos em uma Consulta de Alarme.

estatística

A função de agregação aplicada ao conjunto de ponto de dados brutos.

Para selecionar a estatística de um gráfico ou consulta de métrica, veja Alterando a Estatística de um Gráfico de Métrica Padrão e Selecionando a Estatística de uma Consulta.

Para selecionar a estatística de uma consulta de alarme, veja Selecionando a Estatística de uma Consulta de Alarme.

suppression

Uma configuração para interromper a publicação de mensagens durante o intervalo de tempo especificado. Útil para suspender notificações de alarme durante a manutenção do sistema.

Para suprimir alarmes, consulte Suprimindo um Único Alarme e Suprimindo Vários Alarmes.

intervalo de tempo

Os limites (timestamps) dos dados de métrica que você deseja. Por exemplo, a última hora.

Para selecionar a faixa de tempo de um gráfico ou consulta de métricas, consulte Alterando a Faixa de Tempo para Gráficos de Métricas Padrão, Alterando a Faixa de Tempo para um Gráfico de Métricas Personalizado e Selecionando uma Faixa de Tempo Não padrão para uma Consulta.

regra do acionador

A condição que deve ser atendida para que o alarme esteja no estado de acionamento. Uma regra do acionador pode ser baseada em um limite ou na ausência de uma métrica.

Para configurar uma regra de trigger em um alarme, consulte Adicionando Regras de Trigger a um Alarme.

Disponibilidade

O serviço Monitoring está disponível em todas as regiões comerciais da Oracle Cloud Infrastructure. Consulte Sobre Regiões e Domínios de Disponibilidade para obter a lista de regiões disponíveis, juntamente com locais associados, identificadores de região, chaves de região e domínios de disponibilidade.

Serviços Suportados

Os seguintes serviços têm recursos ou componentes que podem emitir métricas para o Monitoring:

Analytics Cloud - consulte Monitorar Métricas
API Gateway - consulte Métricas do ServiçoAPI Gateway
Application Performance Monitoring - consulte Métricas do Serviço Application Performance Monitoring
Autonomous Recovery Service - consulte Métricas do Serviço de Recuperação
Bastion - consulte Métricas de Bastion
Batch - consulte Métricas de Batch
Big Data Service - consulte Gerenciando Métricas de Cluster
Volume em Blocos - consulte Métricas do Serviço Blockchain
Blockchain Platform - consulte Monitorar Métricas
Computação - consulte Métricas e Monitoramento do Serviço Compute
Compute Cloud@Customer - consulte Métricas do Compute Cloud@Customer
Connector Hub - consulte Métricas do Connector Hub
Container Instances - consulte Métricas da Instância do Contêiner
Catálogo de Dados - consulte Métricas do serviço Data Catalog
Fluxo de Dados - consulte Métricas do ServiçoData Flow
Integração de Dados - consulte Métricas do ServiçoData Integration
Data Science - consulte Métricas
Banco de dados - consulte estas páginas:
- Monitore o Desempenho com Métricas do Autonomous AI Database (Autonomous AI Database Serverless)
- Observabilidade do Banco de Dados com Métricas do Autonomous AI Database (Autonomous AI Database on Dedicated Exadata Infrastructure)
- Métricas do Oracle Exadata Database Service on Dedicated Infrastructure no Serviço Monitoring (em Guias de Referência para a Exadata Cloud Infrastructure)
- Métricas do Base Database Service no Database Management Service: Monitorar um Banco de Dados Usando Métricas do Serviço Database Management
- Métricas do Banco de Dados Externo
Database Management - consulte Métricas do Serviço Database Management para Bancos de Dados Oracle
Migração de Banco de Dados - consulte Métricas do ServiçoDatabase Migration
OCI Database with PostgreSQL - consulte Métricas do OCI Database with PostgreSQL
DevOps - consulte DevOps Métricas
Assistente Digital - consulte Métricas do Serviço Digital Assistant
DNS - consulte Métricas de DNS
Email Delivery - consulte Métricas do Serviço E-mail Delivery
Events - consulte Métricas de Eventos
File Storage - consulte Métricas do Sistema de Arquivo
Funções - consulte Métricas de Função
Globally Distributed Autonomous AI Database - consulte Monitorar o Desempenho com Métricas do Autonomous AI Database
Banco de Dados Exadata Distribuído Globalmente na Infraestrutura do Exascale (Consulte Métricas para o Oracle Exadata Database Service on Dedicated Infrastructure na Central de Monitoramento)
GoldenGate - consulte Métricas do Oracle Cloud Infrastructure GoldenGate
Verificações de Integridade - consulte Métricas do ServiçoHealth Checks
Integração 3: Exibir Métricas de Mensagens e Mensagens Faturáveis
Gerenciamento Java - consulte Métricas de Gerenciamento Java
Kubernetes Engine - consulte Métricas do Serviço Kubernetes Engine (OKE)
Balanceador de Carga - consulte Métricas do Serviço Load Balancer
Registro em Log - consulte Métricas do Serviço Log
Log Analytics - consulte Monitorar o Log Analytics Usando Métricas de Serviço
Serviço Media Streams (Media Services) - consulte Métricas do Serviço Media Streams
Management Agent - consulte Métricas do Serviço Managed Agent
MySQL HeatWave - consulte Métricas
Rede - consulte Métricas do Serviço Networking
NoSQL Database Cloud - consulte Métricas de Serviço
Notificações - consulte Métricas de Notificações
Firewall de Rede - consulte Monitoring Firewalls
Object Storage - consulte Métricas do Serviço Object Storage
Ops Insights - consulte Métricas do Serviço Ops Insights
Oracle APEX Application Development - consulte Monitorar o Desempenho do APEX Service
OS Management Hub - consulte Métricas do OS Management Hub
Automação de Processos - consulte Monitorar o Oracle Cloud Infrastructure Process Automation
Fila - consulte Métricas da Fila
Serviço Secret Management - consulte Métricas de Gerenciamento de Segredos
Service Mesh - consulte Métricas da Malha de Serviços
Stack Monitoring - consulte Referência de Métricas
Streaming - consulte Métricas de Streaming
Varredura de Vulnerabilidade - consulte Métricas de Varredura
WAF - consulte Métricas de Política de Borda

Identificadores de Recursos

A maioria dos tipos de recursos do Oracle Cloud Infrastructure tem um identificador exclusivo designado pelo Oracle chamado OCID (Oracle Cloud ID). Para obter informações sobre o formato do OCID e outras maneiras de identificar seus recursos, consulte Identificadores de Recursos., consulte Identificadores de Recursos.

Observação

Os recursos de métrica não têm OCIDs .

Maneiras de Acessar o Serviço Monitoring

Você pode acessar a Oracle Cloud Infrastructure (OCI) usando a Console (uma interface baseada em browser), a API REST ou a CLI da OCI. As instruções para usar a Console, a API e a CLI são incluídas nos tópicos desta documentação. Para obter uma lista de SDKs disponíveis, consulte SDKs (Software Development Kits) e Interface de Linha de Comando.

Console: Para acessar o Monitoring usando a Console, você deve usar um browser suportado. Para ir para a página do sign-in da Console, abra o menu da navegação na parte superior desta página e selecione Console da Infraestrutura. Você é solicitado a digitar seu tenant na nuvem, seu nome de usuário e sua senha. Abra o menu de navegação e selecione Observabilidade e Gerenciamento. Em Monitoramento, selecione Métricas de Serviço.

API: Para acessar o Monitoramento por meio de APIs, use API de Monitoramento para métricas e alarmes e API de Notificações para notificações (usadas com alarmes).

CLI: Consulte Referência de Linha de Comando para o Serviço Monitoring e Referência de Linha de Comando para o serviço Notifications.

Autenticação e Autorização

Cada serviço do Oracle Cloud Infrastructure se integra ao IAM para autenticação e autorização, para todas as interfaces (Console, SDK ou CLI e API REST).

Um administrador de uma organização precisa configurar grupos, compartimentos e políticas que controlam quais usuários podem acessar quais serviços, quais recursos e o tipo de acesso. Por exemplo, as políticas controlam quem pode criar novos usuários, criar e gerenciar a rede na nuvem, criar instâncias, criar buckets, fazer download dos objetos, etc. Para obter mais informações, consulte Gerenciando Domínios de Identidade. Para ver detalhes específicos sobre a gravação de políticas para cada um dos diversos serviços, consulte Referência de Políticas.

Se você for um usuário normal (não um administrador) que precisa usar os recursos do Oracle Cloud Infrastructure que a empresa possui, entre em contato com um administrador para configurar um ID de usuário para você. O administrador pode confirmar o(s) compartimento(s) que você pode usar.

Para obter mais informações sobre autorizações de usuário para monitoramento, consulte Políticas do IAM.

Administradores: Para políticas comuns que dão aos grupos acesso a métricas, consulte Acesso a Métricas para Grupos. Para obter políticas comuns de alarme, consulte Acesso a Alarmes para Grupos. Para autorizar recursos, como instâncias, para fazer chamadas de API, adicione os recursos a um grupo dinâmico. Use as regras de correspondência do grupo dinâmico para adicionar os recursos e, em seguida, crie uma política que permita que esse grupo dinâmico acesse as métricas. Consulte Acesso a Métricas para Recursos.

Limites do Serviço Monitoring

Consulte Limites do Serviço Monitoring para obter uma lista dos limites e instruções aplicáveis para solicitar um aumento de limite.

Outros limites incluem o seguinte.

Limites de Armazenamento


Item	Intervalo de tempo de armazenamento
Definições de métrica	90 dias
Entradas do histórico de alarmes	90 dias

Limites de Dados Retornados (Métricas)

Quando você consulta métricas e exibe gráficos de métricas, os dados retornados estão sujeitos a determinados limites. As informações de limites para os dados retornados incluem o máximo de 100.000 pontos de dados e os máximos de intervalo de tempo (determinados pela resolução, relacionada ao intervalo).. Consulte MetricData.

Limites de Mensagem de Alarme

O número máximo de mensagens por avaliação do alarme depende do destino do alarme. Os limites são associados ao serviço Oracle Cloud Infrastructure usado para o destino.

O monitoramento rastreia 200.000 fluxos de métrica por alarme para eventos de qualificação. Para obter mais informações sobre avaliações de alarme, consulte Avaliações de Alarme nesta página.

Destino do alarme	Entrega	Número máximo de mensagens de alarme por avaliação
tópico (Notificações)	Pelo menos uma vez	60
stream (Streaming)	Pelo menos uma vez	100,000

Por exemplo, considere as avaliações a seguir de um alarme que divide as notificações entre 200 streams de métrica, usando um tópico como seu destino.

Avaliação de alarme (tempo)	Transição do stream de métrica	Mensagens geradas	Mensagens enviadas	Mensagens eliminadas
00:01:00	110 streams de métrica mudam de OK para FIRING.	110	60	50
00:02:00	90 streams de métrica mudam de OK para FIRING.	90	60	30

Quando um tópico ou stream é usado intensivamente, isso pode resultar em notificações de alarme atrasadas. O uso intenso pode ocorrer quando vários recursos estão usando esse tópico ou stream.

Melhores Práticas para Trabalhar Dentro dos Limites

Quando você esperar um alto volume de notificações de alarme, siga essas melhores práticas para ajudar a evitar exceder os limites de mensagens de alarme e atrasos associados.

Reserve um único tópico ou stream para uso com um alarme de alto volume. Não use um tópico ou stream para vários alarmes de alto volume.
Se você esperar mais de 60 mensagens por minuto, especifique o Streaming como o destino do alarme.
Streams:
- Crie partições com base na carga esperada. Consulte Limites de Recursos do Serviço Streaming.
- Se as mensagens de alarme excederem o espaço de stream, atualize o alarme para usar um stream diferente que tenha mais partições. Por exemplo, se o stream original contiver cinco partições, crie um stream com dez partições e, em seguida, atualize o alarme para usar o novo stream.
  Observação
  
  Para evitar mensagens ausentes, continue consumindo o stream original até que nenhuma outra mensagem seja recebida.
Aumente os limites da tenancy:
- Tópicos: Consulte Limites para publicação de mensagens (operação PublishMessage).
- Streams: Consulte Limites de Recursos do Serviço Streaming.

Limites de Diagnóstico e Solução de Problemas

Para solucionar problemas de um erro de consulta para muitos streams de métrica, consulte Erro: Número Máximo de Streams de Métrica Excedido.

Para obter informações sobre solução de problemas, consulte Diagnosticando e Solucionando Problemas do Serviço Monitoring.

Segurança

Este tópico descreve o monitoramento da segurança.

Para obter informações sobre como proteger o Monitoring, incluindo informações de segurança e recomendações, consulte Protegendo o Monitoring.

Documentação do Oracle Cloud Infrastructure