Diagnosticando e Solucionando Problemas de Alarmes

Use informações de diagnóstico e solução de problemas para identificar e tratar problemas comuns que podem ocorrer ao trabalhar com alarmes no serviço Monitoring.

Antes da solução de problemas, certifique-se de entender como os alarmes são avaliados. Consulte Ilustração da Avaliação de Alarme.

O alarme não dispara

O alarme atendeu à condição de disparo, mas não foi disparado. Por exemplo, uma instância de computação ficou inativa.

Causa: Atraso de gatilho longo

A expressão de alarme não foi avaliada como verdadeira por minutos consecutivos no período de atraso do trigger.

A imagem a seguir do gráfico de métricas de um alarme inclui uma área sombreada para indicar o período de atraso do trigger. Neste exemplo, o resumo do alarme mostrado na página de detalhes do alarme é Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes. O atraso do trigger começa às 1:30 (quando o limite é excedido) e termina às 1:40. A expressão de alarme é avaliada como verdadeira às 1:30 e, em seguida, é avaliada como falsa às 1:32. Essa avaliação verdadeira não continua durante o período completo de atraso do acionador de dez minutos, portanto, o alarme não é acionado.


Atraso do gatilho sobreposto em um gráfico de métricas de alarme.

Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.

Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.

Remédio: Reduza o atraso do gatilho

Se o atraso do trigger for muito longo e você quiser que o alarme seja acionado imediatamente após violar o limite, atualize o alarme para usar um atraso de trigger mais curto. Por exemplo, defina o atraso do acionador como um minuto. Consulte Definindo o Atraso do Trigger para um Alarme e Referência do MQL (Monitoring Query Language).

Causa: O intervalo é menor que a frequência de emissão

A expressão de alarme foi avaliada como verdadeira, fazendo com que o alarme seja acionado, mas no próximo intervalo, mesmo que o último ponto de dados tenha excedido o limite, o alarme foi limpo. O alarme foi limpo porque o intervalo é menor que a frequência de emissão para a métrica selecionada.

A imagem a seguir do gráfico de métricas de um alarme mostra pontos de dados por hora para a métrica selecionada, StoredBytes, do namespace de métricas oci_object_storage. A consulta de alarme é StoredBytes[1m].sum() > 800000000, que especifica um intervalo de um minuto. Esse intervalo é menor que a frequência de emissão da métrica, que é de uma hora. (A frequência é documentada em Métricas do Serviço Object Storage.)


Gráfico de métricas de alarme para uma métrica com uma frequência de emissão por hora.

Neste exemplo, o alarme dispara às 3:00 e limpa às 3:01. Se o intervalo tivesse sido definido como uma hora, a expressão de alarme continuaria avaliando como verdadeiro e o alarme continuaria disparando até 4:00.

Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.

Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.

Solução: Aumentar o intervalo

Se quiser que o alarme seja acionado, atualize o intervalo de alarme para que seja igual ou maior que a frequência de emissão da métrica. Por exemplo, para a métrica StoredBytes, atualize o intervalo de alarme para pelo menos uma hora, se quiser que o alarme seja acionado às 3:01 e continue disparando até às 4:00 no exemplo anterior. Consulte Selecionando o Intervalo para uma Consulta de Alarme e Referência do Monitoring Query Language (MQL).

Causa: Dimensões incorretas

A expressão de alarme não foi avaliada como verdadeira quando um recurso atendeu à condição definida no alarme porque o recurso foi filtrado usando dimensões.

Por exemplo, considere um alarme com dimensões selecionadas para o domínio de disponibilidade 1. O recurso que atendeu à condição está no domínio de disponibilidade 2. A avaliação do alarme considera apenas recursos que correspondem às dimensões especificadas.

Solução: Atualizar dimensões

Remova as dimensões ou atualize-as para incluir o recurso. Consulte Selecionando Dimensões para uma Consulta de Alarme.

Causa: Consulta incorreta

Exemplos comuns:

  • A consulta de alarme pode especificar a métrica MemoryUtilization quando você deve selecionar CpuUtilization.
  • A consulta de alarme pode especificar a estatística mean() quando, em vez disso, você quiser que o alarme monitore a soma de pontos de dados em um intervalo (sum()).

Para verificar se há um alarme na consulta, obtenha seus detalhes.

Para obter informações sobre elementos de consulta, consulte Referência do Monitoring Query Language (MQL). Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.

Solução: Atualizar a consulta

Atualize o alarme para especificar a métrica desejada. Para editar o MQL diretamente, consulte Editando a Expressão MQL ao Atualizar um Alarme.

Causa: O alarme está desativado

Solução: Ativar o alarme

  1. Na página da lista Definições de Alarme, selecione o alarme com o qual deseja trabalhar. Se precisar de ajuda para localizar a página da lista ou o alarme, consulte Listando Alarmes.
    Observação

    Essas etapas são para a Console. Para obter instruções completas, consulte Ativando um Alarme.
  2. Na página de detalhes do alarme, selecione O alarme está ativado.

O Alarme Não Envia uma Notificação

Quando o alarme dispara, ele não envia uma notificação.

Causa: O alarme ou a dimensão foi suprimida

Remédio: Remova a supressão

Consulte Removendo uma Supressão de um Único Alarme e Removendo Supressões de Vários Alarmes.

Causa: A assinatura não faz parte do tópico configurado

Por exemplo, digamos que você não esteja recebendo mensagens de alarme em sua caixa de entrada. O tópico especificado para o alarme pode não ter uma assinatura de e-mail para o endereço de e-mail desejado.

Para verificar se o tópico inclui a assinatura esperada, consulte Obtendo Detalhes de um Tópico.

Solução: Atualizar tópico para incluir assinatura

Consulte Criação de uma Inscrição.

Você também pode atualizar o alarme para fazer referência a um novo tópico e assinatura ou a um tópico existente que inclua a assinatura desejada. Consulte Selecionando um tópico como destino de notificação para um alarme.

Alarme Envia Muitas Notificações

Quando o alarme dispara, ele envia mais notificações do que o esperado.

Causa: As notificações de repetição estão ativadas

O alarme é configurado para repetir notificações de alarme quando o alarme continua sendo acionado sem interrupção.

Solução: Desativar notificações repetidas

  1. Na página da lista Definições de Alarme, selecione o alarme com o qual deseja trabalhar. Se precisar de ajuda para localizar a página da lista ou o alarme, consulte Listando Alarmes.
    Observação

    Essas etapas são para a Console. Para obter instruções completas, consulte Repetição de Notificações para um Alarme.
  2. Vá para Ações e selecione Editar alarme.
  3. Em Definir notificações de alarme, desmarque a caixa de seleção Repetir notificação?.
  4. Selecione Salvar alarme.

Causa: As notificações de divisão estão ativadas

O alarme é configurado para enviar uma notificação para cada stream de métrica acionado. Por exemplo, se 50 streams de métrica forem disparados, o alarme enviará 50 notificações. Este é o comportamento esperado para notificações divididas. Consulte Cenário: Divisão de Mensagens por Stream de Métricas.

Por exemplo, a imagem a seguir mostra um gráfico de métricas de alarme com dois fluxos de métricas que excedem o limite às 1:30, fazendo com que o alarme seja acionado.


Dois fluxos métricos disparam às 1:30.

Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor métrico de 87.

Mensagem de e-mail enviada para o primeiro fluxo de métricas de acionamento no exemplo.

Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor métrico de 95.

Mensagem de e-mail enviada para o segundo fluxo de métricas de acionamento no exemplo.

Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.

Se você não pretendia que o alarme enviasse uma notificação para cada stream de métrica de acionamento, considere atualizar o alarme para agrupar notificações. Consulte Quando Agrupar Notificações. Após essa atualização, o alarme envia uma única notificação quando o alarme é acionado, independentemente do número de streams de métrica que estão sendo acionados.

O alarme não salva (erro 404)

Ao tentar salvar um alarme novo ou atualizado, você verá um erro 404 impedindo a criação ou atualização do alarme.

Causa: políticas insuficientes

Um erro 404 indica que você não tem as políticas de IAM necessárias.

Solução: Obtenha as políticas necessárias

Consulte Políticas do IAM.

O Alarme é Disparado e Limpo Continuamente

Diagnóstico e solução de problemas de um alarme que mantém a alternância entre os valores de status Firing e OK.

O intervalo de alarme é muito pequeno ou o atraso de trigger é muito grande (ou ambos). O recurso emite a métrica especificada em uma frequência maior que o intervalo do alarme.

Por exemplo, considere a métrica DatabaseAvailability, que é emitida a cada 5 minutos.

Solicitação de API (partes relevantes):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[1m].absent()",
  "pendingDuration":"PT3M",

Configuração da Console:

Campo Valor
namespace de métricas oci_autonomous_database
Nome da métrica DatabaseAvailability
Intervalo 1 minuto
Estatística Média
Regra do acionador
  • Operador: ausente
  • Minutos de atraso do trigger: 3
Agrupamento de mensagens Notificações do grupo nos fluxos da métrica
Exemplo: Status de Alternâncias de Alarme

Veja a seguir um exemplo de alternância de status de um alarme entre os valores de status Firing e OK de 1:00 a 1:08. Observe o status OK em 1:01, 1:02, 1:06 e 1:07. Nesses momentos, os resultados da avaliação do alarme atenderam à condição para o intervalo de um minuto, mas a alteração de status estava internamente pendente por causa do atraso de três minutos do trigger. O status do alarme foi alterado para Firing à 1:03 e 1:08 porque três avaliações consecutivas atenderam à condição.

Horário Valor no gráfico de métricas* Condição de alarme atendida? Status do alarme
1:00 0 Não OK
1:01 1 Sim. A alteração de status está internamente pendente OK
1:02 1 Sim. A alteração de status está internamente pendente OK
1:03 1 Sim Firing
1:04 1 Sim Firing
1:05 0 Não OK
1:06 1 Sim. A alteração de status está internamente pendente OK
1:07 1 Sim. A alteração de status está internamente pendente OK
1:08 1 Sim Firing

*Para o valor no gráfico de métricas, 0 significa que a métrica está presente enquanto 1 significa que a métrica está ausente. Para obter um exemplo de gráfico de métricas, consulte Criando um Alarme de Ausência.

Para corrigir essa situação, atualize a seguinte configuração de alarme:

Por exemplo, atualize o intervalo para 10 minutos e atualize o atraso de trigger para 1 minuto.

Solicitação de API (partes relevantes):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[10m].absent()",
  "pendingDuration":"PT1M",

Configuração da Console:

Campo Valor
namespace de métricas oci_autonomous_database
Nome da métrica DatabaseAvailability
Intervalo 10 minutos
Estatística Média
Regra do acionador
  • Operador: ausente
  • Minutos de atraso do trigger: 1
Agrupamento de mensagens Notificações do grupo nos fluxos da métrica
Exemplo: A Métrica está Presente. O Alarme é OK
Neste exemplo, a métrica está presente nos horários esperados (a cada cinco minutos): 2:00, 2:05 e 2:10. A cada vez, o alarme avalia a presença da métrica durante os últimos dez minutos. O status do alarme permanece como OK nos horários listados.
Horário Valor no gráfico de métricas* Condição de alarme atendida? Status do alarme
2:00 0 Não OK
2:01 1 Não OK
2:02 1 Não OK
2:03 1 Não OK
2:04 1 Não OK
2:05 0 Não OK
2:06 1 Não OK
2:07 1 Não OK
2:08 1 Não OK
2:09 1 Não OK
2:10 0 Não OK
2:11 1 Não OK
*Para o valor no gráfico de métricas, 0 significa que a métrica está presente enquanto 1 significa que a métrica está ausente. Para obter um exemplo de gráfico de métricas, consulte Criando um Alarme de Ausência.
Exemplo: Métrica Ausente. O Alarme é Firing
Neste exemplo, a métrica está presente às 2:00, mas ausente às 2:05 e 2:10. Como o intervalo do alarme é de dez minutos, a condição do alarme não foi atendida às 2:05. Às 2:10, o alarme muda para o status Firing porque a condição do alarme foi atendida (nenhuma métrica estava presente no intervalo de dez minutos).
Horário Valor no gráfico de métricas* Condição de alarme atendida? Status do alarme
2:00 0 Não OK
2:01 1 Não OK
2:02 1 Não OK
2:03 1 Não OK
2:04 1 Não OK
2:05 1 Não OK
2:06 1 Não OK
2:07 1 Não OK
2:08 1 Não OK
2:09 1 Não OK
2:10 1 Sim Firing
2:11 1 Sim Firing
*Para o valor no gráfico de métricas, 0 significa que a métrica está presente enquanto 1 significa que a métrica está ausente. Para obter um exemplo de gráfico de métricas, consulte Criando um Alarme de Ausência.