Diagnosticando e Solucionando Problemas de Alarmes
Use informações de diagnóstico e solução de problemas para identificar e tratar problemas comuns que podem ocorrer ao trabalhar com alarmes no serviço Monitoring.
Antes de solucionar problemas, certifique-se de entender como os alarmes são avaliados. Consulte Ilustração da Avaliação de Alarme.
Alarme não é acionado
O alarme atendeu à condição de disparo, mas não disparou. Por exemplo, uma instância de computação foi desativada.
Causa: atraso longo do gatilho
A expressão de alarme não foi avaliada como verdadeira por minutos consecutivos no período de atraso do trigger.
A imagem a seguir do gráfico de métricas de um alarme inclui uma área sombreada para indicar o período de atraso do acionador. Neste exemplo, o resumo do alarme mostrado na página de detalhes do alarme é Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes
. O atraso do gatilho começa às 1:30 (quando o limite é excedido) e termina às 1:40. A expressão de alarme é avaliada como verdadeira às 1:30 e, em seguida, avaliada como falsa às 1:32. Essa avaliação verdadeira não continua por todo o período de atraso do acionador de dez minutos, portanto, o alarme não é acionado.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Para obter mais informações sobre como os alarmes são avaliados, consulte Ilustração da Avaliação de Alarme.
Solução: Reduza o atraso do gatilho
Se o atraso do acionador for muito longo e você quiser que o alarme seja acionado imediatamente após a violação do limite, atualize o alarme para usar um atraso de acionamento menor. Por exemplo, defina o atraso do acionador como um minuto. Consulte Definindo o Atraso do Trigger para um Alarme e Referência de MQL (Monitoring Query Language).
Causa: O intervalo é menor que a frequência de emissão
A expressão de alarme avaliada como verdadeira, fazendo com que o alarme seja acionado, mas no próximo intervalo, mesmo que o último ponto de dados exceda o limite, o alarme será apagado. O alarme foi apagado porque o intervalo é menor que a frequência de emissão da métrica selecionada.
A imagem a seguir do gráfico de métricas de um alarme mostra pontos de dados por hora para a métrica selecionada, StoredBytes
, do namespace de métricas oci_object_storage
. A consulta de alarme é StoredBytes[1m].sum() > 800000000
, que especifica um intervalo de um minuto. Este intervalo é menor que a frequência de emissão da métrica, que é de uma hora. (A frequência é documentada em Métricas do Serviço Object Storage.)
Neste exemplo, o alarme dispara às 3:00 e limpa às 3:01. Se o intervalo tivesse sido definido como uma hora, a expressão de alarme continuaria sendo avaliada como verdadeira e o alarme continuaria sendo acionado até as 4:00.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Para obter mais informações sobre como os alarmes são avaliados, consulte Ilustração da Avaliação de Alarme.
Remédio: Aumentar o intervalo
Se quiser que o alarme seja acionado, atualize o intervalo do alarme para ser igual ou maior que a frequência de emissão da métrica. Por exemplo, para a métrica StoredBytes
, atualize o intervalo de alarme para pelo menos uma hora, se quiser que o alarme seja acionado às 3:01 e continue acionando até as 4:00 no exemplo anterior. Consulte Selecionando o Intervalo para uma Consulta de Alarme e Referência de MQL (Monitoring Query Language).
Causa: Dimensões erradas
A expressão de alarme não foi avaliada como verdadeira quando um recurso atendeu à condição definida no alarme porque o recurso foi filtrado usando dimensões.
Por exemplo, considere um alarme com dimensões selecionadas para o domínio de disponibilidade 1. O recurso que atendeu à condição está no domínio de disponibilidade 2. A avaliação de alarme considera apenas recursos que correspondem às dimensões especificadas.
Solução: Atualizar dimensões
Remova as dimensões ou atualize-as para incluir o recurso. Consulte Selecionando Dimensões para uma Consulta de Alarme.
Causa: consulta incorreta
Exemplos comuns:
- A consulta de alarme pode especificar a métrica
MemoryUtilization
quando você deseja selecionarCpuUtilization
. - A consulta de alarme pode especificar a estatística
mean()
quando, em vez disso, você quiser que o alarme monitore a soma dos pontos de dados em um intervalo (sum()
).
Para verificar se há um alarme na consulta, obtenha seus detalhes.
Para obter informações sobre elementos de consulta, consulte Referência do Monitoring Query Language (MQL). Para obter mais informações sobre como os alarmes são avaliados, consulte Ilustração da Avaliação de Alarme.
Solução: Atualizar a consulta
Causa: O alarme está desativado
Remedy: Ativar o alarme
Alarme não envia notificação
Quando o alarme dispara, ele não envia uma notificação.
Causa: O alarme ou dimensão é suprimido
Remédio: Remover a supressão
Consulte Removendo uma Supressão de um Único Alarme e Removendo Supressões de Vários Alarmes.
Causa: a assinatura não faz parte do tópico configurado
Por exemplo, digamos que você não esteja recebendo mensagens de alarme em sua caixa de entrada. O tópico especificado para o alarme pode não ter uma assinatura de e-mail para o endereço de e-mail desejado.
Para verificar se o tópico inclui a assinatura esperada, consulte Obtendo Detalhes de um Tópico.
Solução: Atualizar tópico para incluir assinatura
Consulte Criando uma Assinatura.
Você também pode atualizar o alarme para fazer referência a um novo tópico e uma assinatura ou a um tópico existente que inclua a assinatura desejada. Consulte Selecionando um Tópico como Destino de Notificação para um Alarme.
O Alarme Envia Muitas Notificações
Quando o alarme dispara, ele envia mais notificações do que o esperado.
Causa: as notificações de repetição estão ativadas
O alarme é configurado para repetir notificações de alarme quando o alarme continua disparando sem interrupção.
Solução: Desativar notificações repetidas
Causa: As notificações de divisão estão ativadas
O alarme é configurado para enviar uma notificação para cada stream de métrica que é acionado. Por exemplo, se 50 streams de métrica forem acionados, o alarme enviará 50 notificações. Este é o comportamento esperado para notificações divididas. Consulte Cenário: Dividir Mensagens por Stream de Métrica.
Por exemplo, a imagem a seguir mostra um gráfico de métricas de alarme com dois streams de métricas que excedem o limite às 1:30, fazendo com que o alarme seja acionado.
Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor de métrica 87.
Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor de métrica 95.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Redefinições de alarme
O histórico de alarmes mostra um estado de transição RESET.
Um alarme é redefinido para interromper a verificação de uma métrica ausente que acionou o estado Firing. Para obter mais informações, consulte Sobre o Período de Redefinição Interno.
Alarme Não Salva (Erro 404)
Ao tentar salvar um alarme novo ou atualizado, você vê um erro 404 impedindo a criação ou atualização do alarme.
Causa: políticas insuficientes
Um erro 404 indica que você não tem as políticas do IAM necessárias.
Solução: Obter políticas obrigatórias
O Alarme é Disparado e Limpo Continuamente
Solucione problemas em um alarme que continua alternando entre os valores de status Firing
e OK
.
O intervalo de alarme é muito pequeno ou o atraso de trigger é muito grande (ou ambos). O recurso emite a métrica especificada em uma frequência maior que o intervalo do alarme.
Por exemplo, considere a métrica DatabaseAvailability
, que é emitida a cada 5 minutos.
Solicitação de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[1m].absent()",
"pendingDuration":"PT3M",
Configuração da console:
Campo | Valor |
---|---|
Namespace da métrica | oci_autonomous_database |
Nome da métrica | DatabaseAvailability |
Intervalo | 1 minuto |
Estatística | Média |
Regra do acionador |
|
Agrupamento de mensagens | Notificações do grupo nos fluxos da métrica |
- Exemplo: Status de Alternâncias de Alarme
Veja a seguir um exemplo de alternância de status de um alarme entre os valores de status Firing
e OK
das 1:00 às 1:08. Observe o status OK
em 1:01, 1:02, 1:06 e 1:07. Nesses momentos, os resultados da avaliação do alarme atenderam à condição para o intervalo de um minuto, mas a alteração de status estava internamente pendente por causa do atraso de três minutos do trigger. O status do alarme foi alterado para Firing
à 1:03 e 1:08 porque três avaliações consecutivas atenderam à condição.
Horário | Valor no gráfico de métricas* | Condição de alarme atendida? | Status do alarme |
---|---|---|---|
1:00 | 0 |
Não | OK |
1:01 | 1 |
Sim. A alteração do status está pendente internamente | OK |
1:02 | 1 |
Sim. A alteração do status está pendente internamente | OK |
1:03 | 1 |
Sim | Firing |
1:04 | 1 |
Sim | Firing |
1:05 | 0 |
Não | OK |
1:06 | 1 |
Sim. A alteração do status está pendente internamente | OK |
1:07 | 1 |
Sim. A alteração do status está pendente internamente | OK |
1:08 | 1 |
Sim | Firing |
*Para o valor no gráfico de métricas, 0
significa que a métrica está presente enquanto 1
significa que a métrica está ausente. Para obter um exemplo de gráfico de métricas, consulte Criando um Alarme de Ausência.
Para corrigir essa situação, atualize a seguinte configuração de alarme:
- O intervalo do alarme deve ser igual ou maior que a frequência da emissão da métrica. Consulte Selecionando o Intervalo para uma Consulta de Alarme.
- Atraso de trigger para acomodar a latência. Consulte Definindo o Atraso do Acionador para um Alarme.
Por exemplo, atualize o intervalo para 10 minutos e atualize o atraso de trigger para 1 minuto.
Solicitação de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[10m].absent()",
"pendingDuration":"PT1M",
Configuração da console:
Campo | Valor |
---|---|
Namespace da métrica | oci_autonomous_database |
Nome da métrica | DatabaseAvailability |
Intervalo | 10 minutos |
Estatística | Média |
Regra do acionador |
|
Agrupamento de mensagens | Notificações do grupo nos fluxos da métrica |
- Exemplo: A Métrica está Presente. O Alarme é
OK
- Neste exemplo, a métrica está presente nos horários esperados (a cada cinco minutos): 2:00, 2:05 e 2:10. A cada vez, o alarme avalia a presença da métrica durante os últimos dez minutos. O status do alarme permanece como
OK
nos horários listados.
- Exemplo: Métrica Ausente. O Alarme é
Firing
- Neste exemplo, a métrica está presente às 2:00, mas ausente às 2:05 e 2:10. Como o intervalo do alarme é dez minutos, a condição do alarme não é atendida às 2:05. Às 2:10, o alarme muda para o status
Firing
porque a condição do alarme foi atendida (nenhuma métrica estava presente no intervalo de dez minutos).