Diagnosticando e Solucionando Problemas de Alarmes
Use informações de diagnóstico e solução de problemas para identificar e tratar problemas comuns que podem ocorrer ao trabalhar com alarmes no serviço Monitoring.
Antes da solução de problemas, certifique-se de entender como os alarmes são avaliados. Consulte Ilustração da Avaliação de Alarme.
O alarme não dispara
O alarme atendeu à condição de disparo, mas não foi disparado. Por exemplo, uma instância de computação ficou inativa.
Causa: Atraso de gatilho longo
A expressão de alarme não foi avaliada como verdadeira por minutos consecutivos no período de atraso do trigger.
A imagem a seguir do gráfico de métricas de um alarme inclui uma área sombreada para indicar o período de atraso do trigger. Neste exemplo, o resumo do alarme mostrado na página de detalhes do alarme é Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes
. O atraso do trigger começa às 1:30 (quando o limite é excedido) e termina às 1:40. A expressão de alarme é avaliada como verdadeira às 1:30 e, em seguida, é avaliada como falsa às 1:32. Essa avaliação verdadeira não continua durante o período completo de atraso do acionador de dez minutos, portanto, o alarme não é acionado.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.
Remédio: Reduza o atraso do gatilho
Se o atraso do trigger for muito longo e você quiser que o alarme seja acionado imediatamente após violar o limite, atualize o alarme para usar um atraso de trigger mais curto. Por exemplo, defina o atraso do acionador como um minuto. Consulte Definindo o Atraso do Trigger para um Alarme e Referência do MQL (Monitoring Query Language).
Causa: O intervalo é menor que a frequência de emissão
A expressão de alarme foi avaliada como verdadeira, fazendo com que o alarme seja acionado, mas no próximo intervalo, mesmo que o último ponto de dados tenha excedido o limite, o alarme foi limpo. O alarme foi limpo porque o intervalo é menor que a frequência de emissão para a métrica selecionada.
A imagem a seguir do gráfico de métricas de um alarme mostra pontos de dados por hora para a métrica selecionada, StoredBytes
, do namespace de métricas oci_object_storage
. A consulta de alarme é StoredBytes[1m].sum() > 800000000
, que especifica um intervalo de um minuto. Esse intervalo é menor que a frequência de emissão da métrica, que é de uma hora. (A frequência é documentada em Métricas do Serviço Object Storage.)
Neste exemplo, o alarme dispara às 3:00 e limpa às 3:01. Se o intervalo tivesse sido definido como uma hora, a expressão de alarme continuaria avaliando como verdadeiro e o alarme continuaria disparando até 4:00.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.
Solução: Aumentar o intervalo
Se quiser que o alarme seja acionado, atualize o intervalo de alarme para que seja igual ou maior que a frequência de emissão da métrica. Por exemplo, para a métrica StoredBytes
, atualize o intervalo de alarme para pelo menos uma hora, se quiser que o alarme seja acionado às 3:01 e continue disparando até às 4:00 no exemplo anterior. Consulte Selecionando o Intervalo para uma Consulta de Alarme e Referência do Monitoring Query Language (MQL).
Causa: Dimensões incorretas
A expressão de alarme não foi avaliada como verdadeira quando um recurso atendeu à condição definida no alarme porque o recurso foi filtrado usando dimensões.
Por exemplo, considere um alarme com dimensões selecionadas para o domínio de disponibilidade 1. O recurso que atendeu à condição está no domínio de disponibilidade 2. A avaliação do alarme considera apenas recursos que correspondem às dimensões especificadas.
Solução: Atualizar dimensões
Remova as dimensões ou atualize-as para incluir o recurso. Consulte Selecionando Dimensões para uma Consulta de Alarme.
Causa: Consulta incorreta
Exemplos comuns:
- A consulta de alarme pode especificar a métrica
MemoryUtilization
quando você deve selecionarCpuUtilization
. - A consulta de alarme pode especificar a estatística
mean()
quando, em vez disso, você quiser que o alarme monitore a soma de pontos de dados em um intervalo (sum()
).
Para verificar se há um alarme na consulta, obtenha seus detalhes.
Para obter informações sobre elementos de consulta, consulte Referência do Monitoring Query Language (MQL). Para obter mais informações sobre como os alarmes são avaliados, consulte Illustração da Avaliação de Alarme.
Solução: Atualizar a consulta
Causa: O alarme está desativado
Solução: Ativar o alarme
O Alarme Não Envia uma Notificação
Quando o alarme dispara, ele não envia uma notificação.
Causa: O alarme ou a dimensão foi suprimida
Remédio: Remova a supressão
Consulte Removendo uma Supressão de um Único Alarme e Removendo Supressões de Vários Alarmes.
Causa: A assinatura não faz parte do tópico configurado
Por exemplo, digamos que você não esteja recebendo mensagens de alarme em sua caixa de entrada. O tópico especificado para o alarme pode não ter uma assinatura de e-mail para o endereço de e-mail desejado.
Para verificar se o tópico inclui a assinatura esperada, consulte Obtendo Detalhes de um Tópico.
Solução: Atualizar tópico para incluir assinatura
Consulte Criação de uma Inscrição.
Você também pode atualizar o alarme para fazer referência a um novo tópico e assinatura ou a um tópico existente que inclua a assinatura desejada. Consulte Selecionando um tópico como destino de notificação para um alarme.
Alarme Envia Muitas Notificações
Quando o alarme dispara, ele envia mais notificações do que o esperado.
Causa: As notificações de repetição estão ativadas
O alarme é configurado para repetir notificações de alarme quando o alarme continua sendo acionado sem interrupção.
Solução: Desativar notificações repetidas
Causa: As notificações de divisão estão ativadas
O alarme é configurado para enviar uma notificação para cada stream de métrica acionado. Por exemplo, se 50 streams de métrica forem disparados, o alarme enviará 50 notificações. Este é o comportamento esperado para notificações divididas. Consulte Cenário: Divisão de Mensagens por Stream de Métricas.
Por exemplo, a imagem a seguir mostra um gráfico de métricas de alarme com dois fluxos de métricas que excedem o limite às 1:30, fazendo com que o alarme seja acionado.
Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor métrico de 87.
Veja a seguir a mensagem de alarme enviada para a instância de computação com o valor métrico de 95.
Para exibir o gráfico de métricas de um alarme, obtenha seu histórico.
Redefinições de Alarme
O histórico de alarmes mostra um estado de transição RESET.
Um alarme é redefinido para interromper a verificação de uma métrica ausente que acionou o estado Firing. Para obter mais informações, consulte Sobre o período de redefinição interno.
O alarme não salva (erro 404)
Ao tentar salvar um alarme novo ou atualizado, você verá um erro 404 impedindo a criação ou atualização do alarme.
Causa: políticas insuficientes
Um erro 404 indica que você não tem as políticas de IAM necessárias.
Solução: Obtenha as políticas necessárias
O Alarme é Disparado e Limpo Continuamente
Diagnóstico e solução de problemas de um alarme que mantém a alternância entre os valores de status Firing
e OK
.
O intervalo de alarme é muito pequeno ou o atraso de trigger é muito grande (ou ambos). O recurso emite a métrica especificada em uma frequência maior que o intervalo do alarme.
Por exemplo, considere a métrica DatabaseAvailability
, que é emitida a cada 5 minutos.
Solicitação de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[1m].absent()",
"pendingDuration":"PT3M",
Configuração da Console:
Campo | Valor |
---|---|
namespace de métricas | oci_autonomous_database |
Nome da métrica | DatabaseAvailability |
Intervalo | 1 minuto |
Estatística | Média |
Regra do acionador |
|
Agrupamento de mensagens | Notificações do grupo nos fluxos da métrica |
- Exemplo: Status de Alternâncias de Alarme
Veja a seguir um exemplo de alternância de status de um alarme entre os valores de status Firing
e OK
de 1:00 a 1:08. Observe o status OK
em 1:01, 1:02, 1:06 e 1:07. Nesses momentos, os resultados da avaliação do alarme atenderam à condição para o intervalo de um minuto, mas a alteração de status estava internamente pendente por causa do atraso de três minutos do trigger. O status do alarme foi alterado para Firing
à 1:03 e 1:08 porque três avaliações consecutivas atenderam à condição.
Horário | Valor no gráfico de métricas* | Condição de alarme atendida? | Status do alarme |
---|---|---|---|
1:00 | 0 |
Não | OK |
1:01 | 1 |
Sim. A alteração de status está internamente pendente | OK |
1:02 | 1 |
Sim. A alteração de status está internamente pendente | OK |
1:03 | 1 |
Sim | Firing |
1:04 | 1 |
Sim | Firing |
1:05 | 0 |
Não | OK |
1:06 | 1 |
Sim. A alteração de status está internamente pendente | OK |
1:07 | 1 |
Sim. A alteração de status está internamente pendente | OK |
1:08 | 1 |
Sim | Firing |
*Para o valor no gráfico de métricas, 0
significa que a métrica está presente enquanto 1
significa que a métrica está ausente. Para obter um exemplo de gráfico de métricas, consulte Criando um Alarme de Ausência.
Para corrigir essa situação, atualize a seguinte configuração de alarme:
- O intervalo do alarme deve ser igual ou maior que a frequência da emissão da métrica. Consulte Selecionando o Intervalo para uma Consulta de Alarme.
- Atraso de trigger para acomodar a latência. Consulte Definindo o Atraso de Trigger para um Alarme.
Por exemplo, atualize o intervalo para 10 minutos e atualize o atraso de trigger para 1 minuto.
Solicitação de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[10m].absent()",
"pendingDuration":"PT1M",
Configuração da Console:
Campo | Valor |
---|---|
namespace de métricas | oci_autonomous_database |
Nome da métrica | DatabaseAvailability |
Intervalo | 10 minutos |
Estatística | Média |
Regra do acionador |
|
Agrupamento de mensagens | Notificações do grupo nos fluxos da métrica |
- Exemplo: A Métrica está Presente. O Alarme é
OK
- Neste exemplo, a métrica está presente nos horários esperados (a cada cinco minutos): 2:00, 2:05 e 2:10. A cada vez, o alarme avalia a presença da métrica durante os últimos dez minutos. O status do alarme permanece como
OK
nos horários listados.
- Exemplo: Métrica Ausente. O Alarme é
Firing
- Neste exemplo, a métrica está presente às 2:00, mas ausente às 2:05 e 2:10. Como o intervalo do alarme é de dez minutos, a condição do alarme não foi atendida às 2:05. Às 2:10, o alarme muda para o status
Firing
porque a condição do alarme foi atendida (nenhuma métrica estava presente no intervalo de dez minutos).