Melhores Práticas para Seus Alarmes

Leia sobre as melhores práticas para alarmes.

Criar um Conjunto de Alarmes para Cada Métrica

Para cada métrica emitida por recursos, crie alarmes que definam os seguintes comportamentos de recursos:

  • Em risco. O recurso corre o risco de se tornar inoperante, conforme indicado pelos valores da métrica.
  • Não ideal O desempenho do recurso é em níveis não ótimos, conforme indicado pelos valores de métrica.
  • O recurso está ativo ou inativo. O recurso não está acessível ou não está em operação.

Os exemplos abaixo usam a métrica CpuUtilization emitida pelo namespace de métricas oci_computeagent. Esta métrica monitora a utilização da instância de computação e o nível de atividade de quaisquer serviços e aplicativos em execução na instância. CpuUtilization é uma métrica de desempenho principal para um cloud service porque indica o uso da CPU para a instância de computação e pode ser usada para investigar problemas de desempenho. Para saber mais sobre o uso da CPU, consulte o seguinte URL: https://en.wikipedia.org/wiki/CPU_time.

Exemplo de como

Um limite típico de risco para a métrica CpuUtilization é qualquer valor maior que 80%. Uma instância de computação que ultrapasse esse limite corre o risco de se tornar inoperante. Geralmente, a causa desse comportamento é um ou mais aplicativos que consomem uma alta porcentagem da CPU.

Neste exemplo, você decide notificar a equipe das operações imediatamente, definindo a severidade do alarme como "Crítica" porque é necessário reparar para trazer as instâncias de volta aos níveis operacionais ideais. Você configura notificações de alarme para a equipe responsável pelo PagerDuty e por e-mail, solicitando uma investigação e correções apropriadas antes que as instâncias entrem em um estado inoperante. Você define notificações repetidas a cada minuto. Quando alguém responde às notificações de alarme, você interrompe temporariamente as notificações usando a melhor prática para suprimir o alarme. Quando as métricas retornam aos valores ideais, você remove a supressão.

Exemplo de NonOptimal

Um limite típico de não ideal para a métrica CpuUtilization é de 60 a 80%. Quando os valores de metria para uma instância de computação estão dentro desse intervalo, a instância excede o alcance operacional ideal.

Neste exemplo, você decide notificar o indivíduo ou a equipe apropriada de que um aplicativo ou processo está consumindo mais CPU do que o habitual. Você configura um alarme de limite para notificar os contatos apropriados, definindo a severidade do alarme como "Aviso", pois não são necessárias ações imediatas para investigar e reduzir a CPU. Defina a notificação somente para e-mail, direcionada para o desenvolvedor ou equipe apropriada, com notificações repetidas a cada 24 horas para reduzir o ruído de notificação por e-mail.

Exemplo de Recurso Ativo ou Inativo

Um indicador típico de disponibilidade de recursos é uma ausência de cinco min da métrica CpuUtilization. Uma instância de computação que está ultrapassando esse limite não está acessível ou não está operante. O recurso talvez tenha parado de responder ou pode ter ficado indisponível por causa de problemas de conectividade.

Neste exemplo, você decide notificar a equipe da operação imediatamente, definindo a severidade do seu alarme de ausências como "Crítica" porque o reparo é necessário para colocar as instâncias on-line. Você configura notificações de alarme para a equipe responsável pelo PagerDuty e por e-mail, solicitando uma investigação e uma movimentação das cargas de trabalho para outro recurso disponível. Você define notificações repetidas a cada minuto. Quando alguém responde às notificações de alarme, você interrompe temporariamente as notificações usando a melhor prática para suprimir o alarme. Quando a métrica CpuUtilization é detectada novamente no recurso, você remove a supressão.

Às vezes, você deseja ser notificado sempre que um evento ocorrer, como um shutdown de uma instância do banco de dados. Neste cenário, defina notificações de repetição como zero minutos para criar um alarme baseado em evento. Para obter instruções, consulte Obtendo Notificações Baseadas em Evento para um Alarme.

Selecione o Intervalo Corrigido de Alarme para a Métrica

Selecione um intervalo para alarme com base na frequência em que a métrica é emitida. Por exemplo, uma métrica emitida a cada cinco minutos requer um intervalo ou mais de 5 minutos de alarme. A maioria das métricas é emitida a cada minuto, o que significa que a maioria das métricas suporta qualquer intervalo de alarme. Para determinar intervalos de alarme válidos para uma métrica específica, verifique a referência de métrica do serviço relevante.

Suprimir Alarmes Durante Investigações

Quando um membro da equipe responde a um alarme, suprima as notificações durante o esforço de investigar ou mitigar o problema. A interrupção temporária das notificações ajuda a evitar distrações durante a investigação e atenuação. Remova a supressão quando o problema for resolvido. Para obter instruções, consulte Supressing a Single Alarm e Suppressing Multiple Alarms.

Ajustar Alarmes com Regularidade

Com uma regularidade, como semanalmente, revise seus alarmes para garantir a configuração ideal. Calibre os detalhes de limite, gravidade e notificação de cada alarme, incluindo método, frequência e público-alvo.

Esta imagem mostra uma revisão semanal de alarmes para ajuste de rotina.

A configuração de alarme ideal aborda os seguintes fatores:

  • A importância do recurso.
  • O comportamento apropriado de recursos. Avalie o comportamento individualmente e dentro do contexto do ecossistema de serviço. Revise as flutuações de valor da métrica por um período específico e ajuste os limites conforme necessário.
  • O ruído de notificação aceitável. Avalie o método de notificação (por exemplo, e-mail ou PagerDuty), os destinatários apropriados e a frequência de notificações repetidas.

A tabela a seguir mostra um exemplo de calibração de alarme.

Limite de CPU % Gravidade Método de Notificação Frequência Público-Alvo
>80% Crítico PagerDuty + E-mail 1 minuto Computação, Operações e Comunicações ao Cliente
>60% & <80% Advertência Enviar e-mail Uma vez por dia Computação + Operações

Para obter instruções, consulte Atualizando um Alarme.