Melhores Práticas para Seus Alarmes

Leia sobre as melhores práticas para alarmes.

Criar um Conjunto de Alarmes para Cada Métrica

Para cada métrica emitida pelos recursos, crie alarmes que defina os seguintes comportamentos do recurso:

  • Em risco. O recurso corre o risco de se tornar inoperante, conforme indicado pelos valores da métrica.
  • Não ideal. O recurso está sendo executado em níveis não ideais, conforme indicado pelos valores da métrica.
  • O recurso está ativo ou inativo. O recurso não está acessível ou não está em operação.

Os exemplos a seguir usam a métrica CpuUtilization emitida pelo namespace de métricas oci_computeagent. Esta métrica monitora a utilização da instância de computação e o nível de atividade de quaisquer serviços e aplicativos em execução na instância. CpuUtilization é uma métrica de desempenho principal para um serviço de nuvem porque indica o uso da CPU para a instância de computação e pode ser usada para investigar problemas de desempenho. Para saber mais sobre o uso da CPU, consulte o seguinte URL: https://en.wikipedia.org/wiki/CPU_time.

Exemplo de Em Risco

Um limite de risco típico para a métrica CpuUtilization é qualquer valor superior a 80%. Uma instância de computação que ultrapasse esse limite corre o risco de se tornar inoperante. Geralmente, a causa desse comportamento é um ou mais aplicativos que consomem uma alta porcentagem da CPU.

Neste exemplo, você decide notificar a equipe de operações imediatamente, definindo a gravidade do alarme como "Crítico", pois é necessário reparo para trazer as instâncias de volta aos níveis operacionais ideais. Você configura notificações de alarme para a equipe responsável pelo PagerDuty e por e-mail, solicitando uma investigação e correções apropriadas antes que as instâncias entrem em um estado inoperante. Você define notificações repetidas a cada minuto. Quando alguém responde às notificações de alarme, você interrompe temporariamente as notificações usando a melhor prática para suprimir o alarme. Quando as métricas retornam aos valores ideais, você remove a supressão.

NonOptimal Exemplo

Um limite não ideal típico para a métrica CpuUtilization é de 60 a 80%. Quando os valores da métrica de uma instância de computação estão dentro dessa faixa, a instância excede a faixa operacional ideal.

Neste exemplo, você decide notificar o indivíduo ou a equipe apropriada de que um aplicativo ou processo está consumindo mais CPU do que o habitual. Configure um alarme de limite para notificar os contatos apropriados, definindo a gravidade do alarme como "Aviso", pois nenhuma ação imediata é necessária para investigar e reduzir a CPU. Defina a notificação somente para e-mail, direcionada para o desenvolvedor ou equipe apropriada, com notificações repetidas a cada 24 horas para reduzir o ruído de notificação por e-mail.

Exemplo de Recurso Ativo ou Inativo

Um indicador típico de disponibilidade de recursos é uma ausência de cinco minutos da métrica CpuUtilization. Uma instância de computação que está ultrapassando esse limite não está acessível ou não está operante. O recurso pode ter parado de responder ou pode estar indisponível devido a problemas de conectividade.

Neste exemplo, você decide notificar a equipe de operações imediatamente, definindo a gravidade do alarme de ausência como "Crítico", pois é necessário reparo para colocar as instâncias on-line. Você configura notificações de alarme para a equipe responsável pelo PagerDuty e por e-mail, solicitando uma investigação e uma movimentação das cargas de trabalho para outro recurso disponível. Você define notificações repetidas a cada minuto. Quando alguém responde às notificações de alarme, você interrompe temporariamente as notificações usando a melhor prática para suprimir o alarme. Quando a métrica CpuUtilization é detectada novamente no recurso, você remove a supressão.

Às vezes, você deseja ser notificado sempre que ocorrer um evento, como um shutdown de uma instância de banco de dados. Nesse cenário, defina as notificações de repetição como zero minutos para criar um alarme baseado em evento. Para obter instruções, consulte Obtendo Notificações Baseadas em Evento para um Alarme.

Selecionar o Intervalo correto de alarme para sua métrica

Selecione um intervalo de alarme com base na frequência de emissão da métrica. Por exemplo, uma métrica emitida a cada cinco minutos requer um intervalo de alarme de 5 minutos ou mais. A maioria das métricas é emitida a cada minuto, o que significa que a maioria das métricas suporta qualquer intervalo de alarme. Para determinar intervalos de alarme válidos para uma métrica específica, verifique a referência da métrica do serviço relevante.

Suprimir Alarmes Durante Investigações

Quando um membro da equipe responder a um alarme, suprima as notificações durante o esforço para investigar ou mitigar o problema. A interrupção temporária das notificações ajuda a evitar distrações durante a investigação e atenuação. Remova a supressão quando o problema for resolvido. Para obter instruções, consulte Suprição de um Único Alarm e Suprição de Vários Alarmes.

Ajustar Alarmes com Regularidade

Com uma regularidade, como semanalmente, revise seus alarmes para garantir a configuração ideal. Calibre os detalhes de limite, gravidade e notificação de cada alarme, incluindo método, frequência e público-alvo.

Esta imagem mostra uma revisão semanal de alarmes para ajuste de rotina.

A configuração de alarme ideal aborda os seguintes fatores:

  • A importância do recurso.
  • O comportamento apropriado de recursos. Avalie o comportamento individualmente e dentro do contexto do ecossistema de serviço. Revise as flutuações do valor da métrica para um período específico e, em seguida, ajuste os limites conforme necessário.
  • O ruído de notificação aceitável. Avalie o método de notificação (por exemplo, e-mail ou PagerDuty), os destinatários apropriados e a frequência de notificações repetidas.

A tabela a seguir mostra um exemplo de calibração de alarme.

Limite de CPU % Gravidade Método de Notificação Frequência Público-Alvo
>80% Crítico PagerDuty + E-mail 1 minuto Computação, Operações e Comunicações ao Cliente
>60% & <80% Advertência Enviar e-mail Uma vez por dia Computação + Operações

Para obter instruções, consulte Atualizando um Alarme.