Criar Alarmes

Definindo Alarmes

Quando uma condição da métrica for atendida, você poderá usar o sistema de alarme do serviço Monitoring para alertar as partes interessadas sobre as condições. Você pode criar alarmes em recursos individuais ou em um compartimento inteiro.

O Ops Insights fornece acesso conveniente à funcionalidade de criação de alarme do serviço Monitoring diretamente de qualquer página de recursos da frota.

Para criar um alarme:
  1. No painel esquerdo, clique em Administração.
  2. Clique em um recurso de frota. (Frota de Banco de Dados, Frota de Hosts, Frota do Exadata, Warehouse do Ops Insights).
  3. Clique no menu Ação (reticências verticais) de um recurso específico e selecione Adicionar Alarmes. A região Adicionar Alarmes a Métricas é exibida. Expanda a região de descrição abaixo de cada métrica para exibir parâmetros de trigger sugeridos, bem como dimensões-chave.
    O gráfico mostra a região Adicionar Alarmes às Métricas.

  4. Clique em Adicionar Alarme. Você será levado à página Criar Alarme do serviço Monitoring com os detalhes de métrica necessários já preenchidos.
    Observação

    Por padrão, um alarme se aplica a um recurso individual. Se quiser que o alarme seja aplicado a um compartimento inteiro, remova o resourceID.
  5. Em Notificação>Destinos, selecione um tópico ou canal que você deseja usar para enviar notificações quando um alarme for acionado. Também é possível criar um tópico.
  6. Forneça um nome de alarme e defina o limite sugerido e o atraso do trigger.
  7. Clique em Salvar alarme.

Condições de Alarme Específicas

Alarmes SQL

Você pode criar alertas para condições definidas para a métrica NumSqlsNeedingAttention . Os alarmes precisam ser criados de uma maneira específica para que possam ser limpos corretamente. Os exemplos a seguir ilustram como acionar um alarme sob várias condições de alerta.

Condição de Alarme Definição de Alarme MQL
Você deseja acionar um alarme se o número total de instruções SQL em todos os recursos, que estão degradados e têm uma alteração de plano, for maior que 5.
NumSqlsNeedingAttention[3h]
{isIncreasingCpu="1", isDegraded="1"}.absent()==0 && NumSqlsNeedingAttention[3h]{isIncreasingCpu="1", isDegraded="1"}
.sum() > 5
Você deseja acionar um alarme sempre que qualquer recurso tiver uma alteração de plano.
NumSqlsNeedingAttention[3h]
{isPlanChanged = "1"}.absent()==0 && NumSqlsNeedingAttention[3h]{isPlanChanged = "1"}
.max() > 0
Você deseja acionar um alarme sempre que o recurso tiver uma alteração de plano.
NumSqlsNeedingAttention[3h]
{isPlanChanged = "1", resourceId = "opsi.ocid"}
.absent()==0 && NumSqlsNeedingAttention[3h]
{isPlanChanged = "1", resourceId = "opsi.ocid}
.max() > 0

Padrões semelhantes podem ser usados para qualquer uma das dimensões. Em geral, para acionar um alarme em uma condição específica, a sintaxe de definição de alarme genérico seria semelhante à seguinte:

NumSqlsNeedingAttention[3h]
{dim1="val1", dim2="val2", ....}
.absent()==0 && NumSqlsNeedingAttention[3h]
{dim1="val1", dim2="val2, ...}
.sum() > 5
Observação

Você deve especificar a condição ausente e uma condição de limite, conforme mostrado acima, e a especificação de dimensão deve ser a mesma nas duas cláusulas. Você só deve alterar as dimensões ou o valor limite conforme necessário e deixar os outros valores como estão.

Atrasos de Fluxo de Dados

Você pode criar alertas para condições definidas para a métrica DataFlowDelayInHrs. A tabela a seguir mostra alguns alarmes recomendados que é possível configurar junto com um exemplo correspondente do Monitoring Query Language (MQL), que você pode usar como modelo para definir seus alarmes. Para obter mais informações sobre como configurar alarmes, consulte Gerenciando Alarmes.

Nome do Alarme Definição de Alarme MQL Descrição:
DataFlowSourceAlarmFor1HrData DataFlowDelayInHrs[1h]{dataProcessingFrequencyInHrs="1.00"}.grouping(telemetrySourceType , sourceIdentifier).mean() > 48

Duração pendente: 1h

Para sourceType, sourceIdentifier com frequência de processamento de dados de 1 hora, o valor médio (entre destinos) de DataFlowDelayInHrs é maior que 48 horas para 6 horas contínuas. Isso indica que o problema está em todo o nível de origem.
DataFlowResourceAlarmFor1HrData DataFlowDelayInHrs[1h]{dataProcessingFrequencyInHrs="1.00"}.grouping(telemetrySourceType, resourceId,resourceDisplayName, sourceIdentifier).max() > 24

Duração pendente: 1h

Para um sourceType, recurso e sourceIdentifier, DataFlowDelayInHrs é de mais de 24 horas em 1 dia contínuo para o tipo de dados para o qual a frequência de processamento de dados é a cada 1 hora.
DataFlowResourceAlarmFor3HrData DataFlowDelayInHrs[3h]{dataProcessingFrequencyInHrs="3.00"}.grouping(telemetrySourceType, resourceId, sourceIdentifier).max() > 48

Duração pendente: 1h

Para um sourceType, recurso e sourceIdentifier, DataFlowDelayInHrs é de mais de 48 horas em 1 dia contínuo para o tipo de dados para o qual a frequência de processamento de dados é a cada 3 horas.
DataFlowResourceAlarmForDailyData DataFlowDelayInHrs[3h]{dataProcessingFrequencyInHrs="24.00"}.grouping(telemetrySourceType, resourceId, sourceIdentifier).mean()

Duração pendente: 1h

Para um sourceType, recurso e sourceIdentifier, DataFlowDelayInHrs é de mais de 72 horas em 1 dia contínuo para o tipo de dados para o qual a frequência de processamento de dados é a cada 24 horas.

Sobre Problemas de Previsão

O Ops Insights fornece métricas para ajudar você a configurar a utilização de alto (valor padrão >75%) ou baixo (valor padrão < 25%) para um determinado recurso e recurso. Além disso, você pode personalizar esses limites de métrica de previsão. Ajudando a fornecer previsões de gerenciamento de capacidade mais granulares, permitindo que você seja mais proativo no gerenciamento de recursos, definindo valores de limite mais relevantes para um tipo de destino específico para previsões mais precisas. Para obter mais informações sobre como definir valores de limite, consulte: Alterando Limites de Utilização.

As métricas de previsão são geradas usando no máximo 100 dias de dados do histórico e janela de previsão de 90 dias. Você pode verificar a previsão na console do Ops Insights selecionando 1 ano no Filtro de Intervalo de Tempo e utilização Alta ou Baixa por 90 dias, conforme mostrado abaixo.


Seletor de intervalo de tempo

90 dias de alta utilização

90 dias de baixa utilização

A tabela a seguir exibe uma amostra de um alarme recomendado que é possível configurar com um exemplo correspondente do Monitoring Query Language (MQL), que você pode usar como modelo para definir seus alarmes. Para obter mais informações sobre como configurar alarmes, consulte Gerenciando Alarmes.

Nome do Alarme MQL Descrição
DaysToReachHighUtilizationStorageLessThan30D DaysToReachHighUtilization[1D]{resourceMetric="STORAGE", resourceType="Database", exceededForecastWindow="false"}.grouping(telemetrySource,resourceId).mean() < 30," Para sourceType, resourceType, resourceMetric e sourceIdentifier, DaysToReachHighUtilization é menor que 30 dias.
DaysToReachHighUtilizationExaStorage DaysToReachHighUtilization[1D]{resourceMetric="STORAGE", resourceType="Database", exceededForecastWindow="false"}.grouping(telemetrySource,resourceId).mean() < 30, Para sourceType, resourceType, resourceMetric e sourceIdentifier, DaysToReachHighUtilization é menor que 30 dias.
Observação

Para previsões com conhecimento de sazonalidade e linear, a janela de previsão é de 90 dias, o que significa que se um recurso específico tiver uma previsão de mais de 90 dias, por padrão, o valor da métrica mostrará 91 dias. Para AutoML, isso é previsto pelo número de pontos de dados disponíveis.