Solución de problemas de alarmas

Utilice la información de solución de problemas para identificar y resolver las incidencias comunes que se pueden producir al trabajar con alarmas en Monitoring.

Antes de solucionar problemas, asegúrese de comprender cómo se evalúan las alarmas. Consulte Illustration of Alarm Evaluation.

La alarma no se dispara

La alarma cumplió la condición para disparar, pero no se disparó. Por ejemplo, una instancia informática ha caído.

Causa: retraso prolongado del disparador

La expresión de alarma no se evaluó como verdadera durante minutos consecutivos en el período de retraso del disparador.

La siguiente imagen del gráfico de métricas de una alarma incluye un área sombreada para indicar el período de retraso del disparador. En este ejemplo, el resumen de alarma que se muestra en la página de detalles de la alarma es Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes. El retraso del disparador comienza a las 1:30 (cuando se supera el umbral) y termina a las 1:40. La expresión de alarma se evalúa como verdadera a las 1:30 y, a continuación, se evalúa como falsa a las 1:32. Esta verdadera evaluación no continúa durante el período completo de retraso del disparador de diez minutos, por lo que la alarma no se dispara.


Retraso del disparador superpuesto en un gráfico de métricas de alarma.

Para ver el gráfico de métricas de una alarma, obtenga su historial.

Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.

Solución: acortar el retraso del disparador

Si el retraso del disparador es demasiado largo y desea que la alarma se dispare inmediatamente después de incumplir el umbral, actualice la alarma para que utilice un retraso del disparador más corto. Por ejemplo, defina el retraso del disparador en un minuto. Consulte Definición del retraso del disparador para una alarma y Referencia de Monitoring Query Language (MQL).

Causa: el intervalo es más corto que la frecuencia de emisión

La expresión de alarma se evaluó en true, lo que provocó que la alarma se disparara, pero en el siguiente intervalo, aunque el último punto de datos superara el umbral, la alarma se borró. La alarma se ha borrado porque el intervalo es más corto que la frecuencia de emisión de la métrica seleccionada.

La siguiente imagen del gráfico de métricas de una alarma muestra puntos de datos por hora para la métrica seleccionada, StoredBytes, desde el espacio de nombres de métrica oci_object_storage. La consulta de alarma es StoredBytes[1m].sum() > 800000000, que especifica un intervalo de un minuto. Este intervalo es más corto que la frecuencia de emisión de la métrica, que es de una hora. (La frecuencia se documenta en Object Storage Metrics).


Gráfico de métricas de alarma para una métrica con una frecuencia de emisión por hora.

En este ejemplo, la alarma se dispara a las 3:00 y se desactiva a las 3:01. Si el intervalo se hubiera establecido en una hora, la expresión de alarma seguiría evaluándose como verdadera y la alarma seguiría disparándose hasta las 4:00.

Para ver el gráfico de métricas de una alarma, obtenga su historial.

Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.

Remedio: Aumentar el intervalo

Si desea que se dispare la alarma, actualice el intervalo de alarma para que sea igual o mayor que la frecuencia de emisión de la métrica. Por ejemplo, para la métrica StoredBytes, actualice el intervalo de alarma a al menos una hora si desea que la alarma se dispare a las 3:01 y continúe disparando hasta las 4:00 en el ejemplo anterior. Consulte Selección del intervalo para una consulta de alarma y Referencia del lenguaje de consulta de supervisión (MQL).

Causa: dimensiones incorrectas

La expresión de alarma no se evaluó como verdadera cuando un recurso cumplió la condición definida en la alarma porque el recurso se filtró mediante dimensiones.

Por ejemplo, considere una alarma con dimensiones seleccionadas para el dominio de disponibilidad 1. El recurso que cumplió la condición está en el dominio de disponibilidad 2. La evaluación de alarmas solo tiene en cuenta los recursos que coinciden con las dimensiones especificadas.

Solución: Actualizar dimensiones

Elimine las dimensiones o actualícelas para incluir el recurso. Consulte Selección de dimensiones para una consulta de alarma.

Causa: consulta incorrecta

Ejemplos comunes:

  • La consulta de alarma puede especificar la métrica MemoryUtilization al seleccionar CpuUtilization.
  • La consulta de alarma puede especificar la estadística mean() cuando, en su lugar, desea que la alarma supervise la suma de puntos de datos en un intervalo (sum()).

Para comprobar la consulta de una alarma, obtenga sus detalles.

Para obtener más información sobre los elementos de consulta, consulte Referencia de Monitoring Query Language (MQL). Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.

Solución: Actualizar la consulta

Actualice la alarma para especificar la métrica que desea. Para editar el MQL directamente, consulte Edición del expresión MQL al actualizar una alerta.

Causa: la alarma está desactivada

Solución: active la alarma

  1. En la página de lista Definiciones de alarma, seleccione la alarma con la que desea trabajar. Si necesita ayuda para buscar la página de lista o la alarma, consulte Lista de alarmas.
    Nota

    Estos pasos son para la consola. Para obtener instrucciones completas, consulte Enabling an Alarm.
  2. En la página de detalles de la alarma, seleccione La alarma está activada.

La alarma no envía una notificación

Cuando la alarma se dispara, no envía una notificación.

Causa: se suprime la alarma o la dimensión

Solución: elimine la supresión

Consulte Removing a Suppression from a Single Alarm y Removing Suppressions from Multiple Alarms.

Causa: la suscripción no forma parte del tema configurado

Por ejemplo, supongamos que no está recibiendo mensajes de alarma en su bandeja de entrada. Es posible que el tema especificado para la alarma no tenga una suscripción de correo electrónico para la dirección de correo electrónico que desea.

Para comprobar si el tema incluye la suscripción esperada, consulte Obtención de detalles de un tema.

Solución: Actualizar tema para incluir suscripción

Consulte Creación de una suscripción.

También puede actualizar la alarma para que haga referencia a un tema y una suscripción nuevos, o a un tema existente que incluya la suscripción que desea. Consulte Selección de un tema como destino de notificación para una alerta.

La alarma envía demasiadas notificaciones

Cuando la alarma se dispara, envía más notificaciones de las esperadas.

Causa: las notificaciones de repetición están activadas

La alarma se configura para repetir las notificaciones de alarma cuando la alarma sigue disparándose sin interrupción.

Solución: Desactivar notificaciones de repetición

  1. En la página de lista Definiciones de alarma, seleccione la alarma con la que desea trabajar. Si necesita ayuda para buscar la página de lista o la alarma, consulte Lista de alarmas.
    Nota

    Estos pasos son para la consola. Para obtener instrucciones completas, consulte Repetición de notificaciones para una alarma.
  2. Vaya a Acciones y, a continuación, seleccione Editar alarma.
  3. En Definir notificaciones de alarma, desactive la casilla de control ¿Repetir notificación?.
  4. Seleccione Guardar alarma.

Causa: las notificaciones de división están activadas

La alarma está configurada para enviar una notificación para cada flujo de métricas que se dispara. Por ejemplo, si se disparan 50 flujos de métricas, la alarma envía 50 notificaciones. Este es el comportamiento esperado para las notificaciones divididas. Consulte Escenario: división de mensajes por flujo de métricas.

Por ejemplo, en la siguiente imagen se muestra un gráfico de métricas de alarma con dos flujos de métricas que superan el umbral a las 1:30, lo que provoca que se active la alarma.


Dos corrientes métricas se disparan a las 1:30.

A continuación, se muestra el mensaje de alarma enviado para la instancia informática con el valor de métrica 87.

Mensaje de correo electrónico enviado para el primer flujo de métricas de activación en el ejemplo.

A continuación, se muestra el mensaje de alarma enviado para la instancia informática con el valor de métrica 95.

Mensaje de correo electrónico enviado para el segundo flujo de métricas de activación en el ejemplo.

Para ver el gráfico de métricas de una alarma, obtenga su historial.

Si no desea que la alarma envíe una notificación para cada flujo de métricas de activación, considere la posibilidad de actualizar la alarma para agrupar notificaciones. Consulte Cuándo agrupar notificaciones. Después de esta actualización, la alarma envía una única notificación cuando se dispara la alarma, independientemente del número de flujos de métricas que se estén disparando.

La alarma no se guarda (error 404)

Al intentar guardar una alarma nueva o actualizada, aparece un error 404 que impide la creación o actualización de la alarma.

Causa: políticas insuficientes

Un error 404 indica que no tiene las políticas de IAM necesarias.

Solución: Obtener las políticas necesarias

Consulte Políticas de IAM.

La alarma se dispara y borra de forma continua

Solucione problemas de una alarma que sigue cambiando entre los valores de estado Firing y OK.

El intervalo de alarma es demasiado pequeño o el retraso del disparador es demasiado grande (o ambos). El recurso emite la métrica especificada con una frecuencia mayor que el intervalo de alarma.

Por ejemplo, considere la métrica DatabaseAvailability, que se emite cada 5 minutos.

Solicitud de API (partes relevantes):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[1m].absent()",
  "pendingDuration":"PT3M",

Configuración de la consola:

Campo Valor
Espacio de nombre de métrica oci_autonomous_database
Nombre de métrica DatabaseAvailability
Intervalo 1 minuto
Estadística Media
Regla de disparador
  • Operador: ausente
  • Minutos de retraso del disparador: 3
Agrupamiento de mensajes Notificaciones de grupo en los flujos de métricas
Ejemplo: cambio de estado de la alarma

A continuación, se muestra un ejemplo del cambio del estado de una alarma entre los valores de estado Firing y OK de 1:00 a 1:08 Observe el estado OK a las 1:01, 1:02, 1:06 y 1:07. En estos momentos, los resultados de la evaluación de la alarma cumplen la condición para el intervalo de un minuto, pero el cambio de estado estaba pendiente internamente debido al retraso del disparador de tres minutos. El estado de la alarma ha cambiado a Firing a las 1:03 y 1:08 porque tres evaluaciones consecutivas cumplieron la condición.

Hora Valor en gráfico de métricas* ¿Se ha cumplido la condición de alarma? Estado de la alarma
1:00 0 No OK
1:01 1 Sí. Cambio de estado está pendiente internamente OK
1:02 1 Sí. Cambio de estado está pendiente internamente OK
1:03 1 Firing
1:04 1 Firing
1:05 0 No OK
1:06 1 Sí. Cambio de estado está pendiente internamente OK
1:07 1 Sí. Cambio de estado está pendiente internamente OK
1:08 1 Firing

*Para el valor del gráfico de métricas, 0 significa que la métrica está presente mientras que 1 significa que la métrica está ausente. Para ver un ejemplo de gráfico de métricas, consulte Creación de una alarma de ausencia.

Para solucionar esta situación, actualice la siguiente configuración de alarma:

Por ejemplo, actualice el intervalo a 10 minutos y actualice el retraso del disparador a 1 minuto.

Solicitud de API (partes relevantes):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[10m].absent()",
  "pendingDuration":"PT1M",

Configuración de la consola:

Campo Valor
Espacio de nombre de métrica oci_autonomous_database
Nombre de métrica DatabaseAvailability
Intervalo 10 minutos
Estadística Media
Regla de disparador
  • Operador: ausente
  • Minutos de retraso del disparador: 1
Agrupamiento de mensajes Notificaciones de grupo en los flujos de métricas
Ejemplo: la métrica está presente y el estado de la alarma es OK
En este ejemplo, la métrica está presente en los tiempos esperados (cada cinco minutos): 2:00, 2:05 y 2:10. En cada momento, la alarma evalúa la presencia de la métrica durante los últimos diez minutos. El estado de la alarma sigue siendo OK para las horas mostradas.
Hora Valor en gráfico de métricas* ¿Se ha cumplido la condición de alarma? Estado de la alarma
2:00 0 No OK
2:01 1 No OK
2:02 1 No OK
2:03 1 No OK
2:04 1 No OK
2:05 0 No OK
2:06 1 No OK
2:07 1 No OK
2:08 1 No OK
2:09 1 No OK
2:10 0 No OK
2:11 1 No OK
*Para el valor del gráfico de métricas, 0 significa que la métrica está presente mientras que 1 significa que la métrica está ausente. Para ver un ejemplo de gráfico de métricas, consulte Creación de una alarma de ausencia.
Ejemplo: la métrica está ausente y el estado de la alarma es Firing
En este ejemplo, la métrica está presente a las 2:00, pero ausente a las 2:05 y a las 2:10. Debido a que el intervalo de alarma son de diez minutos, la condición de la alarma no se cumplió a las 2:05. A las 2:10, la alarma cambia al estado Firing porque se cumple la condición de la alarma (no había métricas presentes durante el intervalo de diez minutos).
Hora Valor en gráfico de métricas* ¿Se ha cumplido la condición de alarma? Estado de la alarma
2:00 0 No OK
2:01 1 No OK
2:02 1 No OK
2:03 1 No OK
2:04 1 No OK
2:05 1 No OK
2:06 1 No OK
2:07 1 No OK
2:08 1 No OK
2:09 1 No OK
2:10 1 Firing
2:11 1 Firing
*Para el valor del gráfico de métricas, 0 significa que la métrica está presente mientras que 1 significa que la métrica está ausente. Para ver un ejemplo de gráfico de métricas, consulte Creación de una alarma de ausencia.