Solución de problemas de alarmas
Utilice la información de solución de problemas para identificar y resolver las incidencias comunes que se pueden producir al trabajar con alarmas en Monitoring.
Antes de solucionar problemas, asegúrese de comprender cómo se evalúan las alarmas. Consulte Illustration of Alarm Evaluation.
La alarma no se dispara
La alarma cumplió la condición para disparar, pero no se disparó. Por ejemplo, una instancia informática ha caído.
Causa: retraso prolongado del disparador
La expresión de alarma no se evaluó como verdadera durante minutos consecutivos en el período de retraso del disparador.
La siguiente imagen del gráfico de métricas de una alarma incluye un área sombreada para indicar el período de retraso del disparador. En este ejemplo, el resumen de alarma que se muestra en la página de detalles de la alarma es Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes
. El retraso del disparador comienza a las 1:30 (cuando se supera el umbral) y termina a las 1:40. La expresión de alarma se evalúa como verdadera a las 1:30 y, a continuación, se evalúa como falsa a las 1:32. Esta verdadera evaluación no continúa durante el período completo de retraso del disparador de diez minutos, por lo que la alarma no se dispara.
Para ver el gráfico de métricas de una alarma, obtenga su historial.
Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.
Solución: acortar el retraso del disparador
Si el retraso del disparador es demasiado largo y desea que la alarma se dispare inmediatamente después de incumplir el umbral, actualice la alarma para que utilice un retraso del disparador más corto. Por ejemplo, defina el retraso del disparador en un minuto. Consulte Definición del retraso del disparador para una alarma y Referencia de Monitoring Query Language (MQL).
Causa: el intervalo es más corto que la frecuencia de emisión
La expresión de alarma se evaluó en true, lo que provocó que la alarma se disparara, pero en el siguiente intervalo, aunque el último punto de datos superara el umbral, la alarma se borró. La alarma se ha borrado porque el intervalo es más corto que la frecuencia de emisión de la métrica seleccionada.
La siguiente imagen del gráfico de métricas de una alarma muestra puntos de datos por hora para la métrica seleccionada, StoredBytes
, desde el espacio de nombres de métrica oci_object_storage
. La consulta de alarma es StoredBytes[1m].sum() > 800000000
, que especifica un intervalo de un minuto. Este intervalo es más corto que la frecuencia de emisión de la métrica, que es de una hora. (La frecuencia se documenta en Object Storage Metrics).
En este ejemplo, la alarma se dispara a las 3:00 y se desactiva a las 3:01. Si el intervalo se hubiera establecido en una hora, la expresión de alarma seguiría evaluándose como verdadera y la alarma seguiría disparándose hasta las 4:00.
Para ver el gráfico de métricas de una alarma, obtenga su historial.
Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.
Remedio: Aumentar el intervalo
Si desea que se dispare la alarma, actualice el intervalo de alarma para que sea igual o mayor que la frecuencia de emisión de la métrica. Por ejemplo, para la métrica StoredBytes
, actualice el intervalo de alarma a al menos una hora si desea que la alarma se dispare a las 3:01 y continúe disparando hasta las 4:00 en el ejemplo anterior. Consulte Selección del intervalo para una consulta de alarma y Referencia del lenguaje de consulta de supervisión (MQL).
Causa: dimensiones incorrectas
La expresión de alarma no se evaluó como verdadera cuando un recurso cumplió la condición definida en la alarma porque el recurso se filtró mediante dimensiones.
Por ejemplo, considere una alarma con dimensiones seleccionadas para el dominio de disponibilidad 1. El recurso que cumplió la condición está en el dominio de disponibilidad 2. La evaluación de alarmas solo tiene en cuenta los recursos que coinciden con las dimensiones especificadas.
Solución: Actualizar dimensiones
Elimine las dimensiones o actualícelas para incluir el recurso. Consulte Selección de dimensiones para una consulta de alarma.
Causa: consulta incorrecta
Ejemplos comunes:
- La consulta de alarma puede especificar la métrica
MemoryUtilization
al seleccionarCpuUtilization
. - La consulta de alarma puede especificar la estadística
mean()
cuando, en su lugar, desea que la alarma supervise la suma de puntos de datos en un intervalo (sum()
).
Para comprobar la consulta de una alarma, obtenga sus detalles.
Para obtener más información sobre los elementos de consulta, consulte Referencia de Monitoring Query Language (MQL). Para obtener más información sobre cómo se evalúan las alarmas, consulte Illustration of Alarm Evaluation.
Solución: Actualizar la consulta
Causa: la alarma está desactivada
Solución: active la alarma
La alarma no envía una notificación
Cuando la alarma se dispara, no envía una notificación.
Causa: se suprime la alarma o la dimensión
Solución: elimine la supresión
Consulte Removing a Suppression from a Single Alarm y Removing Suppressions from Multiple Alarms.
Causa: la suscripción no forma parte del tema configurado
Por ejemplo, supongamos que no está recibiendo mensajes de alarma en su bandeja de entrada. Es posible que el tema especificado para la alarma no tenga una suscripción de correo electrónico para la dirección de correo electrónico que desea.
Para comprobar si el tema incluye la suscripción esperada, consulte Obtención de detalles de un tema.
Solución: Actualizar tema para incluir suscripción
Consulte Creación de una suscripción.
También puede actualizar la alarma para que haga referencia a un tema y una suscripción nuevos, o a un tema existente que incluya la suscripción que desea. Consulte Selección de un tema como destino de notificación para una alerta.
La alarma envía demasiadas notificaciones
Cuando la alarma se dispara, envía más notificaciones de las esperadas.
Causa: las notificaciones de repetición están activadas
La alarma se configura para repetir las notificaciones de alarma cuando la alarma sigue disparándose sin interrupción.
Solución: Desactivar notificaciones de repetición
Causa: las notificaciones de división están activadas
La alarma está configurada para enviar una notificación para cada flujo de métricas que se dispara. Por ejemplo, si se disparan 50 flujos de métricas, la alarma envía 50 notificaciones. Este es el comportamiento esperado para las notificaciones divididas. Consulte Escenario: división de mensajes por flujo de métricas.
Por ejemplo, en la siguiente imagen se muestra un gráfico de métricas de alarma con dos flujos de métricas que superan el umbral a las 1:30, lo que provoca que se active la alarma.
A continuación, se muestra el mensaje de alarma enviado para la instancia informática con el valor de métrica 87.
A continuación, se muestra el mensaje de alarma enviado para la instancia informática con el valor de métrica 95.
Para ver el gráfico de métricas de una alarma, obtenga su historial.
Restablecimientos de alarma
El historial de alarmas muestra un estado de transición RESET (Restablecer).
Una alarma se restablece para dejar de comprobar una métrica ausente que disparó el estado Firing. Para obtener más información, consulte Acerca del período de restablecimiento interno.
La alarma no se guarda (error 404)
Al intentar guardar una alarma nueva o actualizada, aparece un error 404 que impide la creación o actualización de la alarma.
Causa: políticas insuficientes
Un error 404 indica que no tiene las políticas de IAM necesarias.
Solución: Obtener las políticas necesarias
La alarma se dispara y borra de forma continua
Solucione problemas de una alarma que sigue cambiando entre los valores de estado Firing
y OK
.
El intervalo de alarma es demasiado pequeño o el retraso del disparador es demasiado grande (o ambos). El recurso emite la métrica especificada con una frecuencia mayor que el intervalo de alarma.
Por ejemplo, considere la métrica DatabaseAvailability
, que se emite cada 5 minutos.
Solicitud de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[1m].absent()",
"pendingDuration":"PT3M",
Configuración de la consola:
Campo | Valor |
---|---|
Espacio de nombre de métrica | oci_autonomous_database |
Nombre de métrica | DatabaseAvailability |
Intervalo | 1 minuto |
Estadística | Media |
Regla de disparador |
|
Agrupamiento de mensajes | Notificaciones de grupo en los flujos de métricas |
- Ejemplo: cambio de estado de la alarma
A continuación, se muestra un ejemplo del cambio del estado de una alarma entre los valores de estado Firing
y OK
de 1:00 a 1:08 Observe el estado OK
a las 1:01, 1:02, 1:06 y 1:07. En estos momentos, los resultados de la evaluación de la alarma cumplen la condición para el intervalo de un minuto, pero el cambio de estado estaba pendiente internamente debido al retraso del disparador de tres minutos. El estado de la alarma ha cambiado a Firing
a las 1:03 y 1:08 porque tres evaluaciones consecutivas cumplieron la condición.
Hora | Valor en gráfico de métricas* | ¿Se ha cumplido la condición de alarma? | Estado de la alarma |
---|---|---|---|
1:00 | 0 |
No | OK |
1:01 | 1 |
Sí. Cambio de estado está pendiente internamente | OK |
1:02 | 1 |
Sí. Cambio de estado está pendiente internamente | OK |
1:03 | 1 |
Sí | Firing |
1:04 | 1 |
Sí | Firing |
1:05 | 0 |
No | OK |
1:06 | 1 |
Sí. Cambio de estado está pendiente internamente | OK |
1:07 | 1 |
Sí. Cambio de estado está pendiente internamente | OK |
1:08 | 1 |
Sí | Firing |
*Para el valor del gráfico de métricas, 0
significa que la métrica está presente mientras que 1
significa que la métrica está ausente. Para ver un ejemplo de gráfico de métricas, consulte Creación de una alarma de ausencia.
Para solucionar esta situación, actualice la siguiente configuración de alarma:
- El intervalo de alarma debe ser igual o mayor que la frecuencia de la emisión de métrica. Consulte Selección del intervalo para una consulta de alarma.
- Retraso del disparador para la latencia. Consulte Definición del retraso del disparador para una alarma.
Por ejemplo, actualice el intervalo a 10 minutos y actualice el retraso del disparador a 1 minuto.
Solicitud de API (partes relevantes):
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[10m].absent()",
"pendingDuration":"PT1M",
Configuración de la consola:
Campo | Valor |
---|---|
Espacio de nombre de métrica | oci_autonomous_database |
Nombre de métrica | DatabaseAvailability |
Intervalo | 10 minutos |
Estadística | Media |
Regla de disparador |
|
Agrupamiento de mensajes | Notificaciones de grupo en los flujos de métricas |
- Ejemplo: la métrica está presente y el estado de la alarma es
OK
- En este ejemplo, la métrica está presente en los tiempos esperados (cada cinco minutos): 2:00, 2:05 y 2:10. En cada momento, la alarma evalúa la presencia de la métrica durante los últimos diez minutos. El estado de la alarma sigue siendo
OK
para las horas mostradas.
- Ejemplo: la métrica está ausente y el estado de la alarma es
Firing
- En este ejemplo, la métrica está presente a las 2:00, pero ausente a las 2:05 y a las 2:10. Debido a que el intervalo de alarma son de diez minutos, la condición de la alarma no se cumplió a las 2:05. A las 2:10, la alarma cambia al estado
Firing
porque se cumple la condición de la alarma (no había métricas presentes durante el intervalo de diez minutos).