Dépannage des alarmes
Utilisez les informations de dépannage pour identifier et résoudre les problèmes courants qui peuvent survenir lors de l'utilisation d'alarmes dans le service de surveillance.
Avant le dépannage, assurez-vous de comprendre comment les alarmes sont évaluées. Voir Illustration de l'évaluation des alarmes.
L'alarme ne se déclenche pas
L'alarme répondait à la condition de tir, mais elle ne s'est pas déclenchée. Par exemple, une instance de calcul est tombée en panne.
Cause : Délai de déclenchement long
L'expression d'alarme n'a pas été évaluée à Vrai pendant des minutes consécutives dans la période de délai de déclenchement.
L'image suivante du graphique de mesure d'une alarme comprend une zone ombrée pour indiquer la période de délai de déclenchement. Dans cet exemple, le sommaire de l'alarme affiché dans la page des détails de l'alarme est Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes
. Le délai de déclenchement commence à 1:30 (lorsque le seuil est dépassé) et se termine à 1:40. L'expression d'alarme prend la valeur true à 1:30, puis la valeur false à 1:32. Cette véritable évaluation ne se poursuit pas pendant toute la période de délai de déclenchement de dix minutes, de sorte que l'alarme ne se déclenche pas.
Pour voir le graphique de mesure d'une alarme, obtenez son historique.
Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.
Remède : raccourcir le délai de déclenchement
Si le délai de déclenchement est trop long et que vous souhaitez que l'alarme se déclenche immédiatement après avoir franchi le seuil, mettez à jour l'alarme pour utiliser un délai de déclenchement plus court. Par exemple, réglez le délai de déclenchement à une minute. Voir Définition du délai de déclenchement pour une alarme et Informations de référence sur MQL (Monitoring Query Language).
Cause : L'intervalle est plus court que la fréquence d'émission
L'expression d'alarme a été évaluée à Vrai, provoquant le déclenchement de l'alarme, mais à l'intervalle suivant, même si le dernier point de données dépassait le seuil, l'alarme a été effacée. L'alarme a été effacée car l'intervalle est plus court que la fréquence d'émission pour la mesure sélectionnée.
L'image suivante du graphique de mesure d'une alarme affiche des points de données horaires pour la mesure sélectionnée, StoredBytes
, à partir de l'espace de noms de mesure oci_object_storage
. L'interrogation d'alarme est StoredBytes[1m].sum() > 800000000
, qui spécifie un intervalle d'une minute. Cet intervalle est plus court que la fréquence d'émission de la métrique, qui est d'une heure. (La fréquence est documentée sous Mesures du service de stockage d'objets.)
Dans cet exemple, l'alarme se déclenche à 3h00 et s'efface à 3h01. Si l'intervalle avait été réglé à une heure, l'expression d'alarme continuerait de s'évaluer à Vrai et l'alarme continuerait à se déclencher, jusqu'à 4:00.
Pour voir le graphique de mesure d'une alarme, obtenez son historique.
Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.
Remède : Augmenter l'intervalle
Si vous voulez que l'alarme se déclenche, mettez à jour l'intervalle d'alarme pour qu'il soit identique ou supérieur à la fréquence d'émission de la mesure. Par exemple, pour la mesure StoredBytes
, mettez à jour l'intervalle d'alarme à au moins une heure, si vous voulez que l'alarme se déclenche à 3:01 et continuez à se déclencher jusqu'à 4:00 dans l'exemple précédent. Voir Sélection de l'intervalle pour une interrogation d'alarme et Informations de référence sur MQL (Monitoring Query Language).
Cause : Dimensions incorrectes
L'expression d'alarme n'a pas été évaluée à Vrai lorsqu'une ressource satisfait à la condition définie dans l'alarme, car la ressource a été exclue à l'aide de dimensions.
Prenons l'exemple d'une alarme avec des dimensions sélectionnées pour le domaine de disponibilité 1. La ressource qui a satisfait la condition se trouve dans le domaine de disponibilité 2. L'évaluation de l'alarme prend en compte uniquement les ressources qui correspondent aux dimensions spécifiées.
Mesure corrective : Mettre à jour les dimensions
Supprimez les dimensions ou mettez-les à jour pour inclure la ressource. Voir Sélection de dimensions pour une interrogation d'alarme.
Cause : Interrogation incorrecte
Exemples courants :
- L'interrogation d'alarme peut spécifier la mesure
MemoryUtilization
lorsque vous vouliez sélectionnerCpuUtilization
. - L'interrogation d'alarme peut spécifier la statistique
mean()
lorsque vous voulez plutôt que l'alarme surveille la somme des points de données dans un intervalle (sum()
).
Pour vérifier la présence d'une alarme dans l'interrogation, obtenez ses détails.
Pour plus d'informations sur les éléments d'interrogation, voir Informations de référence sur MQL (Monitoring Query Language). Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.
Mesure corrective : Mettre à jour l'interrogation
Cause : L'alarme est désactivée
Mesure corrective : Activer l'alarme
L'alarme n'envoie pas d'avis
Lorsque l'alarme se déclenche, elle n'envoie pas de notification.
Cause : L'alarme ou la dimension est supprimée
Mesure corrective : Supprimer la suppression
Voir Suppression d'une suspension d'une seule alarme et Suppression de plusieurs alarmes.
Cause : L'abonnement ne fait pas partie du sujet configuré
Par exemple, disons que vous n'obtenez pas de messages d'alarme dans votre boîte de réception. Le sujet spécifié pour l'alarme n'a peut-être pas d'abonnement par courriel pour l'adresse de courriel souhaitée.
Pour vérifier si le sujet inclut l'abonnement attendu, voir Obtention des détails d'un sujet.
Mesure corrective : Mettre à jour la rubrique pour inclure l'abonnement
Voir Création d'un abonnement.
Vous pouvez également mettre à jour l'alarme pour référencer un nouveau sujet et un abonnement, ou un sujet existant qui inclut l'abonnement souhaité. Voir Sélection d'un sujet comme destination d'avis pour une alarme.
L'alarme envoie trop d'avis
Lorsque l'alarme se déclenche, elle envoie plus de notifications que prévu.
Cause : Les avis de répétition sont activés
L'alarme est configurée pour répéter les notifications d'alarme lorsque l'alarme continue de se déclencher sans interruption.
Mesure corrective : Désactiver les avis répétés
Cause : Les avis fractionnés sont activés
L'alarme est configurée pour envoyer un avis pour chaque flux de mesure qui se déclenche. Par exemple, si 50 flux de mesure se déclenchent, l'alarme envoie 50 notifications. Ce comportement est attendu pour les avis fractionnés. Voir Scénario : Fractionner les messages par flux de mesure.
Par exemple, l'image suivante présente un graphique de mesure d'alarme avec deux flux de mesure qui dépassent le seuil à 1:30, provoquant le déclenchement de l'alarme.
Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 87.
Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 95.
Pour voir le graphique de mesure d'une alarme, obtenez son historique.
Réinitialisations d'alarme
L'historique des alarmes affiche l'état de transition RESET (Réinitialiser).
Une alarme est réinitialisée pour arrêter la vérification d'une mesure absente qui a déclenché l'état de déclenchement. Pour plus d'informations, voir À propos de la période de réinitialisation interne.
L'alarme n'enregistre pas (erreur 404)
Lorsque vous tentez d'enregistrer une alarme nouvelle ou mise à jour, une erreur 404 empêche la création ou la mise à jour de l'alarme.
Cause : Politiques insuffisantes
Une erreur 404 indique que vous n'avez pas les politiques IAM requises.
Mesure corrective : Obtenir les politiques requises
L'alarme se déclenche et se désactive continuellement
Résolvez une alarme qui ne cesse de basculer entre les valeurs de statut Firing
et OK
.
L'intervalle d'alarme est trop petit ou le délai de déclenchement est trop grand (ou les deux). La ressource émet la mesure spécifiée à une fréquence supérieure à l'intervalle d'alarme.
Prenons le cas, par exemple, de la mesure DatabaseAvailability
, qui est émise toutes les 5 minutes.
Demande d'API (parties pertinentes) :
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[1m].absent()",
"pendingDuration":"PT3M",
Configuration de la console :
Champ | Valeur |
---|---|
Espace de noms de mesure | oci_autonomous_database |
Nom de mesure | DatabaseAvailability |
Intervalle | 1 minute |
Statistique | Moyenne |
Règle de déclenchement |
|
Regroupement de messages | Regrouper les avis de tous les flux de mesure |
- Exemple : Statut des commutateurs d'alarme
Voici un exemple de basculement de statut d'une alarme entre Firing
et OK
de 1:00 à 1:08. Notez le statut OK
à 1:01, 1:02, 1:06 et 1:07. À ces heures-là, les résultats de l'évaluation de l'alarme remplissaient la condition pour l'intervalle d'une minute, mais la modification de statut était en attente en interne en raison du délai de déclenchement de trois minutes. Le statut de l'alarme est passé à Firing
à 1:03 et 1:08, car trois évaluations consécutives remplissaient la condition.
Heure | Valeur dans le graphique de mesure* | Condition d'alarme remplie? | Statut d'alarme |
---|---|---|---|
1:00 | 0 |
Non | OK |
1:01 | 1 |
Oui. La modification de statut est en attente en interne. | OK |
1:02 | 1 |
Oui. La modification de statut est en attente en interne. | OK |
1:03 | 1 |
Oui | Firing |
1:04 | 1 |
Oui | Firing |
1:05 | 0 |
Non | OK |
1:06 | 1 |
Oui. La modification de statut est en attente en interne. | OK |
1:07 | 1 |
Oui. La modification de statut est en attente en interne. | OK |
1:08 | 1 |
Oui | Firing |
*Pour une valeur dans le graphique de mesure, 0
signifie que la mesure est présente alors que 1
signifie que la mesure est absente. Pour un exemple de graphique de mesure, voir Création d'une alarme d'absence.
Pour remédier à cette situation, mettez à jour la configuration d'alarme suivante :
- L'intervalle d'alarme doit être égal ou supérieur à la fréquence à laquelle les mesures sont émises. Voir Sélection de l'intervalle pour une interrogation d'alarme.
- Délai de déclenchement pour tenir compte de la latence. Voir Définition du délai de déclenchement d'une alerte.
Par exemple, mettez à jour l'intervalle à 10 minutes et mettez à jour le délai de déclenchement à 1 minute.
Demande d'API (parties pertinentes) :
"isNotificationsPerMetricDimensionEnabled":false,
"namespace":"oci_autonomous_database",
"query":"DatabaseAvailability[10m].absent()",
"pendingDuration":"PT1M",
Configuration de la console :
Champ | Valeur |
---|---|
Espace de noms de mesure | oci_autonomous_database |
Nom de mesure | DatabaseAvailability |
Intervalle | 10 minutes |
Statistique | Moyenne |
Règle de déclenchement |
|
Regroupement de messages | Regrouper les avis de tous les flux de mesure |
- Exemple : La mesure est présente et l'alarme est à l'état
OK
- Dans cet exemple, la mesure est présente aux heures prévues (toutes les cinq minutes) : 2:00, 2:05 et 2:10. À chacune de ces heures, l'alarme évalue la présence de la métrique au cours des dix dernières minutes. Le statut de l'alarme reste
OK
pour les heures listées.
- Exemple : La mesure est absente et l'alarme est à l'état
Firing
- Dans cet exemple, la mesure est présente à 2:00, mais absente à 2:05 et à 2:10. Comme l'intervalle d'alarme est de dix minutes, la condition d'alarme n'a pas été remplie à 2:05. À 2:10, l'alarme passe au statut
Firing
, car la condition d'alarme est remplie (aucune mesure n'était présente pour l'intervalle de dix minutes).