Dépannage des alarmes

Utilisez les informations de dépannage pour identifier et résoudre les problèmes courants qui peuvent survenir lors de l'utilisation d'alarmes dans le service de surveillance.

Avant le dépannage, assurez-vous de comprendre comment les alarmes sont évaluées. Voir Illustration de l'évaluation des alarmes.

L'alarme ne se déclenche pas

L'alarme répondait à la condition de tir, mais elle ne s'est pas déclenchée. Par exemple, une instance de calcul est tombée en panne.

Cause : Délai de déclenchement long

L'expression d'alarme n'a pas été évaluée à Vrai pendant des minutes consécutives dans la période de délai de déclenchement.

L'image suivante du graphique de mesure d'une alarme comprend une zone ombrée pour indiquer la période de délai de déclenchement. Dans cet exemple, le sommaire de l'alarme affiché dans la page des détails de l'alarme est Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes. Le délai de déclenchement commence à 1:30 (lorsque le seuil est dépassé) et se termine à 1:40. L'expression d'alarme prend la valeur true à 1:30, puis la valeur false à 1:32. Cette véritable évaluation ne se poursuit pas pendant toute la période de délai de déclenchement de dix minutes, de sorte que l'alarme ne se déclenche pas.


Délai de déclenchement superposé à un graphique de mesure d'alarme.

Pour voir le graphique de mesure d'une alarme, obtenez son historique.

Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.

Remède : raccourcir le délai de déclenchement

Si le délai de déclenchement est trop long et que vous souhaitez que l'alarme se déclenche immédiatement après avoir franchi le seuil, mettez à jour l'alarme pour utiliser un délai de déclenchement plus court. Par exemple, réglez le délai de déclenchement à une minute. Voir Définition du délai de déclenchement pour une alarme et Informations de référence sur MQL (Monitoring Query Language).

Cause : L'intervalle est plus court que la fréquence d'émission

L'expression d'alarme a été évaluée à Vrai, provoquant le déclenchement de l'alarme, mais à l'intervalle suivant, même si le dernier point de données dépassait le seuil, l'alarme a été effacée. L'alarme a été effacée car l'intervalle est plus court que la fréquence d'émission pour la mesure sélectionnée.

L'image suivante du graphique de mesure d'une alarme affiche des points de données horaires pour la mesure sélectionnée, StoredBytes, à partir de l'espace de noms de mesure oci_object_storage. L'interrogation d'alarme est StoredBytes[1m].sum() > 800000000, qui spécifie un intervalle d'une minute. Cet intervalle est plus court que la fréquence d'émission de la métrique, qui est d'une heure. (La fréquence est documentée sous Mesures du service de stockage d'objets.)


Graphique métrique d'alarme pour une mesure avec une fréquence d'émission horaire.

Dans cet exemple, l'alarme se déclenche à 3h00 et s'efface à 3h01. Si l'intervalle avait été réglé à une heure, l'expression d'alarme continuerait de s'évaluer à Vrai et l'alarme continuerait à se déclencher, jusqu'à 4:00.

Pour voir le graphique de mesure d'une alarme, obtenez son historique.

Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.

Remède : Augmenter l'intervalle

Si vous voulez que l'alarme se déclenche, mettez à jour l'intervalle d'alarme pour qu'il soit identique ou supérieur à la fréquence d'émission de la mesure. Par exemple, pour la mesure StoredBytes, mettez à jour l'intervalle d'alarme à au moins une heure, si vous voulez que l'alarme se déclenche à 3:01 et continuez à se déclencher jusqu'à 4:00 dans l'exemple précédent. Voir Sélection de l'intervalle pour une interrogation d'alarme et Informations de référence sur MQL (Monitoring Query Language).

Cause : Dimensions incorrectes

L'expression d'alarme n'a pas été évaluée à Vrai lorsqu'une ressource satisfait à la condition définie dans l'alarme, car la ressource a été exclue à l'aide de dimensions.

Prenons l'exemple d'une alarme avec des dimensions sélectionnées pour le domaine de disponibilité 1. La ressource qui a satisfait la condition se trouve dans le domaine de disponibilité 2. L'évaluation de l'alarme prend en compte uniquement les ressources qui correspondent aux dimensions spécifiées.

Mesure corrective : Mettre à jour les dimensions

Supprimez les dimensions ou mettez-les à jour pour inclure la ressource. Voir Sélection de dimensions pour une interrogation d'alarme.

Cause : Interrogation incorrecte

Exemples courants :

  • L'interrogation d'alarme peut spécifier la mesure MemoryUtilization lorsque vous vouliez sélectionner CpuUtilization.
  • L'interrogation d'alarme peut spécifier la statistique mean() lorsque vous voulez plutôt que l'alarme surveille la somme des points de données dans un intervalle (sum()).

Pour vérifier la présence d'une alarme dans l'interrogation, obtenez ses détails.

Pour plus d'informations sur les éléments d'interrogation, voir Informations de référence sur MQL (Monitoring Query Language). Pour plus d'informations sur l'évaluation des alarmes, voir Illustration de l'évaluation des alarmes.

Mesure corrective : Mettre à jour l'interrogation

Mettez à jour l'alarme pour spécifier la mesure souhaitée. Pour modifier directement MQL, voir Modification de l'expression MQL lors de la mise à jour d'une alerte.

Cause : L'alarme est désactivée

Mesure corrective : Activer l'alarme

  1. Dans la page de liste Définitions d'alarme, sélectionnez l'alarme avec laquelle vous voulez travailler. Si vous avez besoin d'aide pour trouver la page de liste ou l'alarme, voir Liste des alarmes.
    Note

    Ces étapes concernent la console. Pour obtenir des instructions complètes, voir Activation d'une alarme.
  2. Dans la page des détails de l'alarme, sélectionnez L'alarme est activée.

L'alarme n'envoie pas d'avis

Lorsque l'alarme se déclenche, elle n'envoie pas de notification.

Cause : L'alarme ou la dimension est supprimée

Mesure corrective : Supprimer la suppression

Voir Suppression d'une suspension d'une seule alarme et Suppression de plusieurs alarmes.

Cause : L'abonnement ne fait pas partie du sujet configuré

Par exemple, disons que vous n'obtenez pas de messages d'alarme dans votre boîte de réception. Le sujet spécifié pour l'alarme n'a peut-être pas d'abonnement par courriel pour l'adresse de courriel souhaitée.

Pour vérifier si le sujet inclut l'abonnement attendu, voir Obtention des détails d'un sujet.

Mesure corrective : Mettre à jour la rubrique pour inclure l'abonnement

Voir Création d'un abonnement.

Vous pouvez également mettre à jour l'alarme pour référencer un nouveau sujet et un abonnement, ou un sujet existant qui inclut l'abonnement souhaité. Voir Sélection d'un sujet comme destination d'avis pour une alarme.

L'alarme envoie trop d'avis

Lorsque l'alarme se déclenche, elle envoie plus de notifications que prévu.

Cause : Les avis de répétition sont activés

L'alarme est configurée pour répéter les notifications d'alarme lorsque l'alarme continue de se déclencher sans interruption.

Mesure corrective : Désactiver les avis répétés

  1. Dans la page de liste Définitions d'alarme, sélectionnez l'alarme avec laquelle vous voulez travailler. Si vous avez besoin d'aide pour trouver la page de liste ou l'alarme, voir Liste des alarmes.
    Note

    Ces étapes concernent la console. Pour obtenir des instructions complètes, voir Répétition des avis pour une alarme.
  2. Allez à Actions, puis sélectionnez Modifier l'alarme.
  3. Sous Définir des avis d'alarme, désélectionnez la case Répéter l'avis?.
  4. Sélectionnez Enregistrer l'alarme.

Cause : Les avis fractionnés sont activés

L'alarme est configurée pour envoyer un avis pour chaque flux de mesure qui se déclenche. Par exemple, si 50 flux de mesure se déclenchent, l'alarme envoie 50 notifications. Ce comportement est attendu pour les avis fractionnés. Voir Scénario : Fractionner les messages par flux de mesure.

Par exemple, l'image suivante présente un graphique de mesure d'alarme avec deux flux de mesure qui dépassent le seuil à 1:30, provoquant le déclenchement de l'alarme.


Deux flux métriques se déclenchent à 1:30.

Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 87.

Courriel envoyé pour le premier flux de mesure de déclenchement de l'exemple.

Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 95.

Courriel envoyé pour le deuxième flux de mesure de déclenchement de l'exemple.

Pour voir le graphique de mesure d'une alarme, obtenez son historique.

Si vous n'aviez pas l'intention que l'alarme envoie un avis pour chaque flux de mesure de déclenchement, envisagez plutôt de mettre à jour l'alarme pour regrouper les avis. Voir Quand regrouper les avis. Après cette mise à jour, l'alarme envoie une seule notification lorsque l'alarme se déclenche, quel que soit le nombre de flux de mesure qui se déclenchent.

L'alarme n'enregistre pas (erreur 404)

Lorsque vous tentez d'enregistrer une alarme nouvelle ou mise à jour, une erreur 404 empêche la création ou la mise à jour de l'alarme.

Cause : Politiques insuffisantes

Une erreur 404 indique que vous n'avez pas les politiques IAM requises.

Mesure corrective : Obtenir les politiques requises

Voir Politiques IAM.

L'alarme se déclenche et se désactive continuellement

Résolvez une alarme qui ne cesse de basculer entre les valeurs de statut Firing et OK.

L'intervalle d'alarme est trop petit ou le délai de déclenchement est trop grand (ou les deux). La ressource émet la mesure spécifiée à une fréquence supérieure à l'intervalle d'alarme.

Prenons le cas, par exemple, de la mesure DatabaseAvailability, qui est émise toutes les 5 minutes.

Demande d'API (parties pertinentes) :

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[1m].absent()",
  "pendingDuration":"PT3M",

Configuration de la console :

Champ Valeur
Espace de noms de mesure oci_autonomous_database
Nom de mesure DatabaseAvailability
Intervalle 1 minute
Statistique Moyenne
Règle de déclenchement
  • Opérateur : absent
  • Délai de déclenchement en minutes : 3
Regroupement de messages Regrouper les avis de tous les flux de mesure
Exemple : Statut des commutateurs d'alarme

Voici un exemple de basculement de statut d'une alarme entre Firing et OK de 1:00 à 1:08. Notez le statut OK à 1:01, 1:02, 1:06 et 1:07. À ces heures-là, les résultats de l'évaluation de l'alarme remplissaient la condition pour l'intervalle d'une minute, mais la modification de statut était en attente en interne en raison du délai de déclenchement de trois minutes. Le statut de l'alarme est passé à Firing à 1:03 et 1:08, car trois évaluations consécutives remplissaient la condition.

Heure Valeur dans le graphique de mesure* Condition d'alarme remplie? Statut d'alarme
1:00 0 Non OK
1:01 1 Oui. La modification de statut est en attente en interne. OK
1:02 1 Oui. La modification de statut est en attente en interne. OK
1:03 1 Oui Firing
1:04 1 Oui Firing
1:05 0 Non OK
1:06 1 Oui. La modification de statut est en attente en interne. OK
1:07 1 Oui. La modification de statut est en attente en interne. OK
1:08 1 Oui Firing

*Pour une valeur dans le graphique de mesure, 0 signifie que la mesure est présente alors que 1 signifie que la mesure est absente. Pour un exemple de graphique de mesure, voir Création d'une alarme d'absence.

Pour remédier à cette situation, mettez à jour la configuration d'alarme suivante :

Par exemple, mettez à jour l'intervalle à 10 minutes et mettez à jour le délai de déclenchement à 1 minute.

Demande d'API (parties pertinentes) :

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[10m].absent()",
  "pendingDuration":"PT1M",

Configuration de la console :

Champ Valeur
Espace de noms de mesure oci_autonomous_database
Nom de mesure DatabaseAvailability
Intervalle 10 minutes
Statistique Moyenne
Règle de déclenchement
  • Opérateur : absent
  • Délai de déclenchement en minutes : 1
Regroupement de messages Regrouper les avis de tous les flux de mesure
Exemple : La mesure est présente et l'alarme est à l'état OK
Dans cet exemple, la mesure est présente aux heures prévues (toutes les cinq minutes) : 2:00, 2:05 et 2:10. À chacune de ces heures, l'alarme évalue la présence de la métrique au cours des dix dernières minutes. Le statut de l'alarme reste OK pour les heures listées.
Heure Valeur dans le graphique de mesure* Condition d'alarme remplie? Statut d'alarme
2:00 0 Non OK
2:01 1 Non OK
2:02 1 Non OK
2:03 1 Non OK
2:04 1 Non OK
2:05 0 Non OK
2:06 1 Non OK
2:07 1 Non OK
2:08 1 Non OK
2:09 1 Non OK
2:10 0 Non OK
2:11 1 Non OK
*Pour une valeur dans le graphique de mesure, 0 signifie que la mesure est présente alors que 1 signifie que la mesure est absente. Pour un exemple de graphique de mesure, voir Création d'une alarme d'absence.
Exemple : La mesure est absente et l'alarme est à l'état Firing
Dans cet exemple, la mesure est présente à 2:00, mais absente à 2:05 et à 2:10. Comme l'intervalle d'alarme est de dix minutes, la condition d'alarme n'a pas été remplie à 2:05. À 2:10, l'alarme passe au statut Firing, car la condition d'alarme est remplie (aucune mesure n'était présente pour l'intervalle de dix minutes).
Heure Valeur dans le graphique de mesure* Condition d'alarme remplie? Statut d'alarme
2:00 0 Non OK
2:01 1 Non OK
2:02 1 Non OK
2:03 1 Non OK
2:04 1 Non OK
2:05 1 Non OK
2:06 1 Non OK
2:07 1 Non OK
2:08 1 Non OK
2:09 1 Non OK
2:10 1 Oui Firing
2:11 1 Oui Firing
*Pour une valeur dans le graphique de mesure, 0 signifie que la mesure est présente alors que 1 signifie que la mesure est absente. Pour un exemple de graphique de mesure, voir Création d'une alarme d'absence.