Dépannage des alarmes

Utilisez les informations de dépannage pour identifier et résoudre les problèmes courants qui peuvent survenir lors de l'utilisation d'alarmes dans Monitoring.

Avant de procéder au dépannage, vérifiez que vous comprenez comment les alarmes sont évaluées. Reportez-vous à la section Illustration of Alarm Evaluation.

L'alarme ne se déclenche pas

L'alarme répondait à la condition de tir, mais elle ne s'est pas déclenchée. Par exemple, une instance de calcul est tombée en panne.

Cause : délai de déclenchement long

L'expression d'alarme n'a pas donné la valeur True pendant des minutes consécutives dans la période de délai du déclencheur.

L'image suivante du graphique de mesures d'une alarme inclut une zone ombrée pour indiquer la période de délai de déclenchement. Dans cet exemple, le récapitulatif des alarmes affiché sur la page de détails de l'alarme est Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes. Le délai de déclenchement commence à 1:30 (lorsque le seuil est dépassé) et se termine à 1:40. L'expression d'alarme renvoie la valeur True à 1:30, puis la valeur False à 1:32. Cette véritable évaluation ne se poursuit pas pendant toute la durée du délai de déclenchement de dix minutes, de sorte que l'alarme ne se déclenche pas.


Délai de déclenchement superposé à un graphique de mesures d'alarme.

Afin d'afficher le graphique de mesures d'une alarme, obtenez son historique.

Pour plus d'informations sur l'évaluation des alarmes, reportez-vous à Illustration de l'évaluation des alarmes.

Solution : raccourcir le délai de déclenchement

Si le délai de déclenchement est trop long et que vous souhaitez que l'alarme se déclenche immédiatement après avoir dépassé le seuil, mettez à jour l'alarme pour utiliser un délai de déclenchement plus court. Par exemple, définissez le délai de déclenchement sur une minute. Reportez-vous à Définition du délai de déclenchement d'une alarme et à Référence de Monitoring Query Language (MQL).

Cause : l'intervalle est plus court que la fréquence d'émission

L'expression d'alarme a la valeur True, provoquant le déclenchement de l'alarme, mais à l'intervalle suivant, même si le dernier point de données a dépassé le seuil, l'alarme a été effacée. L'alarme est effacée car l'intervalle est plus court que la fréquence d'émission pour la mesure sélectionnée.

L'image suivante du graphique de mesures d'une alarme affiche les points de données horaires de la mesure sélectionnée, StoredBytes, à partir de l'espace de noms de mesure oci_object_storage. La requête d'alarme est StoredBytes[1m].sum() > 800000000, qui indique un intervalle d'une minute. Cet intervalle est plus court que la fréquence d'émission de la mesure, qui est d'une heure. (La fréquence est documentée dans Mesures d'Object Storage.)


Graphique des mesures d'alarme pour une mesure avec une fréquence d'émission horaire.

Dans cet exemple, l'alarme se déclenche à 3:00 et s'efface à 3:01. Si l'intervalle avait été défini sur une heure, l'expression d'alarme continuerait à être évaluée sur True et l'alarme continuerait à se déclencher, jusqu'à 4:00.

Afin d'afficher le graphique de mesures d'une alarme, obtenez son historique.

Pour plus d'informations sur l'évaluation des alarmes, reportez-vous à Illustration de l'évaluation des alarmes.

Solution : Augmenter l'intervalle

Si vous souhaitez que l'alarme se déclenche, mettez à jour l'intervalle d'alarme pour qu'il soit identique ou plus long que la fréquence d'émission de la mesure. Par exemple, pour la mesure StoredBytes, mettez à jour l'intervalle d'alarme sur au moins une heure si vous voulez que l'alarme se déclenche à 3:01 et poursuivez le déclenchement jusqu'à 4:00 dans l'exemple précédent. Reportez-vous à Sélection de l'intervalle pour une requête d'alarme et à Référence de Monitoring Query Language (MQL).

Cause : dimensions incorrectes

L'expression d'alarme n'a pas donné la valeur True lorsqu'une ressource remplissait la condition définie dans l'alarme car la ressource a été filtrée à l'aide de dimensions.

Par exemple, prenons une alarme avec des dimensions sélectionnées pour le domaine de disponibilité 1. La ressource qui remplissait la condition se trouve dans le domaine de disponibilité 2. L'évaluation des alarmes prend en compte uniquement les ressources qui correspondent aux dimensions spécifiées.

Solution : mettre à jour les dimensions

Supprimez les dimensions ou mettez-les à jour pour inclure la ressource. Reportez-vous à Sélection de dimensions pour une requête d'alarme.

Cause : requête incorrecte

Exemples courants :

  • La requête d'alarme peut indiquer la mesure MemoryUtilization lorsque vous souhaitez sélectionner CpuUtilization.
  • La requête d'alarme peut indiquer la statistique mean() lorsque vous souhaitez plutôt que l'alarme surveille la somme des points de données dans un intervalle (sum()).

Pour rechercher une alarme dans la requête, obtenez ses détails.

Pour plus d'informations sur les éléments de requête, reportez-vous à Référence de Monitoring Query Language (MQL). Pour plus d'informations sur l'évaluation des alarmes, reportez-vous à Illustration de l'évaluation des alarmes.

Solution : mettre à jour la requête

Mettez à jour l'alarme : indiquez la mesure de votre choix. Pour modifier directement le MQL, reportez-vous à Modification de l'expression MQL lors de la mise à jour d'une alarme.

Cause : l'alarme est désactivée

Solution : activer l'alarme

  1. Ouvrez le menu de navigation et cliquez sur Observation & gestion. Sous Surveillance, cliquez sur Définitions d'alarme.
    Remarque

    Ces étapes concernent la console. Pour obtenir des instructions détaillées, reportez-vous à Activation d'une alarme.
  2. Cliquez sur le nom de l'alarme à mettre à jour.
  3. Sur la page des détails de l'alarme, sélectionnez Alarme activée.

L'alarme n'envoie pas de notification

Lorsque l'alarme se déclenche, elle n'envoie pas de notification.

Cause : l'alarme ou la dimension est supprimée

Solution : enlever la suppression

Cause : l'abonnement ne fait pas partie du sujet configuré

Par exemple, disons que vous n'obtenez pas de messages d'alarme dans votre boîte de réception. Le sujet spécifié pour l'alarme n'a peut-être pas d'abonnement par courriel pour l'adresse électronique souhaitée.

Pour vérifier si le sujet inclut l'abonnement attendu, reportez-vous à Obtention des détails d'un sujet.

Solution : mettez à jour le sujet pour inclure l'abonnement

Reportez-vous à la section Création d'un abonnement.

Vous pouvez également mettre à jour l'alarme pour référencer un nouveau sujet et un nouvel abonnement, ou un sujet existant qui inclut l'abonnement de votre choix. Reportez-vous à Sélection d'un sujet comme destination de notification pour une alerte.

L'alarme envoie trop de notifications

Lorsque l'alarme se déclenche, elle envoie plus de notifications que prévu.

Cause : les notifications répétées sont activées

L'alarme est configurée pour répéter les notifications d'alarme lorsque l'alarme continue de se déclencher sans interruption.

Solution : désactiver les notifications répétées

  1. Ouvrez le menu de navigation et cliquez sur Observation & gestion. Sous Surveillance, cliquez sur Définitions d'alarme.
    Remarque

    Ces étapes concernent la console. Pour obtenir des instructions détaillées, reportez-vous à Répétition de notifications pour une alarme.
  2. Cliquez sur le nom de l'alarme à mettre à jour.
  3. Sur la page de détails d'une alarme, cliquez sur Actions, puis sélectionnez Modifier une alarme.
  4. Sous Définir les notifications d'alarme, désélectionnez la case Répéter la notification ?.
  5. Cliquez sur Enregistrer l'alarme.

Cause : les notifications fractionnées sont activées

L'alarme est configurée pour envoyer une notification pour chaque flux de mesure qui se déclenche. Par exemple, si 50 flux de mesure sont déclenchés, l'alarme envoie 50 notifications. Il s'agit d'un comportement attendu pour les notifications fractionnées. Reportez-vous à Scénario : séparation des messages par flux de données de mesure.

Par exemple, l'image suivante présente un graphique de mesures d'alarme avec deux flux de données de mesure qui dépassent le seuil à 1:30, provoquant le déclenchement de l'alarme.


Deux flux métriques se déclenchent à 1h30.

Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 87.

Message électronique envoyé pour le premier flux de mesure de déclenchement dans l'exemple.

Voici le message d'alarme envoyé pour l'instance de calcul avec la valeur de mesure 95.

Message électronique envoyé pour le deuxième flux de mesure de déclenchement dans l'exemple.

Afin d'afficher le graphique de mesures d'une alarme, obtenez son historique.

Si vous n'aviez pas l'intention que l'alarme envoie une notification pour chaque flux de mesure de déclenchement, envisagez plutôt de mettre à jour l'alarme pour regrouper les notifications. Reportez-vous à Quand regrouper les notifications. Après cette mise à jour, l'alarme envoie une seule notification lorsque l'alarme se déclenche, quel que soit le nombre de flux de données de mesure qui se déclenchent.

Réinitialisation des alarmes

L'historique des alarmes affiche un état de transition RESET.

Une alarme se réinitialise pour arrêter la vérification d'une mesure absente qui a déclenché l'état de déclenchement. Pour plus d'informations, reportez-vous à la section About the Internal Reset Period.

L'alarme n'enregistre pas (erreur 404)

Lorsque vous essayez d'enregistrer une alarme nouvelle ou mise à jour, une erreur 404 empêche la création ou la mise à jour de l'alarme.

Cause : stratégies insuffisantes

Une erreur 404 indique que vous ne disposez pas des stratégies IAM requises.

Solution : obtenir les stratégies requises

Reportez-vous à Stratégies IAM.

Déclenchement et effacement incessants d'une alarme

Dépannez une alarme qui bascule sans cesse entre les valeurs de statut Firing et OK.

L'intervalle d'alarme est trop petit ou le délai de déclenchement est trop grand (ou les deux). La ressource émet la mesure indiquée à une fréquence supérieure à l'intervalle de l'alarme.

Par exemple, prenons la mesure DatabaseAvailability, qui est émise toutes les 5 minutes.

Demande d'API (parties pertinentes) :

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[1m].absent()",
  "pendingDuration":"PT3M",

Configuration de la console :

Champ Valeur
Espace de noms de mesure oci_autonomous_database
Nom de mesure DatabaseAvailability
Intervalle 1 minute
Statistique Moyenne
Règle de déclencheur
  • Opérateur : absent
  • Délai de déclenchement en minutes : 3
Groupement de messages Regrouper les notifications entre les flux de données de mesure
Exemple : basculement du statut d'une alarme

Voici un exemple de basculement de statut d'une alarme entre les valeurs de statut Firing et OK de 1:00 à 1:08. Le statut est OK à 1:01, à 1:02, à 1:06 et à 1:07. A ces heures, les résultats de l'évaluation de l'alarme remplissaient la condition de l'intervalle d'une minute, mais le changement de statut était en attente en interne en raison du délai de déclenchement de trois minutes. Le statut de l'alarme est passé à Firing à 1:03 et à 1:08 car trois évaluations consécutives remplissaient la condition.

Heure Valeur dans le graphique de mesures* Condition d'alarme remplie ? Statut de l'alarme
1:00 0 Non OK
1:01 1 Oui. Le changement de statut est en attente en interne OK
1:02 1 Oui. Le changement de statut est en attente en interne OK
1:03 1 Oui Firing
1:04 1 Oui Firing
1:05 0 Non OK
1:06 1 Oui. Le changement de statut est en attente en interne OK
1:07 1 Oui. Le changement de statut est en attente en interne OK
1:08 1 Oui Firing

* Pour la valeur dans le graphique de mesures, 0 signifie que la mesure est présente alors que 1 signifie qu'elle est absente. Pour obtenir un exemple de graphique de mesures, reportez-vous à Création d'une alarme d'absence.

Pour résoudre ce problème, mettez à jour la configuration de l'alarme comme suit :

Par exemple, mettez à jour l'intervalle sur 10 minutes et le délai de déclenchement sur 1 minute.

Demande d'API (parties pertinentes) :

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[10m].absent()",
  "pendingDuration":"PT1M",

Configuration de la console :

Champ Valeur
Espace de noms de mesure oci_autonomous_database
Nom de mesure DatabaseAvailability
Intervalle 10 minutes
Statistique Moyenne
Règle de déclencheur
  • Opérateur : absent
  • Délai de déclenchement en minutes : 1
Groupement de messages Regrouper les notifications entre les flux de données de mesure
Exemple : la mesure est présente, l'alarme a le statut OK
Dans cet exemple, la mesure est présente aux heures attendues (toutes les cinq minutes) : à 2:00, à 2:05 et à 2:10. Chaque fois, l'alarme évalue la présence de la mesure au cours des dix dernières minutes. Le statut de l'alarme reste OK aux heures répertoriées.
Heure Valeur dans le graphique de mesures* Condition d'alarme remplie ? Statut de l'alarme
2:00 0 Non OK
2:01 1 Non OK
2:02 1 Non OK
2:03 1 Non OK
2:04 1 Non OK
2:05 0 Non OK
2:06 1 Non OK
2:07 1 Non OK
2:08 1 Non OK
2:09 1 Non OK
2:10 0 Non OK
2:11 1 Non OK
* Pour la valeur dans le graphique de mesures, 0 signifie que la mesure est présente alors que 1 signifie qu'elle est absente. Pour obtenir un exemple de graphique de mesures, reportez-vous à Création d'une alarme d'absence.
Exemple : la mesure est absente, l'alarme a le statut Firing
Dans cet exemple, la mesure est présente à 2:00, mais absente à 2:05 et à 2:10. Comme l'intervalle d'alarme est de dix minutes, la condition d'alarme n'a pas été remplie à 2:05. A 2:10, l'alarme passe au statut Firing car la condition d'alarme est remplie (aucune mesure n'était présente au cours de l'intervalle de dix minutes).
Heure Valeur dans le graphique de mesures* Condition d'alarme remplie ? Statut de l'alarme
2:00 0 Non OK
2:01 1 Non OK
2:02 1 Non OK
2:03 1 Non OK
2:04 1 Non OK
2:05 1 Non OK
2:06 1 Non OK
2:07 1 Non OK
2:08 1 Non OK
2:09 1 Non OK
2:10 1 Oui Firing
2:11 1 Oui Firing
* Pour la valeur dans le graphique de mesures, 0 signifie que la mesure est présente alors que 1 signifie qu'elle est absente. Pour obtenir un exemple de graphique de mesures, reportez-vous à Création d'une alarme d'absence.