Meilleures pratiques pour les alarmes

Découvrez les meilleures pratiques pour les alarmes.

Création d'un ensemble d'alarmes pour chaque mesure

Pour chaque mesure émise par les ressources, créez des alarmes définissant les comportements de ressource suivants :

Présentant un risque. La ressource risque de devenir inutilisable, comme indiqué par les valeurs de mesure.
Non optimal Les performances de la ressource sont non optimales, comme indiqué par des valeurs de mesure.
La ressource est active ou inactive. La ressource est inaccessible ou ne fonctionne pas.

Les exemples suivants utilisent la mesure CpuUtilization émise par l'espace de noms de mesure oci_computeagent. Cette mesure surveille l'utilisation de l'instance de calcul ainsi que le niveau d'activité de l'ensemble des services et des applications exécutés sur l'instance. CpuUtilization est une mesure clé de performance pour un service cloud, car elle indique l'utilisation de l'unité centrale pour l'instance de calcul et peut être utilisée pour examiner les problèmes. Pour plus d'informations sur l'utilisation de l'UC, accédez à l'URL suivante : https://en.wikipedia.org/wiki/CPU_time.

Exemple de comportement présentant un risque

Le seuil de risque standard pour la mesure CpuUtilization concerne toutes les valeurs supérieures à 80 %. Une instance de calcul qui dépasse ce seuil risque de devenir inutilisable. Le plus souvent, ce comportement est causé par des applications consommant un pourcentage élevé d'UC.

Dans l'exemple ci-dessus, vous décidez d'avertir immédiatement l'équipe des opérations, en définissant la gravité de l'alarme sur Critique (car une réparation est nécessaire pour ramener les instances à des niveaux opérationnels optimaux). Vous configurez des notifications d'alarme pour l'équipe concernée via PagerDuty et par courriel, afin de demander un examen et des correctifs appropriés avant que les instances deviennent inutilisables. Vous définissez les notifications de sorte qu'elles se répètent toutes les minutes. Lorsqu'une personne répond aux notifications d'alarme, vous arrêtez temporairement les notifications, conformément aux meilleures pratiques de suppression de l'alarme . Lorsque les mesures reviennent à des valeurs optimales, vous enlevez la suppression.

Exemple NonOptimal

Le seuil non optimal pour la mesure CpuUtilization est généralement compris entre 60 et 80 %. Lorsque les valeurs de mesure d'une instance de calcul sont comprises dans cette plage, l'instance est au-delà de la plage opérationnelle optimale.

Dans le cadre de cet exemple, vous décidez d'avertir la personne ou l'équipe concernée qu'une application ou un processus consomme plus d'UC que d'habitude. Vous configurez une alarme du seuil pour avertir les contacts appropriés, en définissant la gravité de l'alarme sur Avertissement, puisqu'aucune action immédiate n'est requise pour examiner et réduire l'utilisation de l'UC. Vous définissez une notification par courriel uniquement, destinée à l'équipe ou au développeur concerné, avec répétition des notifications toutes les 24 heures afin de réduire le bruit des notifications par courriel.

Exemple de ressource active ou inactive

Un indicateur classique de disponibilité des ressources est une absence de cinq minute de la mesure CpuUtilization. Une instance de calcul qui dépasse ce seuil est inaccessible ou ne fonctionne pas. La ressource a sans doute cessé de répondre ou elle est peut-être devenue indisponible en raison de problèmes de connectivité.

Dans l'exemple ci-dessus, vous décidez d'avertir immédiatement l'équipe des opérations, en définissant la gravité de l'alarme d'absence sur Critique parce qu'une réparation est nécessaire pour ramener les instances en ligne. Vous configurez des notifications d'alarme pour l'équipe concernée via PagerDuty et par courriel, afin de demander un examen et le transfert des charges globale vers une autre ressource disponible. Vous définissez les notifications de sorte qu'elles se répètent toutes les minutes. Lorsqu'une personne répond aux notifications d'alarme, vous arrêtez temporairement les notifications, conformément aux meilleures pratiques de suppression de l'alarme. Lorsque la mesure CpuUtilization est à nouveau détectée pour la ressource, enlevez la suppression.

Vous souhaitez parfois être averti lorsqu'un événement se produit, tel qu'un arrêt d'une instance de base de données. Dans ce scénario, définissez la répétition des notifications sur zéro minute pour créer une alarme basée sur les événements. Pour obtenir des instructions, reportez-vous à Obtention de notifications basées sur des événements pour une alarme.

Sélection de l'intervalle d'alarme correct pour la mesure

Sélectionnez un intervalle d'alarme en fonction de la fréquence d'émission de la mesure. Par exemple, une mesure émise toutes les cinq minutes nécessite un intervalle d'alarme de 5 minutes ou plus La plupart des mesures sont émises chaque minute, ce qui signifie que la plupart des mesures prennent en charge tout intervalle d'alarme. Pour déterminer des intervalles d'alarme valides pour une mesure particulière, consultez la référence de mesure du service concernée.

Suppression temporaire des alarmes lors d'examens

Lorsqu'un membre de l' équipe répond à une alarme, supprimez temporairement les notifications pendant les actions d'examen et d'atténuation du problème. L'arrêt temporaire des notifications permet d'éviter les distractions pendant l'examen et l'atténuation. Enlevez la suppression une fois le problème résolu. Pour obtenir les instructions, reportez-vous à la section Suppressing a Single Alarm et à la section Suppressing Multiple Alarms.

Réglage régulier des alarmes

Vérifiez régulièrement vos alarmes pour assurer une configuration optimale (par exemple, toutes les semaines). Etalonnez les détails de seuil, de gravité et de notification de chaque alarme, y compris la méthode, la fréquence et les personnes ciblées.

Cette image représente une révision hebdomadaire des alarmes dans le cadre du réglage régulier.

La configuration optimale des alarmes prend en compte les facteurs suivants :

Niveau d'importance de la ressource.
Comportement approprié des ressources. Evaluez le comportement individuellement et dans le contexte de l'écosystème du service. Vérifiez les fluctuations des valeur de mesure sur une période spécifique, puis ajustez les seuils selon les besoins.
Bruit de notification acceptable. Evaluez la méthode de notification (par exemple, courriel ou PagerDuty), les destinataires appropriés et la fréquence de répétition des notifications.

Le tableau suivant présente un exemple d'ajustement d'une alarme.

Pourcentage de seuil d'UC	Gravité	Méthode de notification	Fréquence	Public visé
> 80 %	Critique	PagerDuty et courriel	1 minute	Compute, opérations et communications client
> 60 % et < 80 %	Avertissement	Courriel	Une fois par jour	Compute et opérations

Pour obtenir des instructions, reportez-vous à Mise à jour d'une alarme.

Documentation Oracle Cloud Infrastructure