Configuration d'alarme

Vous pouvez utiliser le service Oracle Cloud Infrastructure Monitoring pour générer des alarmes lorsque les mesures dépassent les seuils.

Tout d'abord, familiarisez-vous avec les concepts et les fonctionnalités du service Monitoring en consultant la présentation de Monitoring. Pour plus d'informations sur la configuration des alarmes, reportez-vous à Gestion des alarmes. Reportez-vous à Référence de Monitoring Query Language (MQL) pour créer des requêtes avancées à la fois pour la surveillance et pour les alarmes.

Assurez-vous également que vous avez défini les stratégies appropriées pour utiliser les règles d'alarme. Voir Mise en route.

Avant de continuer, vous devez avoir créé une destination d'alarme, par exemple un service de notification, ainsi que des sujets qui définissent qui recevra ces alarmes.

Le tableau suivant répertorie les détails des mesures dont vous aurez besoin pour créer des règles d'alarme pour les mesures utilisées dans Stack Monitoring.

Type de ressource Espace de noms de mesure Groupe de ressources de règle d'alarme Règles d'alarme Référence de mesures
hôte
  • GPU
oracle_appmgmt host
Bases de données Oracle pluggables, Conteneur et non Conteneur oracle_oci_database N/A Oracle Database Oracle Database
Système Oracle Database, ASM, cluster et processus d'écoute oracle_oci_database_cluster oracle_asm, oracle_cluster, oracle_db_node, oracle_lsnr Oracle Database Cluster Oracle Database

Domaine Oracle WebLogic

Cluster Oracle WebLogic Cluster

oracle_appmgmt

weblogic_cluster

Serveur Oracle Weblogic Mesures WebLogic
Oracle WebLogic Server oracle_appmgmt weblogic_j2eeserver Serveur Oracle Weblogic Mesures WebLogic
Oracle HTTP Server (OHS) oracle_appmgmt oracle_http_server Oracle HTTP Server (OHS) Mesures Oracle HTTP Server (OHS)
Oracle Identity Manager (OIM) oracle_appmgmt oracle_oim / oracle_oim_cluster Oracle Identity Manager (OIM) Oracle Identity Manager (OIM)
Oracle Access Manager (OAM) oracle_appmgmt oracle_oam / oracle_oam_cluster Oracle Access Manager (OAM) Oracle Access Manager (OAM)
Exécution de la JVM Oracle oracle_appmgmt oracle_jvm Oracle JVM Mesures JVM Oracle
Oracle E-Business Suite oracle_appmgmt ebs_instance Oracle E-Business Suite Mesures d'E-Business Suite
Processus d'écoute d'application EBS oracle_appmgmt oracle_ebs_app_lsnr Oracle E-Business Suite Mesures d'E-Business Suite
Traitement simultané EBS oracle_appmgmt oracle_ebs_conc_mgmt_service Traitement simultané Mesures d'E-Business Suite
Traitement simultané EBS - Spécialisé oracle_appmgmt oracle_ebs_conc_mgmt_service_specialized Traitement simultané Mesures d'E-Business Suite
Noeud de traitement simultané EBS oracle_appmgmt oracle_ebs_cp_node Oracle E-Business Suite Mesures d'E-Business Suite
Système Forms EBS oracle_appmgmt oracle_ebs_forms_system Oracle E-Business Suite Mesures d'E-Business Suite
Processus d'écoute d'agent de workflow EBS oracle_appmgmt oracle_ebs_wf_agent_lsnr Oracle E-Business Suite Mesures d'E-Business Suite
Moteur en arrière-plan de workflow EBS oracle_appmgmt oracle_ebs_wf_bkgd_engine Oracle E-Business Suite Mesures d'E-Business Suite
Groupe de workflows EBS oracle_appmgmt oracle_ebs_wf_group Oracle E-Business Suite Mesures d'E-Business Suite
Emetteur de notifications de workflow EBS oracle_appmgmt oracle_ebs_wf_notification_mailer Emetteur de notifications de workflow Mesures d'E-Business Suite
Apache Tomcat oracle_appmgmt apache_tomcat Apache Tomcat Mesures Apache Tomcat
Microsoft SQL Server oracle_appmgmt sql_server Serveur Microsoft SQL Mesures de Microsoft SQL Server
PeopleSoft Domaine du serveur d'applications oracle_appmgmt oracle_psft_appserv PeopleSoft Mesures de PeopleSoft
Domaine PeopleSoft Process Scheduler oracle_appmgmt oracle_psft_prcs PeopleSoft Mesures de PeopleSoft
PeopleSoft PIA oracle_appmgmt oracle_psft_pia PeopleSoft Mesures de PeopleSoft
PeopleSoft Moteur de recherche

(OpenSearch / Elasticsearch)

oracle_appmgmt elastic_search, open_search PeopleSoft Mesures de PeopleSoft
PeopleSoft Console de traitements oracle_appmgmt oracle_psft_prcm PeopleSoft Mesures de PeopleSoft
Apache HTTP Server oracle_appmgmt apache_http_server Serveur Apache HTTP Server Mesures d'Apache HTTP Server
Serveur d'annuaire OUD oracle_appmgmt oud_directory Oracle Unified Directory Mesures Oracle Unified Directory
Serveur proxy OUD oracle_appmgmt oud_proxy Oracle Unified Directory Mesures Oracle Unified Directory
Passerelle de réplication OUD OUD oracle_appmgmt oud_gateway Oracle Unified Directory Mesures Oracle Unified Directory
GoldenGate oracle_appmgmt oracle_goldengate Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate ServiceManager oracle_appmgmt oracle_goldengate_service_manager Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate AdminServer oracle_appmgmt oracle_goldengate_admin_server Oracle GoldenGate Mesures d'Oracle GoldenGate
Serveur de mesure des performances GoldenGate oracle_appmgmt oracle_goldengate_pm_server Oracle GoldenGate Mesures d'Oracle GoldenGate
Extraction GoldenGate oracle_appmgmt oracle_goldengate_extract Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate Réplication oracle_appmgmt oracle_goldengate_replicat Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate DistributionServer oracle_appmgmt oracle_goldengate_distribution_server Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate Chemin de distribution oracle_appmgmt oracle_goldengate_distribution_path Oracle GoldenGate Mesures d'Oracle GoldenGate

GoldenGate Serveur de destinataire

oracle_appmgmt oracle_goldengate_receiver_server Oracle GoldenGate Mesures d'Oracle GoldenGate
GoldenGate Chemin de destinataire oracle_appmgmt oracle_goldengate_receiver_path Oracle GoldenGate Mesures d'Oracle GoldenGate
Ressource personnalisée oracle_appmgmt custom_resource Règles d'alarme d'échantillon de ressource personnalisé basées sur un processus Métriques des ressources personnalisées basées sur un processus
Oracle Service Bus oracle_appmgmt oracle_servicebus Oracle Service Bus (OSB) Oracle Service Bus (OSB)
Microsoft IIS oracle_appmgmt microsoft_iis Microsoft IIS Mesures IIS Microsoft
Site Web Microsoft IIS oracle_appmgmt microsoft_iis_website Microsoft IIS Mesures IIS Microsoft
NGINX oracle_appmgmt nginx NGINX Mesures NGINX

Meilleures pratiques pour les scénarios d'alarme courants

  1. Créez vos règles d'alarme dans le compartiment dans lequel vous avez repéré vos ressources.
  2. Pour configurer une règle d'alarme afin de générer une alarme lorsqu'une ressource est arrêtée, indiquez l'espace de noms de mesure et le groupe de ressources appropriés, puis utilisez la mesure et la règle de déclencheur suivantes :

    Nom de mesure : MonitoringStatus

    Règle de déclencheur :

    • Opérateur : equal to

    • Valeur : 0

    • Délai en minutes du déclencheur : 1

  3. Afin de configurer une règle d'alarme à déclencher pour des instances de ressource individuelles, en plus de choisir la mesure, vous devrez également ajouter des dimensions de mesure pour identifier la ressource de manière unique.

    Pour identifier une instance de ressource de manière unique :

    1. Vous pouvez utiliser resourceName et resourceType OR
    2. Vous pouvez utiliser resourceId

      La plupart des mesures définissent des dimensions supplémentaires qui peuvent être utilisées pour définir des alarmes avancées.

  4. Reportez-vous toujours à la description de mesure figurant dans la référence de mesure et vérifiez la période d'évaluation (la fréquence de collecte de chaque mesure). Lorsque vous configurez des alarmes, veillez à indiquer la même valeur que la valeur d'intervalle d'alarme. Pour ce faire, sélectionnez Passer en mode avancé dans l'angle supérieur droit de la page de création de l'alarme. Vous pouvez fournir un code MQL avancé dans la section Editeur de code de requête de la page de mode avancé.

Hôtes

Exemple de règle d'alarme : Surveillance d'hôte

  • Type de ressource : hôte
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : host
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
4

Hôte arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[4m].mean() != 1 || MonitoringStatus[4m].absent()
N/A N/A Alarme critique pour tout hôte d'un compartiment donné signalant être arrêté ou ne signalant pas le statut pendant plus de 1 minute.
4

Utilisation élevée de l'UC

Nom de mesure : CpuUtilization

Avertissement MQL :

CpuUtilization[4m]{type="Total"}.mean() > 80

MQL critique :

CpuUtilization[4m]{type="Total"}.mean() > 90
> 80 > 90 Alarme d'avertissement pour tout hôte d'un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 3 dernières minutes.

Alarme critique pour tout hôte d'un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 3 dernières minutes.

4

Utilisation élevée de la mémoire

Nom de mesure : MemoryUtilization

Avertissement MQL :

MemoryUtilization[4m]{type="Logical"}.mean() > 80

MQL critique :

MemoryUtilization[4m]{type="Logical"}.mean() > 90
> 80 > 90 Alarme d'avertissement pour tout hôte d'un compartiment donné signalant une utilisation de la mémoire supérieure à 80 % au cours des 3 dernières minutes.

Alarme d'avertissement pour tout hôte d'un compartiment donné signalant une utilisation de la mémoire supérieure à 90 % au cours des 3 dernières minutes.

4

Utilisation du système de fichiers

Nom de mesure : FilesystemUtilization

Avertissement MQL :

FilesystemUtilization[4m].mean() > 80

MQL critique :

FilesystemUtilization[4m].mean() > 90
> 80 > 90 Alarme d'avertissement pour tout système de fichiers sur un hôte d'un compartiment donné signalant une utilisation de mémoire supérieure à 80 %.

Alarme critique pour tout système de fichiers sur un hôte d'un compartiment donné signalant une utilisation de mémoire supérieure à 90 %.

Remarque

Pour surveiller les systèmes de fichiers sélectionnés, vous pouvez indiquer davantage la dimension fileSystemName et personnaliser vos alarmes en fonction de vos besoins spécifiques. Par exemple, le MQL FilesystemUtilization[1m]{fileSystemName = "/", osType = "Linux"}.mean() > 80 suivant s'appliquera uniquement aux systèmes de fichiers racine sur les hôtes Linux d'un compartiment donné.

GPU

Exemple de règle d'alarme : GPU

1

Température de GPU

Nom de mesure : GPUTemperature

Avertissement MQL :

GPUTemperature[4m]{Type="GPU"}.mean() > 98

MQL critique :

GPUTemperature[4m]{Type="GPU"}.mean() > 101
> 98 > 101

Alarme d'avertissement lorsqu'un GPU dépasse la température de ralentissement.

Alarme critique lorsqu'un GPU dépasse la température d'arrêt.

Les températures de ralentissement et d'arrêt peuvent varier selon le modèle de GPU ; les valeurs correctes pour un GPU découvert peuvent être révisées dans la page d'accueil du GPU Stack Monitoring.

  1. Aller à la page d'accueil d'un GPU individuel
  2. Sélectionnez l'option de menu Configuration.
  3. Dans la section des propriétés propres à la ressource, recherchez les entrées temperatureSlowdown et temperatureShutdown.

Oracle Database

Si vous le souhaitez, pour minimiser le risque de fausses alarmes, incluez collectionName="sensor".

Exemple :

MonitoringStatus[4m]{collectionName="sensor"}.groupBy(resourceName).last() < 1 || MonitoringStatus[4m] collectionName="sensor"}.groupBy(resourceName).absent()

Exemple de règle d'alarme : base de données non Conteneur

  • Type de ressource : Base de données non Conteneur

  • Espace de noms de mesure : oracle_oci_database

  • Groupe de ressources : n/a

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Valeur recommandée DBM utilisée ? Description
30

Utilisation du stockage

Nom de mesure : StorageUtilizationByTablespace

Dimension : tablespaceContents = PERMANENT

Ou

Avertissement MQL :

StorageUtilizationByTablespace[30m]{tablespaceContents ="PERMANENT"}.mean()> 75

MQL critique :

StorageUtilizationByTablespace[30m]{tablespaceContents ="PERMANENT"}.mean() > 85
>75 >85 Y Conditions de règle d'avertissement et d'alarme critique pour les tablespaces permanents dont l'utilisation est supérieure à 75 % ou 85 % au cours des 30 dernières minutes.
24 heures InvalidObjects >150 >200 N/A  
15 BlockingSessions >1 >10 Y Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque le nombre de sessions bloquantes est supérieur à 1 ou 10 au cours des 15 dernières minutes.
15 UsableFRA <20 < 10 N/A Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque le pourcentage de zone de récupération rapide utilisable est inférieur à 20 % ou 10 % au cours des 15 dernières minutes.
5 ProcessLimitUtilization >70 >80 Y Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque l'utilisation du processus (%) est supérieure à 70 % ou 80 % au cours des 5 dernières minutes.
5 SessionLimitUtilization >90 >97 N/A  
5 CPUUtilization >80 >85 Y  
5 FRAUtilization >70 >75 Y  
5 StorageUtilization >75 >85 Y  
5

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
N/A n/a   Alarme critique pour tout reporting Oracle Database non Conteneur en panne ou sans état depuis plus de 1 min.

Exemple de règle d'alarme : Base de données Conteneur

  • Type de ressource : Base de données de conteneur

  • Espace de noms de mesure : oracle_oci_database

  • Groupe de ressources : n/a

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Valeur recommandée DBM utilisée ? Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a n/a Alarme critique pour tout reporting Oracle Database non Conteneur en panne ou sans état depuis plus de 1 min.
30

Mesure : StorageUtilizationByTablespace

Dimension : tablespaceContents = PERMANENT

Ou

Avertissement MQL :

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 75

MQL critique :

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 85

>75 >85 Y Conditions de règle d'avertissement et d'alarme critique pour les tablespaces permanents dont l'utilisation est supérieure à 85 % ou 90 % au cours des 30 dernières minutes.
5 ProcessLimitUtilization >70 >80 Y Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque l'utilisation du processus (%) est supérieure à 90 % ou 95 % au cours des 5 dernières minutes.
5 SessionLimitUtilization >90 >97 n/a  
15 UsableFRA <20 < 10 n/a Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque le pourcentage de zone de récupération rapide utilisable est inférieur à 20 % ou 10 % au cours des 15 dernières minutes.
5 CPUUtilization >80 >85 Y  
5 FRAUtilization >70 >75 Y  
5 StorageUtilization >75 >85 Y  

Exemple de règle d'alarme : base de données pluggable

  • Type de ressource : Base de données pluggable

  • Espace de noms de mesure : oracle_oci_database

  • Groupe de ressources : n/a

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Valeur recommandée DBM utilisée ? Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a n/a Alarme critique pour tout rapport Oracle Database non conteneur arrêté ou non signalant le statut pendant plus d'1 minute.
5 CPUUtilization >80 >85 Y  
5 StorageUtilization >75 >85 Y  
15 BlockingSessions >1 >10 Y Conditions de règle d'avertissement et d'alarme critique pour déclencher une alarme lorsque le nombre de sessions bloquantes est supérieur à 1 ou 5 au cours des 15 dernières minutes.
24 heures InvalidObjects >150 >200 n/a  
30

Mesure : StorageUtilizationByTablespace

Dimension : tablespaceContents = PERMANENT

Ou

Avertissement MQL :

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 75

MQL critique :

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 85

>75 >85 Y Conditions de règle d'avertissement et d'alarme critique pour les tablespaces permanents dont l'utilisation est supérieure à 85 % ou 90 % au cours des 30 dernières minutes.

Exemple de règle d'alarme : Instance ASM/ASM

  • Type de ressource : ASM

  • Espace de noms de mesure : oracle_oci_database_cluster

  • Groupe de ressources : oracle_asm

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout rapport Oracle Database non conteneur arrêté ou non signalant le statut pendant plus d'1 minute.
30 DiskGroupUtilization >85 >95  
30 DiskUtilization >85 >95  
Exemple de règle d'alarme : Cluster ASM
  • Type de ressource : Cluster

  • Espace de noms de mesure : oracle_oci_database_cluster

  • Groupe de ressources : oracle_cluster

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout rapport Oracle Database non conteneur arrêté ou non signalant le statut pendant plus d'1 minute.

Exemple de règle d'alarme : Processus d'écoute

  • Type de ressource : Processus d'écoute

  • Espace de noms de mesure : oracle_oci_database_cluster

  • Groupe de ressources : oracle_lsnr

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout rapport Oracle Database non conteneur arrêté ou non signalant le statut pendant plus d'1 minute.
5 RefusedConnections >1 >5  

E-Business Suite

Exemple de règle d'alarme : EBS

  • Type de ressource : Oracle E-Business Suite
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : ebs_instance
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
15

Programmes exécutés par temps d'exécution (ms)

Nom de mesure : ExecutedProgramsByRunningTime

MQL :

ExecutedProgramsByRunningTime[15m].mean() > 4000

Tip1:

Vous pouvez filtrer l'alarme sur une application spécifique en ajoutant le filtre de dimension ProgramName ou ProgramShortName.

> 4 000 > 40 000 Temps d'exécution des demandes
15

Demandes terminées par application (ratio)

Nom de mesure : CompletedRequestsByApplication

Nom de la dimension : Category

Valeur de dimension : Error

MQL :

CompletedRequestsByApplication[15m]{Category = "Error"}.mean() > 0.001

Tip1:

Vous pouvez filtrer l'alarme sur une application spécifique en ajoutant ApplicationName ou un filtre de dimension.

MQL :

CompletedRequestsByApplication[15m]{Category = "Error", ApplicationName = "<YOUR APP NAME>"}.mean() > 0.001
> 0,001 > 0,003

Ratio des demandes terminées avec des erreurs par rapport à toutes les demandes dans un intervalle de collecte donné.

Cela signifie que si plus de 0,1% demandé a échoué, vous obtiendrez un avertissement, pour plus de 0,25% vous obtenez critique

15

Sessions utilisateur actives

Nom de mesure : ActiveUserSessions

MQL :

ActiveUserSessions[15m].mean() > 200
> 200 > 250 Nombre de sessions utilisateur actives

Exemple de règle d'alarme : processus d'écoute d'application EBS

Type de ressource : processus d'écoute d'application EBS

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : oracle_ebs_app_lsnr

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure :MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Alarme critique pour le processus d'écoute d'application EBS dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus d'1 minute.

Exemple de règle d'alarme : Traitement simultané EBS

Type de ressource : Traitement simultané EBS

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : oracle_ebs_conc_mgmt_service

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure : MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Statut de disponibilité.
15

Taux d'erreur des demandes simultanées

Nom de mesure : CompletedConcurrentRequests

Nom de la dimension : State

Valeur de dimension : Errored

MQL :

CompletedConcurrentRequests[15m]{State = "Errored"}.mean() > 0.001
> 0,001 > 0,003 Taux de demandes terminées avec des erreurs sur une base horaire. Si elle est multipliée par 100, elle devient un pourcentage.
15

Taux d'avertissement des demandes simultanées

Nom de mesure : CompletedConcurrentRequests

Nom de la dimension : State

Valeur de dimension : WithWarning

MQL :

CompletedConcurrentRequests[15m]{State = "WithWarning"}.mean() > 0.15
> 0,002 > 0,003 Taux de demandes terminées avec un avertissement sur une base horaire. Si elle est multipliée par 100, elle devient un pourcentage.
15

Demandes simultanées terminées avec succès (période d'opérations/d'évaluation)

Nom de mesure : CompletedConcurrentRequests

Nom de la dimension : State

Valeur de dimension : Succ

essful

MQL :

CompletedConcurrentRequests[15m]{State = "Successful"}.sum() > 2500
> 625 > 2 500 Taux de demandes traitées avec succès sur une période d'évaluation (15 minutes par défaut).
15

Demandes simultanées en cours d'exécution

Nom de mesure : ConcurrentRequestsByStatus

Nom de la dimension : State

Valeur de dimension : Runn

ing

MQL :

ConcurrentRequestsByStatus[15m]{State = "Running"}.mean() > 100
> 2 500 > 10 000 Nombre de demandes en exécution par utilisateur.
15

Demandes simultanées en attente - Normal

Nom de mesure : ConcurrentRequestsByStatus

Nom de la dimension : State

Valeur de dimension : PendingNormal

MQL :

ConcurrentRequestsByStatus[15m]{State = "PendingNormal"}.mean() > 100
> 2 500 > 10 000 Nombre de demandes en suspens par utilisateur.
15

Demandes simultanées en attente - En attente

Nom de mesure : ConcurrentRequestsByStatus

Nom de la dimension : State

Valeur de dimension : PendingStandBy

MQL :

ConcurrentRequestsByStatus[15m]{State = "PendingStandBy"}.mean() > 100
> 100 > 500 Nombre de demandes ayant le statut En attente.
15

Demandes simultanées inactives - Aucun gestionnaire

Nom de mesure : ConcurrentRequestsByStatus

Nom de la dimension : State

Valeur de dimension : InactiveNoManager

MQL :

ConcurrentRequestsByStatus[15m]{State = "InactiveNoManager"}.mean() > 100
> 100 > 500 Nombre de demandes inactives sans statut de responsable.
15

Demandes simultanées inactives - En attente

Nom de mesure : ConcurrentRequestsByStatus

Nom de la dimension : State

Valeur de dimension : InactiveOnHold

MQL :

ConcurrentRequestsByStatus[15m]{State = "InactiveOnHold"}.mean() > 100
> 100 > 500 Nombre de demandes ayant le statut En attente inactif.
5

Demandes simultanées à longue durée d'exécution

Nom de mesure : LongActiveConcurrentRequests

MQL :

LongActiveConcurrentRequests[5m].mean() > 43200000

Tip1:

Vous pouvez filtrer l'alarme sur une demande Running ou Pending en ajoutant un filtre de dimension Phase.

MQL :

LongActiveConcurrentRequests[5m]{Phase = "Running"}.mean() > 43200000

Tip2:

Vous pouvez filtrer davantage par programme spécifique en ajoutant le filtre de dimension ProgramName ou ProgramShortName.

MQL :

LongActiveConcurrentRequests[1m]{Phase = "Running", ProgramShortName = "<PROGRAM SHORT NAME>"}.mean() > 43200000
> 43 200 000 > 86 400 000 Temps écoulé en ms pour une demande en attente ou en cours d'exécution. Seules les 10 principales demandes font l'objet d'un suivi. Dans ce cas, nous suggérons d'obtenir un avertissement après 12 heures et critique après 24 heures.

Traitement simultané EBS - Spécialisé

Type de ressource : Traitement simultané EBS - Spécialisé

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : oracle_ebs_conc_mgmt_service_specialized

Mesure Nom d'affichage de mesure - Nom Unité Description Fréquence de collecte Dimension Nom de ressource
MonitoringStatus Disponibilité statut

Statut de la ressource. Les valeurs sont :

1 = Haut

0 = Arrêté

Ce n'est que si TOUS les autres responsables sont démarrés que le statut est Démarré. Si un seul responsable est arrêté, le statut global est arrêté.

1 min n/a oracle_ebs_conc_mgmt_service_specialized
ConcurrentProcesingComponentStatus Statut du gestionnaire de traitements simultanés statut Disponibilité du gestionnaire de traitements simultanés 1 min Nom de file d'attente simultanée, description, nom d'hôte oracle_ebs_conc_mgmt_service_specialized
CapacityUtilizationOfConcurrentManagers Utilisation de la capacité du gestionnaire de traitements simultanés pour cent Pourcentage du nombre maximal de processus en cours d'exécution. Si le nombre maximal de processus du responsable est de 10 et que 5 sont en cours d'exécution, l'utilisation de la capacité est de 50 %. 1 min Nom de gestionnaire oracle_ebs_conc_mgmt_service_specialized
ManagerMaxProcesses Nombre maximal de processus du gestionnaire de traitements simultanés décompte Nombre maximal de processus devant figurer dans la file d'attente du responsable. 1 min Nom de gestionnaire oracle_ebs_conc_mgmt_service_specialized
ManagerRunningProcesses Processus en cours d'exécution du gestionnaire de traitements simultanés décompte Nombre de processus en cours d'exécution dans la file d'attente du responsable 1 min Nom de gestionnaire oracle_ebs_conc_mgmt_service_specialized

Exemple de règle d'alerte : Emetteur de notifications de workflow EBS

Type de ressource : Emetteur de notifications de workflow EBS

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : oracle_ebs_wf_notification_mailer

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure : MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Alarme critique pour le traitement simultané EBS Spécialisé dans un compartiment donné signalant qu'il est arrêté ou non signalant le statut pour plus de 1min.
1

Utilisation de la capacité du gestionnaire de traitements simultanés

Nom de mesure : CapacityUtilizationOfConcurrentManagers

MQL :

CapacityUtilizationOfConcurrentManagers[1m].mean() < 100
< 50 < 100 Pourcentage d'utilisation de la capacité de tous les gestionnaires activés.

Apache Tomcat

Exemple de règle d'alarme : Apache Tomcat

Type de ressource : Apache Tomcat

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : apache_tomcat

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
3

Apache Tomcat en panne

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()
n/a n/a Alarme critique pour tout Apache Tomcat dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus de 3 minutes.
5

Utilisation élevée de l'UC

Nom de mesure : CPUUtilization

Avertissement MQL :

CPUUtilization[5m].mean() > 80

MQL critique :

CPUUtilization[5m].mean() > 90
>80 >90

Alarme d'avertissement pour tout Apache Tomcat dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout Apache Tomcat dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.

5

Utilisation élevée de la portion de mémoire JVM

Nom de mesure : JVMMemoryUtilization

Avertissement MQL :

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 80

MQL critique :

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 90
>80 >90

Alarme d'avertissement pour tout Apache Tomcat dans un compartiment donné signalant une utilisation de plus de 80 % de la portion de mémoire JVM au cours des 5 dernières minutes.

Alarme d'avertissement pour tout Apache Tomcat dans un compartiment donné signalant une utilisation de plus de 90 % de la portion de mémoire JVM au cours des 5 dernières minutes.

5

Temps de traitement des demandes Web élevé

Nom de mesure : WebRequestProcessingTime

Avertissement MQL :

WebRequestProcessingTime[5m].mean() > 1000

MQL critique :

WebRequestProcessingTime[5m].mean() > 1500
>1 500 >3 000

L'alarme d'avertissement pour tout Apache Tomcat dans un compartiment donné signalant plus de 1500 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

L'alarme d'avertissement pour tout Apache Tomcat dans un compartiment donné signalant plus de 3000 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

Microsoft SQL Server

Exemples de règles d'alarme : Microsoft SQL Server

Type de ressource : Microsoft SQL Server

Espace de noms de mesure : oracle_appmgmt

Groupe de ressources : sql_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
3

Statut de disponibilité du serveur SQL

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()
n/a n/a Alarme critique pour tout serveur SQL Server dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus de 3 minutes.
10

Utilisation de l'UC SQL Server (%)

Nom de mesure : CPUUtilization

Avertissement MQL :

CpuUtilization[10m].mean() > 80

MQL critique :

CpuUtilization[10m].mean() > 95
>80 >95 Alarme d'avertissement pour tout serveur SQL Server dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 10 dernières minutes.

Alarme critique pour tout serveur SQL dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 10 dernières minutes.

15

Utilisation de la base de données SQL Server

Nom de mesure : StorageDatabaseUtilization

Avertissement MQL :

StorageDatabaseUtilization[15m].mean() > 80

MQL critique :

StorageDatabaseUtilization[15m].mean() > 95
>80 >95 Alarme d'avertissement pour tout serveur SQL Server dans un compartiment donné signalant une utilisation de la base de données supérieure à 80 % au cours des 15 dernières minutes.

Alarme critique pour tout serveur SQL dans un compartiment donné signalant une utilisation de la base de données supérieure à 90 % au cours des 15 dernières minutes.

PeopleSoft

PeopleSoft Serveur d'applications

  • Type de ressource : domaine de serveur d'applications PeopleSoft
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : oracle_psft_appserv
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
5

Etat général

Nom de mesure : Health

Avertissement MQL :

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL critique :

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

Etat général du domaine de serveur d'applications.

Une alarme d'avertissement sera déclenchée si l'état "warning" est égal à 1.

Une alarme critique est déclenchée si l'état "critique" est égal à 1.

5

Charger

Nom de mesure : Load

Avertissement MQL :

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL critique

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Charge globale du domaine de serveur d'applications.

Une alarme d'avertissement sera déclenchée si l'état "moyen" est égal à 1.

Une alarme critique sera déclenchée si l'état "lourd" est égal à 1.

5

Temps moyen d'exécution des demandes de service

Nom de mesure : AverageServiceRequestExecutionTime

Avertissement MQL :

AverageServiceRequestExecutionTime[5m].mean()> 1000
> 1 000 n/a

Temps moyen en millisecondes nécessaire à l'exécution d'une demande de service.

Une alarme d'avertissement est déclenchée lorsqu'une demande prend en moyenne plus d'une seconde (1000 ms) à être exécutée.

5

Processus mis en file d'attente pour le serveur d'applications

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : ApplicationServer

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "ApplicationServer"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le serveur d'applications. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le gestionnaire BRK

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : BRKHandler

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "BRKHandler"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le gestionnaire BRK. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le répartiteur BRK

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : BRKDispatcher

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "BRKDispatcher"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le répartiteur BRK. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le répartiteur PUB

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : PUBDispatcher

MQL :

QueuedTuxedoProcesses[5m]{Category = "PUBDispatcher"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le répartiteur PUB. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le gestionnaire PUB

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : PUBHandler

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "PUBHandler"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le gestionnaire PUB. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le répartiteur SUB

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : SUBDispatcher

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "SUBDispatcher"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le répartiteur SUB. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour le gestionnaire SUB

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : Category

Valeur de dimension : SUBHandler

MQL critique :

QueuedTuxedoProcesses[5m]{Category = "SUBHandler"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le gestionnaire SUB. Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus de serveur en échec

Nom de mesure : FailedServerProcesses

MQL critique :

FailedServerProcesses[5m].mean() > 0
n/a > 0 Nombre de processus de serveur qui ont échoué ou sont inactifs dans le domaine. Si un processus serveur échoue, une alarme critique est déclenchée.
15

Fichiers d'état

Nom de mesure : PeopleToolsStateFiles

Avertissement MQL :

PeopleToolsStateFiles[15m].mean() > 0
> 0 n/a Nombre de fichiers d'état PeopleTools générés dans le répertoire des journaux de domaine. Si un fichier d'état est généré, une alarme d'avertissement est déclenchée.

PeopleSoft Process Scheduler

  • Type de ressource : Domaine PeopleSoft Process Scheduler
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : oracle_psft_prcs
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
5

Etat général

Nom de mesure : Health

Avertissement MQL :

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL critique :

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

Etat général du domaine de l'ordonnanceur de traitements.

Une alarme d'avertissement sera déclenchée si l'état "warning" est égal à 1.

Une alarme critique est déclenchée si l'état "critique" est égal à 1.

5

Charger

Nom de mesure : Load

Avertissement MQL :

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL critique :

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Charge globale du domaine de l'ordonnanceur de traitements.

Une alarme d'avertissement sera déclenchée si l'état "moyen" est égal à 1.

Une alarme critique sera déclenchée si l'état "lourd" est égal à 1.

5

Processus mis en file d'attente pour PSPRCSRV

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : ProcessType

Valeur de dimension : PSPRCSRV

MQL critique :

QueuedTuxedoProcesses[5m]{ProcessType = "PSPRCSRV"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour l'Ordonnanceur de traitements (PSPRCSRV). Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus mis en file d'attente pour PSDSTSRV

Nom de mesure : QueuedTuxedoProcesses

Nom de la dimension : ProcessType

Valeur de dimension : PSDSTSRV

MQL critique :

QueuedTuxedoProcesses[5m]{ProcessType = "PSDSTSRV"}.mean() > 1
n/a > 1 Nombre de processus actuellement en file d'attente pour le serveur de distribution (PSDSTSRV). Plus de 1 processus en file d'attente déclenchera une alarme critique.
5

Processus ayant échoué

Nom de mesure : FailedProcesses

MQL critique :

FailedProcesses[5m].mean() > 1
n/a > 0 Nombre de processus de serveur qui ont échoué ou sont inactifs dans le domaine. Si un processus serveur échoue, une alarme critique est déclenchée.

PeopleSoft PIA

  • Type de ressource : PeopleSoft PIA
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : oracle_psft_pia
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
5

Etat de santé

Nom de mesure : Health

Avertissement MQL :

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL critique :

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

L'état général de la PIA.

Une alarme d'avertissement sera déclenchée si l'état "warning" est égal à 1.

Une alarme critique est déclenchée si l'état "critique" est égal à 1.

5

Charger

Nom de mesure : Load

Avertissement MQL :

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL critique :

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Charge globale du PIA.

Une alarme d'avertissement sera déclenchée si l'état "moyen" est égal à 1.

Une alarme critique sera déclenchée si l'état "lourd" est égal à 1.

5

Sockets d'état d'attente

Nom de mesure : WaitStateSockets

Avertissement MQL :

WaitStateSockets[5m].mean() > 100
> 100 n/a Nombre de sockets de serveur Web à l'état WAIT. Si plus de 100 sockets de serveur Web sont à l'état WAIT, une alarme d'avertissement est déclenchée.
5

Erreurs fatales

Nom de mesure : FatalErrors

Avertissement MQL :

FatalErrors[5m].mean() > 0
> 0 n/a Nombre d'erreurs fatales dans les journaux de servlet JOLTService. Si une erreur se produit dans le servlet JOLTService, une alarme d'avertissement est déclenchée.

PeopleSoft Moteur de recherche

  • Type de ressource : PeopleSoft Elasticsearch, PeopleSoft OpenSearch
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : elastic_search, open_search
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Etat du cluster

Nom de mesure : ClusterHealth

MQL :

ClusterHealth[1m]{Status = "Red"}.mean() = 1ClusterHealth[1m]{Status = "Yellow"}.mean() = 1
1 1

Etat général du cluster de moteurs de recherche.

Une alerte d'avertissement est déclenchée si le statut "jaune" est égal à 1.

Une alerte critique est déclenchée si le statut "rouge" est égal à 1.

10

Utilisation de la mémoire

Nom de mesure : MemoryUsage

MQL :

MemoryUsage[10m].mean()
> 80 > 90

Portion de mémoire configurée maximale du noeud de moteur de recherche.

Une alerte d'avertissement est déclenchée si l'utilisation de la mémoire est supérieure à 80 %.

Une alerte critique est déclenchée si l'utilisation de la mémoire est supérieure à 90 %.

PeopleSoft Console de traitements

  • Type de ressource : PeopleSoft Console de traitements
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : oracle_psft_prcm
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
5

Etat de distribution actif

Nom de mesure : ActiveDistributionState

MQL :

ActiveDistributionState[5m]{State = "NotPosted"}.mean() > 1
n/a > 1

Une alerte critique est déclenchée si trop de processus de distribution n'ont pas l'état Imputé.

5

Statut d'exécution

Nom de mesure : ActiveRunState

MQL :

ActiveRunState[5m]{State = "NoSuccess"}.mean() > 1
n/a > 1

Une alerte critique est déclenchée si trop de processus en cours d'exécution ne sont pas en état de succès.

5

Statut d'exécution

Nom de mesure : RunStatus

MQL :

RunStatus[5m]{Status = "Error"}.mean() > 0
n/a > 0

Une alerte critique est déclenchée si trop de processus sont en état d'erreur d'exécution.

Serveur Oracle Weblogic

Exemple de règle d'alarme : serveur Oracle Weblogic

  • Type de ressource : serveur OracleWeblogic
  • Espace de noms de mesure : oracle_appmgmt
  • Groupe de ressources : weblogic_j2eeserver
Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
3

WebLogic Serveur arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarme critique pour tout serveur WebLogic dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus de 3 minutes.
5

Utilisation élevée de l'UC

Nom de mesure : CpuUtilization

Avertissement MQL :

CpuUtilization[5m].mean() > 80

MQL critique :

CpuUtilization[5m].mean() > 90

> 80 > 90

Alarme d'avertissement pour tout serveur WebLogic d'un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur WebLogic d'un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.

5

Utilisation élevée de la portion de mémoire

Nom de mesure : JVMMemroyUtilization

Avertissement MQL :

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 80

MQL critique :

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 90
> 80 > 90

Alarme d'avertissement pour tout serveur WebLogic d'un compartiment donné signalant une utilisation de la portion de mémoire supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur WebLogic d'un compartiment donné signalant une utilisation de la portion de mémoire supérieure à 90 % au cours des 5 dernières minutes.

5

Threads bloqués du gestionnaire de travaux

Nom de mesure : WorkManagerStuckThreads

Avertissement :

WorkManagerStuckThreads[5m].mean() > 10

Critique :

WorkManagerStuckThreads[5m].mean() > 15
> 10 > 15

Alarme d'avertissement pour tout serveur WebLogic d'un compartiment donné signalant plus de 10 threads bloqués par le gestionnaire de travaux au cours des 5 dernières minutes.

Alarme critique pour tout serveur WebLogic d'un compartiment donné signalant plus de 15 threads bloqués par le gestionnaire de travaux au cours des 5 dernières minutes.

5

Demandes de connexion en attente

Nom de mesure :

ServerConnectionPoolConnections

Avertissement MQL :

ServerConnectionPoolConnections[5m].mean() > 1

MQL critique :

ServerConnectionPoolConnections[5m].mean() > 2

>1 >2  
5

Temps de traitement des demandes Web

Nom de mesure : WebRequestProcessingTime

Avertissement :

WebRequestProcessingTime[5m].mean() > 10000

Critique :

WebRequestProcessingTime[5m].mean() > 15000
>10 000 >15 000  
5

Threads du pool de threads actifs

Nom de mesure : ThreadPoolThreads

Avertissement :

ThreadPoolThreads[5m]{Status = "Active"}.mean() > 1000

Critique :

ThreadPoolThreads[5m]{Status = "Active"}.mean() > 1250
>1 000 >1 250  

Exemple de règle d'alarme : cluster de serveurs Oracle Weblogic

  • Type de ressource : cluster de serveurs Oracle Weblogic

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : weblogic_cluster

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

WebLogic Cluster arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout cluster WebLogic dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus d'1 minute.

Exemples de règles d'alarme : Oracle HTTP Server (OHS)

  • Type de ressource : Oracle HTTP Server

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_http_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
3

Oracle HTTP Server arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarme critique pour tout serveur Oracle HTTP Server dans un compartiment donné signalant qu'il est arrêté ou qu'il ne signale pas le statut pendant plus de 3 minutes.
5

Utilisation élevée de l'UC

Nom de mesure : CPUUtilization

Avertissement MQL :

CPUUtilization[5m].mean() > 80

MQL critique :

CPUUtilization[5m].mean() > 90
>80 >90

Alarme d'avertissement pour tout serveur Oracle HTTP Server d'un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur Oracle HTTP Server d'un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.

5

Utilisation élevée de la mémoire

Nom de mesure : MemoryUtilization

Avertissement MQL :

MemoryUtilization[5m].mean() > 80

MQL critique :

MemoryUtilization[5m].mean() > 90

>80 >90

Alarme d'avertissement pour tout serveur Oracle HTTP Server d'un compartiment donné signalant une utilisation de mémoire supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur Oracle HTTP Server d'un compartiment donné signalant une utilisation de mémoire supérieure à 90 % au cours des 5 dernières minutes.

5

Temps de traitement des demandes Web élevé

Nom de mesure : WebRequestProcessingTime

Avertissement MQL :

WebRequestProcessingTime[5m].mean() > 1500

MQL critique :

WebRequestProcessingTime[5m].mean() > 3000

>1 500 >3 000

Une alarme d'avertissement pour tout serveur Oracle HTTP Server dans un compartiment donné signalant plus de 1500 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

Une alarme critique pour n'importe quel serveur Oracle HTTP Server dans un compartiment donné signalant plus de 3000 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

Oracle Identity Manager (OIM)

Exemple de règle d'alarme : Oracle Identity Manager (OIM)

  • Type de ressource : cluster Oracle Identity Manager/Oracle Identity Manager

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_oim / oracle_oim_cluster

Période d'évaluation (minutes) Alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure : MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a < 1

Statut de disponibilité du cluster/serveur OIM.

Une alerte critique est déclenchée si la valeur de la réponse est différente de 1.

15

Orchestration - Temps moyen d'exécution

Nom de mesure : Orchestration-AverageExecutionTime

MQL :

Orchestration-AverageExecutionTime[15m].mean() > 300 Orchestration-AverageExecutionTime[15m].mean() > 500
> 300 > 500

Temps moyen d'organisation

Une alerte d'avertissement est déclenchée si le temps moyen d'exécution de l'orchestration est supérieur à 300 ms.

Une alerte critique est déclenchée si le temps moyen d'exécution de l'orchestration est supérieur à 500 ms.

Oracle Access Manager (OAM)

Exemple de règle d'alarme : Oracle Access Manager (OAM)

  • Type de ressource : Oracle Access Manager / Oracle Access Manager Cluster

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_oam / oracle_oam_cluster

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure : MonitoringStatus

MQL :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a < 1

Statut de disponibilité du cluster/serveur OAM.

Une alerte critique est déclenchée si la valeur de la réponse est différente de 1.

5

Latence d'autorisation

Nom de mesure : AuthorizationLatency

MQL :

authorizationLatency[5m].mean() > 300 authorizationLatency[5m].mean() > 500
> 500 > 800

Latence d'autorisation

Une alerte d'avertissement sera déclenchée si la latence d'autorisation est supérieure à 500 ms

Une alerte critique sera déclenchée si la latence d'autorisation est supérieure à 800 ms

Oracle JVM

Type de ressource : exécution JVM Oracle

ServerMetric Espace de noms : oracle_appmgmt

Groupe de ressources : oracle_jvm

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Arrêt de l'exécution JVM Oracle

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean()!=1||MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour ne plus pouvoir se connecter à l'exécution Oracle JVM
5

Utilisation du pool de mémoire

Nom de mesure : MemoryPoolUtilization

Nom de la dimension : Type

Valeur de dimension : Used

Avertissement MQL :

MemoryPoolUtilization[5m]{Type="Used"}.mean()>80%

MQL critique :

MemoryPoolUtilization[5m]{Type=Used"}.mean()>90%
>80% >90% Pourcentage de mémoire utilisée dans les pools de mémoire par rapport au maximum disponible
5

Utilisation de la portion de mémoire

Nom de mesure :

HeapMemoryUtilization

Nom de la dimension : Type

Valeur de dimension : Used

Avertissement MQL :

HeapMemoryUtilization[5m]{Type="Used"}.mean()>80%

MQL critique :

HeapMemoryUtilization[5m]{Type = "Used"}.mean() >90%
>80% >90% Pourcentage de mémoire utilisée dans la portion de mémoire par rapport au maximum disponible.
5

Utilisation de la mémoire hors portion de mémoire

Nom de mesure :

NonHeapMemoryUtilization

Nom de la dimension : Type

Valeur de dimension : Used

Avertissement MQL :

NonHeapMemoryUtilization[5m]{Type="Used"}.mean()>80%

MQL critique :

NonHeapMemoryUtilization[5m]{Type = "Used"}.mean() >90%
>80% >90% Pourcentage de mémoire utilisée dans la mémoire hors portion de mémoire par rapport au maximum disponible.
5

Utilisation de l'UC

Nom de mesure :

CPUUtilization

Avertissement MQL :

CPUUtilization[5m]. mean() > 80%

MQL critique :

CPUUtilization[5m]. mean() > 90%
>80% >90% Pourcentage de ressources d'UC consommées par le processus JVM

Apache HTTP Server

Type de ressource : Apache HTTP

ServerMetric Espace de noms : oracle_appmgmt

Groupe de ressources : apache_http_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
3

Apache HTTP Server arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarme critique pour tout serveur Apache HTTP Server dans un compartiment donné signalant être arrêté ou ne signalant pas le statut pendant plus de 3 minutes.
5

Utilisation élevée de l'UC

Nom de mesure : CPUUtilization

Avertissement MQL :

CPUUtilization[5m].mean() > 80

MQL critique :

CPUUtilization[5m].mean() > 90

>80 >90

Alarme d'avertissement pour tout serveur Apache HTTP Server dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur Apache HTTP Server dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.

5

Utilisation élevée de la mémoire

Nom de mesure : MemoryUtilization

Avertissement MQL :

MemoryUtilization[5m].mean() > 80

MQL critique :

MemoryUtilization[5m].mean() > 90

>80 >90

Alarme d'avertissement pour tout serveur Apache HTTP Server dans un compartiment donné signalant une utilisation de la mémoire supérieure à 80 % au cours des 5 dernières minutes.

Alarme critique pour tout serveur Apache HTTP Server dans un compartiment donné signalant une utilisation de la mémoire supérieure à 90 % au cours des 5 dernières minutes.

5

Temps de traitement des demandes Web élevé

Nom de mesure : WebRequestProcessingTime

Avertissement MQL :

WebRequestProcessingTime[5m].mean() > 1500

MQL critique :

WebRequestProcessingTime[5m].mean() > 3000

>1 500 >3 000

Une alarme d'avertissement pour tout serveur Apache HTTP Server dans un compartiment donné signalant plus de 1500 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

Une alarme critique pour n'importe quel serveur Apache HTTP Server dans un compartiment donné signalant plus de 3000 ms signifie le temps de traitement des demandes Web au cours des 5 dernières minutes.

Oracle Unified Directory

Exemple de règle d'alarme : Oracle Unified Directory (OUD)

  • Type de ressource : Oracle Unified Directory

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oud_directory, oud_proxy, oud_gateway

Alarme Avertissement Critique Description

Statut de surveillance

Nom de mesure : oud_base_status

MQL :

oud_base_status[1m].mean() != 1 || oud_base_status[1m].absent()
n/a < 1

Statut de disponibilité du serveur OUD.

Une alerte critique est déclenchée si la valeur de la réponse est inférieure à 1.

Gestionnaire de connexions - Etat

Nom de mesure : ConnectionHandlerState

MQL :

ConnectionHandlerState[1m].mean() < 1
n/a <1

Gestionnaire de connexions - Etat

Une alerte critique est déclenchée si l'état du gestionnaire de connexions est inférieur à 1.

Back-end - Entrées

Nom de mesure : BackendEntries

Avertissement MQL :

BackendEntries[5m].mean() > 30

MQL critique :

BackendEntries[5m].mean() > 50
> 30 >50

Back-end - Entrées

Une alerte d'avertissement sera déclenchée si l'heure des entrées de back-end est supérieure à 30.

Une alerte critique est déclenchée si le nombre d'entrées du back-end est supérieur à 50.

Gestionnaire de connexions - Tout le temps de résidence

Nom de mesure : ConnectionHandlerAllResidentTime

Avertissement MQL :

ConnectionHandlerAllResidentTime[5m].mean() > 300

MQL critique :

ConnectionHandlerAllResidentTime[5m].mean() > 500
> 300 > 500

Gestionnaire de connexions - Tout le temps de résidence

Une alerte d'avertissement est déclenchée si l'heure de tous les résidents du gestionnaire de connexions est supérieure à 60.

Une alerte critique sera déclenchée si l'heure de tous les résidents du gestionnaire de connexions est supérieure à 90.

Gestionnaire de connexions - Connexions

Nom de mesure : ConnectionHandlerConnections

Avertissement MQL :

ConnectionHandlerConnections[5m].mean() > 30

MQL critique :

ConnectionHandlerConnections[5m].mean() > 50
> 30 >50

Gestionnaire de connexions - Connexions

Une alerte d'avertissement sera déclenchée si les connexions du gestionnaire de connexions sont supérieures à 30.

Une alerte critique sera déclenchée si les connexions du gestionnaire de connexions sont supérieures à 50.

Mémoire utilisée de JVM

Nom de mesure : JVMUsedMemory

Avertissement MQL :

JVMUsedMemory[5m].mean() > 1.5

MQL critique :

JVMUsedMemory[5m].mean() > 3
> 1,5 > 3

Mémoire JVM utilisée

Une alerte d'avertissement est déclenchée si la mémoire utilisée de la JVM est supérieure à 1,5 Mo.

Une alerte critique est déclenchée si la mémoire utilisée de la JVM est supérieure à 3 Mo.

Système d'exploitation - Mémoire utilisée

Nom de mesure : OSUsedMemory

Avertissement MQL :

OSUsedMemory[5m].mean() > 1.5

MQL critique :

OSUsedMemory[5m].mean() > 3
> 1,5 > 3

Système d'exploitation - Mémoire utilisée

Une alerte d'avertissement est déclenchée si la mémoire utilisée de l'O/S est supérieure à 1,5 Mo.

Une alerte critique est déclenchée si la mémoire utilisée du système d'exploitation est supérieure à 3 Mo.

Domaine de réplication - Etat

Nom de mesure : ReplicationDomainState

MQL :

ReplicationDomainState[5m].mean() < 1
n/a < 1

Domaine de réplication - Etat

Une alerte critique est déclenchée si l'état du domaine de réplication est inférieur à 1.

Elément de workflow - Durée totale des opérations de temps de résidence

Nom de mesure : WFEResidentTimeOperationsTotalTime

Avertissement MQL :

WFEResidentTimeOperationsTotalTime[5m].mean() > 60

MQL critique :

WFEResidentTimeOperationsTotalTime[5m].mean() > 90
> 60 > 90

FE - Durée totale des opérations de temps de résidence

Une alerte d'avertissement est déclenchée si la durée totale des opérations de temps de séjour WFE est supérieure à 60.

Une alerte critique est déclenchée si la durée totale des opérations de temps de séjour WFE est supérieure à 90.

File d'attente de travaux - Nombre de tâches à traiter en cours

Nom de mesure : WorkQueueCurrentBacklog

Avertissement MQL :

WorkQueueCurrentBacklog[5m].mean() > 15

MQL critique :

WorkQueueCurrentBacklog[5m].mean() > 30
> 15 > 30

File d'attente de travaux - Tâches à traiter en cours

Une alerte d'avertissement sera déclenchée si le nombre actuel de tâches en attente est supérieur à 15.

Une alerte critique est déclenchée si le nombre actuel de tâches en attente est supérieur à 30.

Extension LDAP - Connexions

Nom de mesure : ExtensionLDAPConnections

Avertissement MQL :

ExtensionLDAPConnections[5m].mean() > 30

MQL critique :

ExtensionLDAPConnections[5m].mean() > 50
> 30 > 50

Extension LDAP - Connexions

Une alerte d'avertissement sera déclenchée si les connexions LDAP d'extension sont supérieures à 30.

Une alerte critique sera déclenchée si les connexions LDAP d'extension sont supérieures à 50.

Extension LDAP - Délai total de réponse des opérations

Nom de mesure : ExtensionLDAPOperationsTotalResponseTime

Avertissement MQL :

ExtensionLDAPOperationsTotalResponseTime[5m].mean() > 60

MQL critique :

ExtensionLDAPOperationsTotalResponseTime[5m].mean() > 90
> 60 > 90

Extension LDAP - Délai total de réponse des opérations

Une alerte d'avertissement sera déclenchée si le temps de réponse total des opérations LDAP d'extension est supérieur à 60.

Une alerte critique sera déclenchée si le temps de réponse total des opérations LDAP d'extension est supérieur à 90.

Oracle GoldenGate

Exemple de règle d'alarme : Goldengate

  • Type de ressource : Oracle Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Goldengate Down

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout Goldengate dans un compartiment donné signalant être arrêté ou ne signalant pas le statut depuis plus de 1min.

Exemple de règle d'alarme : Goldengate AdminServer

  • Type de ressource : Goldengate Admin Server

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_admin_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Le serveur d'administration Goldengate est arrêté

Nom de mesure : MonitoringStatusCritical

MQL :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout élément Goldengate AdminServer dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure :CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour tout serveur d'administration Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour tout serveur d'administration Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux de paquets supprimés

Nom de mesure : DroppedPacketRate

Avertissement MQL :

DroppedPacketRate[5m].mean() > 30

MQL critique :

DroppedPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 30 msgs/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 40 msgs/min pendant les 5 dernières minutes.
5

Taux de paquets manquants

Nom de mesure : MissingPacketRate

Avertissement MQL :

MissingPacketRate[5m].mean() > 30

MQL critique :

MissingPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux d'erreur de paquet

Nom de mesure : PacketErrorRate

Avertissement MQL :

PacketErrorRate[5m].mean() > 30

MQL critique :

PacketErrorRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de réception de paquets

Nom de mesure : PacketReceiveRate

Avertissement MQL :

PacketReceiveRate[5m].mean() > 30

MQL critique :

PacketReceiveRate[5m].mean() > 40
30 40

Une alerte d'avertissement sera déclenchée si la moyenne du taux de réception des paquets est supérieure à 30 msg/min pendant les 5 dernières minutes.

Une alerte critique est déclenchée si la moyenne du taux de réception des paquets est supérieure à 40 msg/min pendant les 5 dernières minutes.

Exemple de règle d'alarme : service de distribution Goldengate

  • Type de ressource : Service de distribution Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_distribution_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Service de distribution Goldengate

Nom de mesure : MonitoringStatus

MQL critique : MonitoringStatus

[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout service de distribution Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour tout service de distribution Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour tout service de distribution Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux de paquets supprimés

Nom de mesure : DroppedPacketRate

Avertissement MQL :

DroppedPacketRate[5m].mean() > 30

MQL critique :

DroppedPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 30 msgs/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 40 msgs/min pendant les 5 dernières minutes.
5

Taux de paquets manquants

Nom de mesure : MissingPacketRate

Avertissement MQL :

MissingPacketRate[5m].mean() > 30

MQL critique :

MissingPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux d'erreur de paquet

Nom de mesure : PacketErrorRate

Avertissement MQL :

PacketErrorRate[5m].mean() > 30

MQL critique :

PacketErrorRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de réception de paquets

Nom de mesure : PacketReceiveRate

Avertissement MQL :

PacketReceiveRate[5m].mean() > 30

MQL critique :

PacketReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de réception des paquets est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception des paquets est supérieure à 40 msg/min pendant les 5 dernières minutes.

Exemple de règle d'alarme : service de destinataire Goldengate

  • Type de ressource : Service de réception Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_receiver_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Service de destinataire Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout service de destinataire Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour tout service de destinataire Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour tout service de récepteur Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux de paquets supprimés

Nom de mesure : DroppedPacketRate p

Avertissement MQL :

DroppedPacketRate[5m].mean() > 30

MQL critique :

DroppedPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 30 msgs/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 40 msgs/min pendant les 5 dernières minutes.
5

Taux de paquets manquants

Nom de mesure : MissingPacketRate

Avertissement MQL :

MissingPacketRate[5m].mean() > 30

MQL critique :

MissingPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux d'erreur de paquet

Nom de mesure : PacketErrorRate

Avertissement MQL :

PacketErrorRate[5m].mean() > 30

MQL critique :

PacketErrorRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de réception de paquets

Nom de mesure : PacketReceiveRate

Avertissement MQL :

PacketReceiveRate[5m].mean() > 30

MQL critique :

PacketReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de réception des paquets est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception des paquets est supérieure à 40 msg/min pendant les 5 dernières minutes.

Exemple de règle d'alarme : Gestionnaire de service Goldengate

  • Type de ressource : Gestionnaire de service Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_service_manager

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Gestionnaire de service Goldengate

Nom de mesure : MonitoringStatus

StatusCritical MQL :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout gestionnaire de service Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.

Exemple de règle d'alarme : service de mesure des performances Goldengate

  • Type de ressource : Service de mesure des performances Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_pm_server

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Service de mesure des performances Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout service de mesure de performances Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour tout service de mesure de performances Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour tout service de mesure de performances Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.

Exemple de règle d'alarme : Extrait Goldengate

  • Type de ressource : Extrait Goldengate

  • Type de ressource : goldengate_extract

  • Groupe de ressources : oracle_goldengate_extract

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Extrait de Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout extrait Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour tout extrait Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour tout extrait Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux de paquets supprimés

Nom de mesure : DroppedPacketRate

Avertissement MQL :

DroppedPacketRate[5m].mean() > 30

MQL critique :

DroppedPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 30 msgs/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 40 msgs/min pendant les 5 dernières minutes.
5

Taux de paquets manquants

Nom de mesure : MissingPacketRate

Avertissement MQL :

MissingPacketRate[5m].mean() > 30

MQL critique :

MissingPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux d'erreur de paquet

Nom de mesure : PacketErrorRate

Avertissement MQL :

PacketErrorRate[5m].mean() > 30

MQL critique :

PacketErrorRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de réception de paquets

Nom de mesure : PacketReceiveRate

Avertissement MQL :

PacketReceiveRate[5m].mean() > 30

MQL critique :

PacketReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de réception des paquets est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception des paquets est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de suppression des éléments mis en correspondance

Nom de mesure : MappedDeleteRate

Avertissement MQL :

MappedDeleteRate[5m].mean() > 30

MQL critique :

MappedDeleteRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de suppression mappée est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de suppression mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux d'insertion des éléments mis en correspondance

Nom de mesure : MappedInsertRate

Avertissement MQL :

MappedInsertRate[5m].mean() > 30

MQL critique :

MappedInsertRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux d'insertion mappé est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'insertion mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de vidage des éléments mis en correspondance

Nom de mesure : MappedTruncateRate

Avertissement MQL :

MappedTruncateRate[5m].mean() > 30

MQL critique :

MappedTruncateRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de troncature mappé est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de troncature mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de mise à jour des éléments mis en correspondance

Nom de mesure : MappedUpdateRate

Avertissement MQL :

MappedUpdateRate[5m].mean() > 30

MQL critique :

MappedUpdateRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de mise à jour mappée est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de mise à jour mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de rejet

Nom de mesure : DiscardRate

Avertissement MQL :

DiscardRate[5m].mean() > 30

MQL critique :

DiscardRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de rejet est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de rejet est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux d'éléments ignorés

Nom de mesure : IgnoreRate

Avertissement MQL :

IgnoreRate[5m].mean() > 30

MQL critique :

IgnoreRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux Ignore est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux Ignore est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

LAG

Nom de mesure : Lag

Avertissement MQL :

Lag[5m].mean() > 10

MQL critique :

Lag[5m].mean() > 20
10 20 Une alerte d'avertissement sera déclenchée si la moyenne de décalage est supérieure à 10 secondes pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de décalage est supérieure à 20 Ssec pendant les 5 dernières minutes.
5

Taux d'opérations

Nom de mesure : OperationsPerSec

Avertissement MQL :

OperationsPerSec[5m].mean() > 30

MQL critique :

OperationsPerSec[5m].mean() > 40
20 30 Une alerte d'avertissement est déclenchée si la moyenne du taux d'opérations est supérieure à 20 opérations/s au cours des 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'opérations est supérieure à 30 opérations/s au cours des 5 dernières minutes.

Exemple de règle d'alarme : Goldengate Replicat

  • Type de ressource : Goldengate Replicat

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_replicat

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Réplication Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour toute réplication Goldengate dans un compartiment donné signalant qu'elle est en panne ou qu'elle ne signale pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuTimeUtilizationPercentage

Avertissement MQL :

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL critique :

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarme d'avertissement pour toute réplication Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 80 % au cours des 5 dernières minutes. Alarme critique pour toute réplication Goldengate dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % au cours des 5 dernières minutes.
5

Mémoire privée

Nom de mesure : PrivateMemory

Avertissement MQL :

PrivateMemory[5m].mean() > 30

MQL critique :

PrivateMemory[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de la mémoire privée est supérieure à 30 Go pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de la mémoire privée est supérieure à 40 Go pendant les 5 dernières minutes.
5

Taux de lecture d'E/S

Nom de mesure : IOReadRate

Avertissement MQL :

IOReadRate[5m].mean() > 10

MQL critique :

IOReadRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de lecture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux d'écriture d'E/S

Nom de mesure : IOWriteRate

Avertissement MQL :

IOWriteRate[5m].mean() > 10

MQL critique :

IOWriteRate[5m].mean() > 20
10 20 Une alerte d'avertissement est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 10 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'écriture d'E/S est supérieure à 20 Mo/s pendant les 5 dernières minutes.
5

Taux de paquets supprimés

Nom de mesure : DroppedPacketRate

Avertissement MQL :

DroppedPacketRate[5m].mean() > 30

MQL critique :

DroppedPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 30 msgs/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets supprimés est supérieure à 40 msgs/min pendant les 5 dernières minutes.
5

Taux de paquets manquants

Nom de mesure : MissingPacketRate

Avertissement MQL :

MissingPacketRate[5m].mean() > 30

MQL critique :

MissingPacketRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique sera déclenchée si la moyenne du taux de paquets manquants est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux d'erreur de paquet

Nom de mesure :

PacketErrorRate

Avertissement MQL :

PacketErrorRate[5m].mean() > 30

MQL critique :

PacketErrorRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'erreur du paquet est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de réception de paquets

Nom de mesure : PacketReceiveRate

Avertissement MQL :

PacketReceiveRate[5m].mean() > 30

MQL critique :

PacketReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement sera déclenchée si la moyenne du taux de réception des paquets est supérieure à 30 msg/min pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception des paquets est supérieure à 40 msg/min pendant les 5 dernières minutes.
5

Taux de suppression des éléments mis en correspondance

Nom de mesure : MappedDeleteRate

Avertissement MQL :

MappedDeleteRate[5m].mean() > 30

MQL critique :

MappedDeleteRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de suppression mappée est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de suppression mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux d'insertion des éléments mis en correspondance

Nom de mesure : MappedInsertRate

Avertissement MQL :

MappedInsertRate[5m].mean() > 30

MQL critique :

MappedInsertRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux d'insertion mappé est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'insertion mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de vidage des éléments mis en correspondance

Nom de mesure : MappedTruncateRate

Avertissement MQL :

MappedTruncateRate[5m].mean() > 30

MQL critique :

MappedTruncateRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de troncature mappé est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de troncature mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de mise à jour des éléments mis en correspondance

Nom de mesure : MappedUpdateRate

MQL d'avertissement :

MappedUpdateRate[5m].mean() > 30

MQL critique :

MappedUpdateRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de mise à jour mappée est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de mise à jour mappée est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de rejet

Nom de mesure : DiscardRate

MQL d'avertissement :

DiscardRate[5m].mean() > 30

MQL critique :

DiscardRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux de rejet est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de rejet est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux d'éléments ignorés

Nom de mesure : IgnoreRate

MQL d'avertissement :

IgnoreRate[5m].mean() > 30

MQL critique :

IgnoreRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du taux Ignore est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux Ignore est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

LAG

Nom de mesure : Lag

MQL d'avertissement :

Lag[5m].mean() > 30

MQL critique :

Lag[5m].mean() > 40
10 20 Une alerte d'avertissement sera déclenchée si la moyenne de décalage est supérieure à 10 secondes pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de décalage est supérieure à 20 Ssec pendant les 5 dernières minutes.
5

Taux d'opérations

Nom de mesure : OperationsPerSec

MQL d'avertissement :

OperationsPerSec[5m].mean() > 30

MQL critique :

OperationsPerSec[5m].mean() > 40
20 30 Une alerte d'avertissement est déclenchée si la moyenne du taux d'opérations est supérieure à 20 opérations/s au cours des 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux d'opérations est supérieure à 30 opérations/s au cours des 5 dernières minutes.

Exemple de règle d'alarme : chemin de distribution Goldengate

  • Type de ressource : Chemin de distribution Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_distribution_path

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Chemin de distribution Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout chemin de distribution Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

LAG

Nom de mesure : Lag

MQL d'avertissement :

Lag[5m].mean() > 30

MQL critique :

Lag[5m].mean() > 40
10 20 Une alerte d'avertissement sera déclenchée si la moyenne de décalage est supérieure à 10 secondes pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de décalage est supérieure à 20 Ssec pendant les 5 dernières minutes.
5

Taux d'envoi du réseau

Nom de mesure : NetworkSentRate

MQL d'avertissement :

NetworkSentRate[5m].mean() > 30

MQL critique :

NetworkSentRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du débit d'envoi réseau est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du débit d'envoi réseau est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de réception du réseau

Nom de mesure : NetworkReceiveRate

MQL d'avertissement :

NetworkReceiveRate[5m].mean() > 30

MQL critique :

NetworkReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de réception envoyée par le réseau est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception réseau est supérieure à 40 Mo/s pendant les 5 dernières minutes.

Exemple de règle d'alarme : chemin du destinataire Goldengate

  • Type de ressource : Chemin de destinataire Goldengate

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_goldengate_receiver_path

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Chemin de destinataire Goldengate

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout chemin de récepteur Goldengate dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas le statut depuis plus de 1 minute.
5

LAG

Nom de mesure : Lag

MQL d'avertissement :

Lag[5m].mean() > 30

MQL critique :

Lag[5m].mean() > 40
10 20 Une alerte d'avertissement sera déclenchée si la moyenne de décalage est supérieure à 10 secondes pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne de décalage est supérieure à 20 Ssec pendant les 5 dernières minutes.
5

Taux d'envoi du réseau

Nom de mesure : NetworkSentRate

MQL d'avertissement :

NetworkSentRate[5m].mean() > 30

MQL critique :

NetworkSentRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne du débit d'envoi réseau est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du débit d'envoi réseau est supérieure à 40 Mo/s pendant les 5 dernières minutes.
5

Taux de réception du réseau

Nom de mesure : NetworkReceiveRate

MQL d'avertissement :

NetworkReceiveRate[5m].mean() > 30

MQL critique :

NetworkReceiveRate[5m].mean() > 40
30 40 Une alerte d'avertissement est déclenchée si la moyenne de réception envoyée par le réseau est supérieure à 30 Mo/s pendant les 5 dernières minutes. Une alerte critique est déclenchée si la moyenne du taux de réception réseau est supérieure à 40 Mo/s pendant les 5 dernières minutes.

Règles d'alarme d'échantillon de ressource personnalisé basées sur un processus

  • Type de ressource : Ressource personnalisée

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : custom_resource

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Ressources personnalisées arrêtées

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour toute ressource personnalisée d'un compartiment donné en cours d'arrêt ou ne signalant pas le statut depuis plus de 1 minute.
5

Utilisation élevée de l'UC

Nom de mesure : CpuUtilization

MQL d'avertissement :

CpuUtilization[1m].mean() > 80

MQL critique :

CpuUtilization[1m].mean() > 90
>80 >90

Alarme d'avertissement pour toute ressource personnalisée d'un compartiment donné signalant une utilisation de l'UC supérieure à 80 % sur 5 minutes.

Alarme critique pour toute ressource personnalisée dans un compartiment donné signalant une utilisation de l'UC supérieure à 90 % sur 5 minutes.

15

Utilisation élevée de la mémoire

Nom de mesure : MemoryUtilization

MQL d'avertissement :

MemoryUtilization[1m].mean() > 80

MQL critique :

MemoryUtilization[1m].mean() > 90
>80 >90

Alarme d'avertissement pour toute ressource personnalisée d'un compartiment donné signalant une utilisation de mémoire supérieure à 80 % sur 15 minutes.

Alarme critique pour toute ressource personnalisée dans un compartiment donné signalant une utilisation de mémoire supérieure à 90 % sur 15 minutes.

Oracle Service Bus (OSB)

  • Type de ressource : Oracle Service Bus

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : oracle_servicebus

Période d'évaluation (minutes) Règle d'alarme Avertissement Critique Description
1

Statut de surveillance

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour tout Service Bus dans un compartiment donné signalant qu'il est en panne ou qu'il ne signale pas son statut depuis plus de 1 minute.
5

Erreurs Service Bus

Nom de mesure : ServiceBusErrors

MQL critique :

ServiceBusErrors[1m].mean() > 0
n/a >0 Alarme critique pour tout bus de services d'un compartiment donné qui signale les erreurs dans l'un des services OSB pendant plus de 5 minutes.

Microsoft IIS

  • Type de ressource : IIS

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : microsoft_iis

Période d'évaluation Tule d'alarme Avertissement Critique Description
1

IIS arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()

n/a n/a Alarme critique pour ne plus pouvoir se connecter à IIS
5

ASP.Net Redémarrage du processus actif

Nom de mesure : ASPDotNetWorkerProcessRestarts

MQL critique :

ASPDotNetWorkerProcessRestarts[1m].mean() > 1
>1 n/a Alarme critique pour savoir si nous avons eu des redémarrages de processus de travail. Cela peut être dû à un certain nombre de facteurs et entraîner des problèmes, notamment l'impact sur les performances et la perte d'informations.
5

Demandes ASP.Net mises en file d'attente

Nom de mesure : ASPDotNetRequests.Type.Queued

MQL d'avertissement :

ASPDotNetRequests.Type.Queued[1m].mean() > 5

MQL critique :

ASPDotNetRequests.Type.Queued[1m].mean() > 10
>5 >10 Seuil critique/d'avertissement pour nous indiquer si les demandes HTTP entrantes sont placées dans une file d'attente en raison du chargement.
5

ASP.Net Taux d'erreur

Nom de mesure : ErrorRate

MQL d'avertissement :

ErrorRate[1m].mean() > 1%*

MQL critique :

ErrorRate[1m].mean() > 2%*
> 1%* > 2%* Seuil critique/d'avertissement pour alerter l'utilisateur que le taux d'erreur d'une application ASP.Net est supérieur à un certain seuil. Cette mesure renvoie des erreurs par seconde. Le seuil doit donc être défini en fonction du nombre total moyen de demandes qu'elle reçoit. Par exemple, s'ils obtiennent généralement 100 demandes/s, nous suggérons 1 erreur pour un avertissement et 2 pour un critique.
  • Type de ressource : site Web IIS

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : microsoft_iis

Période d'évaluation (en minutes) Règle d'alarme Avertissement Critique Description
1

Site Web IIS arrêté

Nom de mesure : MonitoringStatus

MQL critique :

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarme critique pour ne plus pouvoir se connecter au site Web IIS
5

Connexions en cours WWW

Nom de mesure : CurrentConnections.Service.WWW

MQL d'avertissement :

CurrentConnections.Service.WWW[1m].mean() > 90%*

MQL critique :

CurrentConnections.Service.WWW[1m].mean() > 95%*
> 90%* > 95%* Seuil Critique/Avertissement permettant d'alerter l'utilisateur que le nombre de connexions est proche du maximum. Notez que le client devra définir le nombre sur 90 / 95% de ses connexions maximales. La métrique est un nombre. Par conséquent, cette alerte définie sera unique pour chaque client. Par exemple, si l'utilisateur dispose de 200 connexions au total autorisées, nous suggérons 180 pour l'avertissement et 190 pour les connexions critiques.

NGINX

  • Type de ressource : NGINX

  • Espace de noms de mesure : oracle_appmgmt

  • Groupe de ressources : nginx

Période d'évaluation Règle d'alarme Avertissement Critique Description
3

Nginx arrêté

Nom d'affichage : MonitoringStatus

MQL :

MonitoringStatus[3m].mean() != 1 ||MonitoringStatus[1m].absent()

n/a 0

Alarme indiquant qu'il est impossible de se connecter à l'adresse d'API NGINX.

5

Taux de processus générés à nouveau

Nom de mesure : RespawnedProcessesRate

MQL d'avertissement :

RespawnedProcessesRate[5m].mean() > 1

MQL critique :

RespawnedProcessesRate[5m].mean() > 2

>1 >2

Nombre de processus réapparus au cours de l'intervalle.

5

Débit des vérifications de l'état en amont HTTP en mauvais état

Nom de mesure : HttpUpstreamsHealthChecksRate

Nom de la dimension : Type

Valeur de dimension : Unhealthy

MQL d'avertissement :

HttpUpstreamsHealthChecksRate[5m]{Type = "Unhealthy"}.mean() > 1

>1 n/a

Etat malsain détecté par NGINX qui pourrait avoir un impact négatif sur les performances ou la disponibilité.

5

Débit des vérifications de l'état en amont du flux : mauvais état > 1 état en mauvais état détecté par les performances ou la disponibilité de NGINX

Nom de mesure :

StreamUpstreamsHealthChecksRate

Nom de la dimension : Type

Valeur de dimension : Unhealthy

MQL d'avertissement :

StreamUpstreamsHealthChecksRate[5m] {Type = "Unhealthy"}.mean() > 1

>1 n/a

Etat malsain détecté par NGINX qui pourrait avoir un impact négatif sur les performances ou la disponibilité

Extensions de mesure

Vous pouvez créer des règles d'alarme pour déclencher des alarmes lorsque les valeurs de mesure de vos extensions de mesure dépassent les seuils. Utilisez le workflow général que vous suivez pour créer une règle d'alarme pour les mesures intégrées de vos ressources. La principale différence se trouve dans la section Description de la mesure.

  • Compartiment : choisissez le compartiment de la ressource sur laquelle l'extension de mesure a été activée
  • Espace de noms de mesure : sélectionnez oracle_metric_extensions_appmgmt
  • Groupe de ressources : type de ressource de la ressource sur laquelle l'extension de mesure a été déployée.

La création d'une règle d'alarme pour une extension de mesure d'un hôte est illustrée dans l'image ci-dessous :


création de règles d'alarme pour les extensions de mesure