Definición de alarmas

Puede utilizar el servicio Oracle Cloud Infrastructure Monitoring para generar alarmas cuando las métricas superen los umbrales.

En primer lugar, familiarícese con los conceptos y las funciones del servicio Monitoring consultando Visión general de Monitoring. Para obtener más información sobre la configuración de alarmas, consulte Gestión de asignaciones. Consulte Referencia de Monitoring Query Language (MQL) para crear consultas avanzadas tanto para la supervisión como para las alarmas.

Asegúrese también de haber definido las políticas adecuadas para utilizar reglas de alarma. Consulte Introducción.

Antes de continuar, debe haber creado un destino de alarma, por ejemplo, el servicio de notificación y los temas que definen quién recibirá estas alarmas.

En la siguiente tabla se muestran los detalles de las métricas que necesitará para crear reglas de alarma para las métricas utilizadas en Stack Monitoring.

Tipo de recurso Espacio de nombre de métrica Grupo de recursos de reglas de alarma Reglas de Alarmas Referencia de métricas
Host
  • GPU
oracle_appmgmt host
Bases de datos Oracle sin contenedor, contenedor y conexión oracle_oci_database n/a Oracle Database Oracle Database
Sistema de Oracle Database, ASM, Cluster y Listener oracle_oci_database_cluster oracle_asm, oracle_cluster, oracle_db_node, oracle_lsnr Oracle Database Cluster de Oracle Database

Dominio de Oracle WebLogic

Oracle WebLogic Cluster

oracle_appmgmt

weblogic_cluster

Oracle Weblogic Server Métricas de WebLogic
Oracle WebLogic Server oracle_appmgmt weblogic_j2eeserver Oracle Weblogic Server Métricas de WebLogic
Oracle HTTP Server (OHS) oracle_appmgmt oracle_http_server Oracle HTTP Server (OHS) Métricas de Oracle HTTP Server (OHS)
Oracle Identity Manager (OIM) oracle_appmgmt oracle_oim / oracle_oim_cluster Oracle Identity Manager (OIM) Oracle Identity Manager (OIM)
Oracle Access Manager (OAM) oracle_appmgmt oracle_oam / oracle_oam_cluster Oracle Access Manager (OAM) Oracle Access Manager (OAM)
Tiempo de ejecución de Oracle JVM oracle_appmgmt oracle_jvm Oracle JVM Métricas de JVM de Oracle
Oracle E-Business Suite oracle_appmgmt ebs_instance Oracle E-Business Suite Métricas de E-Business Suite
Listener de aplicación de EBS oracle_appmgmt oracle_ebs_app_lsnr Oracle E-Business Suite Métricas de E-Business Suite
Procesamiento simultáneo de EBS oracle_appmgmt oracle_ebs_conc_mgmt_service Proceso Simultáneo Métricas de E-Business Suite
Procesamiento simultáneo de EBS - Especializado oracle_appmgmt oracle_ebs_conc_mgmt_service_specialized Procesamiento Simultáneo Métricas de E-Business Suite
Nodo de procesamiento simultáneo de EBS oracle_appmgmt oracle_ebs_cp_node Oracle E-Business Suite Métricas de E-Business Suite
Sistema de pantallas de EBS oracle_appmgmt oracle_ebs_forms_system Oracle E-Business Suite Métricas de E-Business Suite
Listener de agente del flujo de trabajo de EBS oracle_appmgmt oracle_ebs_wf_agent_lsnr Oracle E-Business Suite Métricas de E-Business Suite
Motor en segundo plano del flujo de trabajo de EBS oracle_appmgmt oracle_ebs_wf_bkgd_engine Oracle E-Business Suite Métricas de E-Business Suite
Grupo del flujo de trabajo de EBS oracle_appmgmt oracle_ebs_wf_group Oracle E-Business Suite Métricas de E-Business Suite
Distribuidor de notificaciones del flujo de trabajo de EBS oracle_appmgmt oracle_ebs_wf_notification_mailer Workflow Notification Mailer Métricas de E-Business Suite
Apache Tomcat oracle_appmgmt apache_tomcat Apache Tomcat Métricas de Apache Tomcat
Microsoft SQL Server oracle_appmgmt sql_server Microsoft SQL Server Métricas de Microsoft SQL Server
Dominio del servidor de aplicaciones PeopleSoft oracle_appmgmt oracle_psft_appserv PeopleSoft Métricas de PeopleSoft
Dominio de PeopleSoft Process Scheduler oracle_appmgmt oracle_psft_prcs PeopleSoft Métricas de PeopleSoft
PIA de PeopleSoft oracle_appmgmt oracle_psft_pia PeopleSoft Métricas de PeopleSoft
Motor de búsqueda PeopleSoft

(OpenSearch / Elasticsearch)

oracle_appmgmt elastic_search, open_search PeopleSoft Métricas de PeopleSoft
PeopleSoft Supervisión de procesos oracle_appmgmt oracle_psft_prcm PeopleSoft Métricas de PeopleSoft
Apache HTTP Server oracle_appmgmt apache_http_server Apache HTTP Server Métricas de Apache HTTP Server
Servidor de directorios de OUD oracle_appmgmt oud_directory Oracle Unified Directory Métricas de Oracle Unified Directory
Servidor proxy de OUD oracle_appmgmt oud_proxy Oracle Unified Directory Métricas de Oracle Unified Directory
Gateway de replicación de OUD oracle_appmgmt oud_gateway Oracle Unified Directory Métricas de Oracle Unified Directory
GoldenGate oracle_appmgmt oracle_goldengate Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate ServiceManager oracle_appmgmt oracle_goldengate_service_manager Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate AdminServer oracle_appmgmt oracle_goldengate_admin_server Oracle GoldenGate Métricas de Oracle GoldenGate
Servidor de métricas de rendimiento de GoldenGate oracle_appmgmt oracle_goldengate_pm_server Oracle GoldenGate Métricas de Oracle GoldenGate
Extracto de GoldenGate oracle_appmgmt oracle_goldengate_extract Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate Replicación oracle_appmgmt oracle_goldengate_replicat Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate DistributionServer oracle_appmgmt oracle_goldengate_distribution_server Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate Ruta de distribución oracle_appmgmt oracle_goldengate_distribution_path Oracle GoldenGate Métricas de Oracle GoldenGate

GoldenGate Servidor del receptor

oracle_appmgmt oracle_goldengate_receiver_server Oracle GoldenGate Métricas de Oracle GoldenGate
GoldenGate Ruta de receptor oracle_appmgmt oracle_goldengate_receiver_path Oracle GoldenGate Métricas de Oracle GoldenGate
Recurso Personalizado oracle_appmgmt custom_resource Reglas de alarma de ejemplo de recursos personalizados basadas en procesos Métricas de recursos personalizados basadas en procesos
Oracle Service Bus oracle_appmgmt oracle_servicebus Oracle Service Bus (OSB) Oracle Service Bus (OSB)
IIS de Microsoft oracle_appmgmt microsoft_iis IIS de Microsoft Métricas de IIS de Microsoft
Sitio web de Microsoft IIS oracle_appmgmt microsoft_iis_website IIS de Microsoft Métricas de IIS de Microsoft
NGINX oracle_appmgmt nginx NGINX Métricas de NGINX

Mejores prácticas para escenarios de alarma comunes

  1. Cree las reglas de alarma en el mismo compartimento en el que ha detectado los recursos.
  2. Para configurar una regla de alarma para generar una alarma cuando un recurso está caído, especifique el espacio de nombres de métrica y el grupo de recursos adecuados y utilice la siguiente métrica y regla de disparador:

    Nombre de métrica: MonitoringStatus

    Disparar regla:

    • Operador: equal to

    • Valor: 0

    • Minutos de retraso del disparador: 1

  3. Para configurar una regla de alarma que se dispare para instancias de recursos individuales, además de seleccionar la métrica, también tendrá que agregar dimensiones de métrica para identificar de forma única el recurso.

    Para identificar de forma única una instancia de recurso:

    1. Puede utilizar resourceName y resourceType O
    2. Puede utilizar resourceId

      La mayoría de las métricas definen dimensiones adicionales que se pueden utilizar para definir alarmas avanzadas.

  4. Consulte siempre la descripción de la métrica que se encuentra en Referencia de métrica y compruebe el período de tiempo de evaluación (con qué frecuencia se recopila cada métrica). Al configurar alarmas, asegúrese de proporcionar el mismo valor que el valor de Intervalo de la alarma. Esto se puede realizar mediante Cambiar a modo avanzado en la esquina superior derecha de la página de creación de alarmas. Puede proporcionar MQL avanzada en la sección Editor de código de consulta de la página de modo avanzado.

Hosts

Regla de alarma de ejemplo: supervisión del host

  • Tipo de Recurso: Host
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: host
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
4

Host Caído

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[4m].mean() != 1 || MonitoringStatus[4m].absent()
n/d n/d Alarma crítica para cualquier host de un compartimento determinado que informa que está inactivo o que no informa del estado durante más de 1 minuto.
4

Uso Alto de CPU

Nombre de métrica: CpuUtilization

Advertencia MQL:

CpuUtilization[4m]{type="Total"}.mean() > 80

MQL Crítico:

CpuUtilization[4m]{type="Total"}.mean() > 90
> 80 > 90 Alarma de advertencia para cualquier host de un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 3 minutos.

Alarma crítica para cualquier host de un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 3 minutos.

4

Uso Alto de Memoria

Nombre de métrica: MemoryUtilization

Advertencia MQL:

MemoryUtilization[4m]{type="Logical"}.mean() > 80

MQL Crítico:

MemoryUtilization[4m]{type="Logical"}.mean() > 90
> 80 > 90 Alarma de advertencia para cualquier host de un compartimento determinado que informe de un uso de memoria superior al 80 % durante los últimos 3 minutos.

Alarma de advertencia para cualquier host de un compartimento determinado que informe de un uso de memoria superior al 90 % durante los últimos 3 minutos.

4

Uso de Sistema de Archivos

Nombre de métrica: FilesystemUtilization

Advertencia MQL:

FilesystemUtilization[4m].mean() > 80

MQL Crítico:

FilesystemUtilization[4m].mean() > 90
> 80 > 90 Alarma de advertencia para cualquier sistema de archivos de cualquier host de un compartimento determinado que informe de un uso de memoria superior al 80 %.

Alarma crítica para cualquier sistema de archivos en cualquier host de un compartimento determinado que informa de un uso de memoria superior al 90 %.

Nota

Para supervisar los sistemas de archivos seleccionados, puede especificar aún más la dimensión fileSystemName y personalizar las alarmas según sus necesidades específicas. Por ejemplo, el siguiente MQL FilesystemUtilization[1m]{fileSystemName = "/", osType = "Linux"}.mean() > 80 solo se aplicará a cualquier sistema de archivos raíz de cualquier host de Linux en un compartimento determinado.

GPU

Regla de alarma de ejemplo: GPU

1

Temperatura de la GPU

Nombre de métrica: GPUTemperature

Advertencia MQL:

GPUTemperature[4m]{Type="GPU"}.mean() > 98

MQL Crítico:

GPUTemperature[4m]{Type="GPU"}.mean() > 101
> 98 > 101

Alarma de advertencia cuando cualquier GPU excede la temperatura de ralentización.

Alarma crítica cuando cualquier GPU excede la temperatura de apagado.

Las temperaturas de desaceleración y cierre pueden variar según el modelo de GPU; los valores correctos para una GPU detectada se pueden revisar en la página inicial de la GPU Stack Monitoring.

  1. Ir a la página inicial de una GPU individual
  2. Seleccione la opción de menú Configuration (Configuración).
  3. En la sección de propiedades específicas del recurso, busque las entradas temperatureSlowdown y temperatureShutdown.

Oracle Database

Opcionalmente, para minimizar el riesgo de falsas alarmas, incluya collectionName="sensor".

Ejemplo:

MonitoringStatus[4m]{collectionName="sensor"}.groupBy(resourceName).last() < 1 || MonitoringStatus[4m] collectionName="sensor"}.groupBy(resourceName).absent()

Regla de alarma de ejemplo: base de datos sin contenedor

  • Tipo de recurso: base de datos sin contenedor

  • Espacio de nombres de métrica: oracle_oci_database

  • Grupo de recursos: n/a

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante ¿Se ha utilizado el valor recomendado de DBM? Descripción
30

Uso de almacenamiento

Nombre de métrica: StorageUtilizationByTablespace

Dimensión: tablespaceContents = PERMANENT

O

Advertencia MQL:

StorageUtilizationByTablespace[30m]{tablespaceContents ="PERMANENT"}.mean()> 75

MQL Crítico:

StorageUtilizationByTablespace[30m]{tablespaceContents ="PERMANENT"}.mean() > 85
>75 >85 S Condiciones de reglas de alarma críticas y de advertencia para tablespaces permanentes cuyo uso es superior al 75 % o al 85 % en los últimos 30 minutos.
24 horas InvalidObjects >150 >200 n/d  
15 BlockingSessions >1 >10 S Condiciones de regla de alarma crítica y de advertencia para disparar una alarma cuando el número de sesiones de bloqueo es mayor que 1 o 10 en los últimos 15 minutos.
15 UsableFRA <20 <10 n/d Condiciones de regla de alarma crítica y de advertencia para disparar una alarma cuando el porcentaje del área de recuperación rápida utilizable es inferior al 20 % o al 10 % en los últimos 15 minutos.
5 ProcessLimitUtilization >70 >80 S Condiciones de regla de alarma crítica y de advertencia para disparar una alarma cuando la utilización del proceso (%) es superior al 70 % o al 80 % en los últimos 5 minutos.
5 SessionLimitUtilization >90 >97 n/a  
5 CPUUtilization >80 >85 S  
5 FRAUtilization >70 >75 S  
5 StorageUtilization >75 >85 S  
5

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a   Alarma crítica para cualquier informe de Oracle Database que no sea de contenedor que esté caído o que no informe del estado durante más de 1 minuto.

Regla de alarma de ejemplo: base de datos de contenedores

  • Tipo de recurso: base de datos de contenedor

  • Espacio de nombres de métrica: oracle_oci_database

  • Grupo de recursos: n/a

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante ¿Se ha utilizado el valor recomendado de DBM? Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a n/a Alarma crítica para cualquier informe de Oracle Database que no sea de contenedor que esté caído o que no informe del estado durante más de 1 minuto.
30

Métrica: StorageUtilizationByTablespace

Dimensión: tablespaceContents = PERMANENT

O

Advertencia MQL:

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 75

MQL Crítico:

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 85

>75 >85 S Condiciones de reglas de alarma críticas y de advertencia para tablespaces permanentes cuyo uso es superior al 85 % o al 90 % en los últimos 30 minutos.
5 ProcessLimitUtilization >70 >80 S Condiciones de reglas de alarma críticas y de advertencia para disparar una alarma cuando el uso del proceso (%) es superior al 90 % o al 95 % en los últimos 5 minutos.
5 SessionLimitUtilization >90 >97 n/a  
15 UsableFRA <20 <10 n/a Condiciones de regla de alarma crítica y de advertencia para disparar una alarma cuando el porcentaje del área de recuperación rápida utilizable es inferior al 20 % o al 10 % en los últimos 15 minutos.
5 CPUUtilization >80 >85 S  
5 FRAUtilization >70 >75 S  
5 StorageUtilization >75 >85 S  

Regla de alarma de ejemplo: base de datos conectable

  • Tipo de recurso: base de datos conectable

  • Espacio de nombres de métrica: oracle_oci_database

  • Grupo de recursos: n/a

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante ¿Se ha utilizado el valor recomendado de DBM? Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a n/a Alarma crítica para cualquier informe de Oracle Database sin contenedor que esté inactivo o que no informe del estado durante más de 1 minuto.
5 CPUUtilization >80 >85 S  
5 StorageUtilization >75 >85 S  
15 BlockingSessions >1 >10 S Condiciones de regla de alarma crítica y de advertencia para disparar una alarma cuando el número de sesiones de bloqueo es mayor que 1 o 5 en los últimos 15 minutos.
24 horas InvalidObjects >150 >200 n/a  
30

Métrica: StorageUtilizationByTablespace

Dimensión: tablespaceContents = PERMANENT

O

Advertencia MQL:

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 75

MQL Crítico:

StorageUtilizationByTablespace[1m]{tablespaceContents = "PERMANENT"}.mean() > 85

>75 >85 S Condiciones de reglas de alarma críticas y de advertencia para tablespaces permanentes cuyo uso es superior al 85 % o al 90 % en los últimos 30 minutos.

Regla de alarma de ejemplo: instancia de ASM/ASM

  • Tipo de Recurso: ASM

  • Espacio de nombres de métrica: oracle_oci_database_cluster

  • Grupo de recursos: oracle_asm

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier informe de Oracle Database sin contenedor que esté inactivo o que no informe del estado durante más de 1 minuto.
30 DiskGroupUtilization >85 >95  
30 DiskUtilization >85 >95  
Regla de alarma de ejemplo: cluster de ASM
  • Tipo de recurso: cluster

  • Espacio de nombres de métrica: oracle_oci_database_cluster

  • Grupo de recursos: oracle_cluster

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier informe de Oracle Database sin contenedor que esté inactivo o que no informe del estado durante más de 1 minuto.

Regla de alarma de ejemplo: Listener

  • Tipo de Recurso: Listener

  • Espacio de nombres de métrica: oracle_oci_database_cluster

  • Grupo de recursos: oracle_lsnr

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier informe de Oracle Database sin contenedor que esté inactivo o que no informe del estado durante más de 1 minuto.
5 RefusedConnections >1 >5  

E-Business Suite (en inglés)

Regla de alarma de ejemplo: EBS

  • Tipo de recurso: Oracle E-Business Suite
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: ebs_instance
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
15

Programas Ejecutados por Tiempo de Ejecución (ms)

Nombre de métrica: ExecutedProgramsByRunningTime

MQL:

ExecutedProgramsByRunningTime[15m].mean() > 4000

Tip1:

Puede filtrar la alarma a una aplicación específica agregando el filtro de dimensión ProgramName o ProgramShortName.

> 4.000 > 40.000 El tiempo de ejecución de las solicitudes
15

Solicitudes terminadas por aplicación (ratio)

Nombre de métrica: CompletedRequestsByApplication

Nombre de dimensión: Category

Valor de dimensión: Error

MQL:

CompletedRequestsByApplication[15m]{Category = "Error"}.mean() > 0.001

Tip1:

Puede filtrar la alarma a una aplicación específica agregando ApplicationName o un filtro de dimensión A.

MQL:

CompletedRequestsByApplication[15m]{Category = "Error", ApplicationName = "<YOUR APP NAME>"}.mean() > 0.001
> 0,001 > 0,003

Ratio de solicitudes que se han completado con errores en comparación con todas las solicitudes en un intervalo de recopilación determinado.

Esto significa que si más del 0.1% solicitado falló, recibirá una advertencia, por más del 0.25% se obtiene crítico

15

Sesiones de Usuarios Activas

Nombre de métrica: ActiveUserSessions

MQL:

ActiveUserSessions[15m].mean() > 200
> 200 > 250 Número de Sesiones de Usuario Activas

Regla de alarma de ejemplo: listener de aplicación de EBS

Tipo de recurso: Listener de aplicación de EBS

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: oracle_ebs_app_lsnr

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica:MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Alarma crítica para el listener de aplicación de EBS en un compartimento determinado que informa que está inactivo o que no informa del estado durante más de 1 minuto.

Regla de alarma de ejemplo: procesamiento simultáneo de EBS

Tipo de recurso: procesamiento simultáneo de EBS

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: oracle_ebs_conc_mgmt_service

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica: MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Estado de disponibilidad.
15

Ratio de Errores de Solicitudes Concurrentes

Nombre de métrica: CompletedConcurrentRequests

Nombre de dimensión: State

Valor de dimensión: Errored

MQL:

CompletedConcurrentRequests[15m]{State = "Errored"}.mean() > 0.001
> 0,001 > 0,003 Ratio de solicitudes que se han completado con errores cada hora. Si se multiplica por 100, se convierte en un porcentaje.
15

Ratio de advertencias de solicitudes simultáneas

Nombre de métrica: CompletedConcurrentRequests

Nombre de dimensión: State

Valor de dimensión: WithWarning

MQL:

CompletedConcurrentRequests[15m]{State = "WithWarning"}.mean() > 0.15
> 0,002 > 0,003 Ratio de solicitudes que se han completado con advertencia cada hora. Si se multiplica por 100, se convierte en un porcentaje.
15

Solicitudes simultáneas finalizadas correctamente (período de tiempo de operaciones/evaluación)

Nombre de métrica: CompletedConcurrentRequests

Nombre de dimensión: State

Valor de dimensión: Succ

esencial

MQL:

CompletedConcurrentRequests[15m]{State = "Successful"}.sum() > 2500
> 625 > 2.500 Ratio de solicitudes que finalizaron correctamente en un período de tiempo de evaluación (15 minutos por defecto).
15

Solicitudes simultáneas en ejecución

Nombre de métrica: ConcurrentRequestsByStatus

Nombre de dimensión: State

Valor de dimensión: Runn

ing

MQL:

ConcurrentRequestsByStatus[15m]{State = "Running"}.mean() > 100
> 2.500 > 10.000 Número de solicitudes en ejecución por usuario.
15

Solicitudes simultáneas pendientes - Normal

Nombre de métrica: ConcurrentRequestsByStatus

Nombre de dimensión: State

Valor de dimensión: PendingNormal

MQL:

ConcurrentRequestsByStatus[15m]{State = "PendingNormal"}.mean() > 100
> 2.500 > 10.000 Número de solicitudes pendientes por usuario.
15

Solicitudes simultáneas pendientes - En espera

Nombre de métrica: ConcurrentRequestsByStatus

Nombre de dimensión: State

Valor de dimensión: PendingStandBy

MQL:

ConcurrentRequestsByStatus[15m]{State = "PendingStandBy"}.mean() > 100
> 100 > 500 Número de solicitudes en estado en espera pendiente.
15

Solicitudes simultáneas inactivas - Sin gestor

Nombre de métrica: ConcurrentRequestsByStatus

Nombre de dimensión: State

Valor de dimensión: InactiveNoManager

MQL:

ConcurrentRequestsByStatus[15m]{State = "InactiveNoManager"}.mean() > 100
> 100 > 500 Número de solicitudes en estado inactivo sin mánager.
15

Solicitudes simultáneas inactivas - En espera

Nombre de métrica: ConcurrentRequestsByStatus

Nombre de dimensión: State

Valor de dimensión: InactiveOnHold

MQL:

ConcurrentRequestsByStatus[15m]{State = "InactiveOnHold"}.mean() > 100
> 100 > 500 Número de solicitudes en estado inactivo retenido.
5

Solicitudes simultáneas de larga ejecución

Nombre de métrica: LongActiveConcurrentRequests

MQL:

LongActiveConcurrentRequests[5m].mean() > 43200000

Tip1:

Puede filtrar la alarma a una solicitud Running o Pending agregando el filtro de dimensión Phase.

MQL:

LongActiveConcurrentRequests[5m]{Phase = "Running"}.mean() > 43200000

Tip2:

Puede filtrar aún más por programa específico agregando el filtro de dimensión ProgramName o ProgramShortName.

MQL:

LongActiveConcurrentRequests[1m]{Phase = "Running", ProgramShortName = "<PROGRAM SHORT NAME>"}.mean() > 43200000
> 43.200.000 > 86.400.000 Tiempo transcurrido en ms para una solicitud pendiente o en ejecución. Solo se realiza un seguimiento de las 10 solicitudes principales. En este caso, estamos sugiriendo obtener Advertencia después de las 12 horas y Crítico después de las 24 horas.

Procesamiento simultáneo de EBS - Especializado

Tipo de recurso: Procesamiento simultáneo de EBS - Especializado

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: oracle_ebs_conc_mgmt_service_specialized

Métrica Nombre mostrado de métrica Unidad Descripción Frecuencia de recopilación Dimensión Nombre del recurso
MonitoringStatus Disponibilidad Estado

Estado del recurso. Los valores son:

1 = Activo

0 = Caído

Solo si TODOS otros mánager están activos, el estado es Activo. Si solo un mánager está inactivo, el estado general es inactivo.

1 min n/a oracle_ebs_conc_mgmt_service_specialized
ConcurrentProcesingComponentStatus Estado de gestor simultáneo Estado Disponibilidad del gestor simultáneo 1 min Nombre de Cola Simultánea, Descripción, Nombre de Host oracle_ebs_conc_mgmt_service_specialized
CapacityUtilizationOfConcurrentManagers Utilización de capacidad de gestor simultáneo porcentaje Porcentaje de procesos máximos en ejecución. Si el máximo de procesos del mánager es 10 y 5 se están ejecutando, la utilización de la capacidad es del 50 %. 1 min Nombre del Gestor oracle_ebs_conc_mgmt_service_specialized
ManagerMaxProcesses Máximo de procesos de gestor simultáneo recuento Número máximo de procesos para estar en la cola del mánager. 1 min Nombre del Gestor oracle_ebs_conc_mgmt_service_specialized
ManagerRunningProcesses Procesos de gestor simultáneo en ejecución recuento Número de procesos en ejecución en la cola del mánager 1 min Nombre del Gestor oracle_ebs_conc_mgmt_service_specialized

Regla de alerta de ejemplo: Distribuidor de notificaciones del flujo de trabajo de EBS

Tipo de recurso: Distribuidor de notificaciones del flujo de trabajo de EBS

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: oracle_ebs_wf_notification_mailer

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia crítico Descripción
1

Estado de Supervisión

Nombre de métrica: MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a 0 Alarma crítica para el procesamiento simultáneo de EBS Especializada en un compartimento determinado que informa que está inactivo o que no informa del estado de más de 1min.
1

Utilización de capacidad de gestor simultáneo

Nombre de métrica: CapacityUtilizationOfConcurrentManagers

MQL:

CapacityUtilizationOfConcurrentManagers[1m].mean() < 100
< 50 < 100 Porcentaje de utilización de capacidad de todos los mánager activados.

Apache Tomcat

Regla de alarma de ejemplo: Apache Tomcat

Tipo de recurso: Apache Tomcat

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: apache_tomcat

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
3

Apache Tomcat abajo

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()
n/a n/a Alarma crítica para cualquier Apache Tomcat en un compartimento determinado que informa que está inactivo o que no informa del estado durante más de 3 minutos.
5

Uso Alto de CPU

Nombre de métrica: CPUUtilization

Advertencia MQL:

CPUUtilization[5m].mean() > 80

MQL Crítico:

CPUUtilization[5m].mean() > 90
>80 >90

Alarma de advertencia para cualquier Apache Tomcat en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier Apache Tomcat en un compartimento determinado que informe de más del 90 % de utilización de CPU durante los últimos 5 minutos.

5

Uso Alto de Memoria de Pila de JVM

Nombre de métrica: JVMMemoryUtilization

Advertencia MQL:

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 80

MQL Crítico:

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 90
>80 >90

Alarma de advertencia para cualquier Apache Tomcat en un compartimento determinado que informe de más del 80% de uso de memoria de pila de JVM durante los últimos 5 minutos.

Alarma de advertencia para cualquier Apache Tomcat en un compartimento determinado que informe de un uso de memoria de pila de JVM superior al 90% durante los últimos 5 minutos.

5

Alto tiempo de procesamiento de solicitudes

Nombre de métrica: WebRequestProcessingTime

Advertencia MQL:

WebRequestProcessingTime[5m].mean() > 1000

MQL Crítico:

WebRequestProcessingTime[5m].mean() > 1500
>1.500 >3.000

La alarma de advertencia para cualquier Apache Tomcat en un compartimento determinado que informe más de 1500 ms significa tiempo de procesamiento de solicitud web durante los últimos 5 minutos.

La alarma de advertencia para cualquier Apache Tomcat en un compartimento determinado que informe más de 3000 ms significa tiempo de procesamiento de solicitud web durante los últimos 5 minutos.

Microsoft SQL Server

Reglas de alarma de ejemplo: Microsoft SQL Server

Tipo de recurso: Microsoft SQL Server

Espacio de nombre de métrica: oracle_appmgmt

Grupo de recursos: sql_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
3

Estado de disponibilidad de SQL Server

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()
n/a n/a Alarma crítica para cualquier servidor SQL en un compartimento determinado que informa que está inactivo o que no informa del estado durante más de 3 minutos.
10

Uso de CPU de SQL Server (%)

Nombre de métrica: CPUUtilization

Advertencia MQL:

CpuUtilization[10m].mean() > 80

MQL Crítico:

CpuUtilization[10m].mean() > 95
>80 >95 Alarma de advertencia para cualquier servidor SQL en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 10 minutos.

Alarma crítica para cualquier servidor SQL en un compartimento determinado que informe de un uso de CPU superior al 90% durante los últimos 10 minutos.

15

Uso de la base de datos de SQL Server

Nombre de métrica: StorageDatabaseUtilization

Advertencia MQL:

StorageDatabaseUtilization[15m].mean() > 80

MQL Crítico:

StorageDatabaseUtilization[15m].mean() > 95
>80 >95 Alarma de advertencia para cualquier servidor SQL en un compartimento determinado que informe de un uso de base de datos superior al 80% durante los últimos 15 minutos.

Alarma crítica para cualquier servidor SQL en un compartimento determinado que informe de un uso de base de datos superior al 90% durante los últimos 15 minutos.

PeopleSoft

PeopleSoft Servidor de aplicaciones

  • Tipo de recurso: PeopleSoft Dominio de Application Server
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: oracle_psft_appserv
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
5

Estado

Nombre de métrica: Health

Advertencia MQL:

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL Crítico:

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

Estado general del dominio del servidor de aplicaciones.

Se disparará una alarma de advertencia si el estado 'advertencia' es igual a 1.

Se disparará una alarma crítica si el estado 'crítico' es igual a 1.

5

Cargar

Nombre de métrica: Load

Advertencia MQL:

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL crítico

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Carga general del dominio del servidor de aplicaciones.

Se activará una alarma de advertencia si el estado "medio" es igual a 1.

Se activará una alarma crítica si el estado "pesado" es igual a 1.

5

Tiempo medio de ejecución de solicitud de servicio

Nombre de métrica: AverageServiceRequestExecutionTime

Advertencia MQL:

AverageServiceRequestExecutionTime[5m].mean()> 1000
> 1.000 n/a

Tiempo medio en milisegundos que se tarda en ejecutar una solicitud de servicio.

La alarma de advertencia se activa cuando, en promedio, una solicitud tarda más de un segundo (1000 ms) en ejecutarse.

5

Procesos en cola para Application Server

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: ApplicationServer

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "ApplicationServer"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el servidor de aplicaciones. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para manejador BRK

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: BRKHandler

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "BRKHandler"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el gestor de BRK. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para distribuidor de BRK

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: BRKDispatcher

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "BRKDispatcher"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el distribuidor BRK. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para distribuidor PUB

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: PUBDispatcher

MQL:

QueuedTuxedoProcesses[5m]{Category = "PUBDispatcher"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el distribuidor PUB. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para el manejador PUB

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: PUBHandler

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "PUBHandler"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el manejador PUB. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para SUB Distribuidor

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: SUBDispatcher

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "SUBDispatcher"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el distribuidor SUB. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para manejador SUB

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: Category

Valor de dimensión: SUBHandler

MQL Crítico:

QueuedTuxedoProcesses[5m]{Category = "SUBHandler"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el manejador SUB. Más de 1 proceso en cola activará una alarma crítica.
5

Procesos de servidor con fallos

Nombre de métrica: FailedServerProcesses

MQL Crítico:

FailedServerProcesses[5m].mean() > 0
n/a > 0 Número de procesos de servidor que han fallado o están inactivos en el dominio. Si algún proceso del servidor falla, se disparará una alarma crítica.
15

Archivos de estado

Nombre de métrica: PeopleToolsStateFiles

Advertencia MQL:

PeopleToolsStateFiles[15m].mean() > 0
> 0 n/a Número de archivos de estado PeopleTools generados en el directorio de logs de dominio. Si se genera algún archivo de estado, se disparará una alarma de advertencia.

PeopleSoft Process Scheduler

  • Tipo de recurso: Dominio de PeopleSoft Process Scheduler
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: oracle_psft_prcs
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
5

Estado

Nombre de métrica: Health

Advertencia MQL:

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL Crítico:

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

Estado general del dominio del gestor de procesos.

Se disparará una alarma de advertencia si el estado 'advertencia' es igual a 1.

Se disparará una alarma crítica si el estado 'crítico' es igual a 1.

5

Carga

Nombre de métrica: Load

Advertencia MQL:

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL Crítico:

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Carga general del dominio del gestor de procesos.

Se activará una alarma de advertencia si el estado "medio" es igual a 1.

Se activará una alarma crítica si el estado "pesado" es igual a 1.

5

Procesos en cola para PSPRCSRV

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: ProcessType

Valor de dimensión: PSPRCSRV

MQL Crítico:

QueuedTuxedoProcesses[5m]{ProcessType = "PSPRCSRV"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el gestor de procesos (PSPRCSRV). Más de 1 proceso en cola activará una alarma crítica.
5

Procesos en cola para PSDSTSRV

Nombre de métrica: QueuedTuxedoProcesses

Nombre de dimensión: ProcessType

Valor de dimensión: PSDSTSRV

MQL Crítico:

QueuedTuxedoProcesses[5m]{ProcessType = "PSDSTSRV"}.mean() > 1
n/a > 1 Número de procesos que están actualmente en cola para el servidor de distribución (PSDSTSRV). Más de 1 proceso en cola activará una alarma crítica.
5

Procesos Fallidos

Nombre de métrica: FailedProcesses

MQL Crítico:

FailedProcesses[5m].mean() > 1
n/a > 0 Número de procesos de servidor que han fallado o están inactivos en el dominio. Si algún proceso del servidor falla, se disparará una alarma crítica.

PIA de PeopleSoft

  • Tipo de recurso: PeopleSoft PIA
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: oracle_psft_pia
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
5

Estado

Nombre de métrica: Health

Advertencia MQL:

Health[1m]{HealthState = "Warning"}.mean() = 1

MQL Crítico:

Health[1m]{HealthState = "Critical"}.mean() = 1
1 1

Estado general de la PIA.

Se disparará una alarma de advertencia si el estado 'advertencia' es igual a 1.

Se disparará una alarma crítica si el estado 'crítico' es igual a 1.

5

Cargar

Nombre de métrica: Load

Advertencia MQL:

Load[1m]{LoadState = "Medium"}.mean() = 1

MQL Crítico:

Load[1m]{LoadState = "Heavy"}.mean() = 1
1 1

Carga total del PIA.

Se activará una alarma de advertencia si el estado "medio" es igual a 1.

Se activará una alarma crítica si el estado "pesado" es igual a 1.

5

Sockets en estado de espera

Nombre de métrica: WaitStateSockets

Advertencia MQL:

WaitStateSockets[5m].mean() > 100
> 100 n/a Número de sockets del servidor web que están en estado WAIT. Si hay más de 100 sockets de servidor web en estado WAIT, se activará una alarma de advertencia.
5

Errores Fatales

Nombre de métrica: FatalErrors

Advertencia MQL:

FatalErrors[5m].mean() > 0
> 0 n/a Número de errores fatales en los logs del servlet JOLTService. Si se produce algún error en el servlet JOLTService, se disparará una alarma de advertencia.

Motor de búsqueda PeopleSoft

  • Tipo de recurso: PeopleSoft Elasticsearch, PeopleSoft OpenSearch
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: elastic_search, open_search
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Cluster Estado

Nombre de la métrica: ClusterHealth

MQL:

ClusterHealth[1m]{Status = "Red"}.mean() = 1ClusterHealth[1m]{Status = "Yellow"}.mean() = 1
1 1

Estado general del cluster de motores de búsqueda.

Se activará una alerta de advertencia si el estado 'amarillo' es igual a 1.

Se disparará una alerta crítica si el estado 'rojo' es igual a 1.

10

Uso de Memoria

Nombre de métrica: MemoryUsage

MQL:

MemoryUsage[10m].mean()
> 80 > 90

Pila máxima configurada del nodo del motor de búsqueda.

Se disparará una alerta de advertencia si el uso de memoria es superior al 80 %.

Se disparará una alerta crítica si el uso de memoria es superior al 90 %.

PeopleSoft Supervisión de procesos

  • Tipo de recurso: PeopleSoft Monitor de procesos
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: oracle_psft_prcm
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
5

Estado de distribución activa

Nombre de métrica: ActiveDistributionState

MQL:

ActiveDistributionState[5m]{State = "NotPosted"}.mean() > 1
n/a > 1

Se disparará una alerta crítica si hay demasiados procesos en estado de distribución no contabilizada.

5

Estado de Ejecución

Nombre de métrica: ActiveRunState

MQL:

ActiveRunState[5m]{State = "NoSuccess"}.mean() > 1
n/a > 1

Se disparará una alerta crítica si hay demasiados procesos en ejecución sin estado correcto.

5

Estado de Ejecución

Nombre de métrica: RunStatus

MQL:

RunStatus[5m]{Status = "Error"}.mean() > 0
n/a > 0

Se disparará una alerta crítica si hay demasiados procesos en estado de error de ejecución.

Oracle Weblogic Server

Regla de alarma de ejemplo: Oracle Weblogic Server

  • Tipo de recurso: servidor OracleWeblogic
  • Espacio de nombre de métrica: oracle_appmgmt
  • Grupo de recursos: weblogic_j2eeserver
Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
3

WebLogic Servidor Inactivo

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarma crítica para cualquier servidor WebLogic en un compartimento determinado que informa que está inactivo o que no informa del estado durante más de 3 minutos.
5

Uso Alto de CPU

Nombre de métrica: CpuUtilization

Advertencia MQL:

CpuUtilization[5m].mean() > 80

MQL Crítico:

CpuUtilization[5m].mean() > 90

> 80 > 90

Alarma de advertencia para cualquier servidor WebLogic de un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier servidor WebLogic de un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.

5

Utilización de pila alta

Nombre de métrica: JVMMemroyUtilization

Advertencia MQL:

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 80

MQL Crítico:

JVMMemoryUtilization[5m]{Type = "Heap"}.mean() > 90
> 80 > 90

Alarma de advertencia para cualquier servidor WebLogic de un compartimento determinado que informe de un uso de pila superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier servidor WebLogic de un compartimento determinado que informe de un uso de pila superior al 90 % durante los últimos 5 minutos.

5

Threads estancados del gestor de trabajos

Nombre de métrica: WorkManagerStuckThreads

Advertencia:

WorkManagerStuckThreads[5m].mean() > 10

Critical:

WorkManagerStuckThreads[5m].mean() > 15
> 10 > 15

Alarma de advertencia para cualquier servidor WebLogic de un compartimento determinado que informe de más de 10 threads de parada del gestor de trabajo durante los últimos 5 minutos.

Alarma crítica para cualquier servidor WebLogic de un compartimento determinado que informe de más de 15 threads de parada del gestor de trabajo durante los últimos 5 minutos.

5

Solicitudes de conexión en espera

Nombre de métrica:

ServerConnectionPoolConnections

Advertencia MQL:

ServerConnectionPoolConnections[5m].mean() > 1

MQL Crítico:

ServerConnectionPoolConnections[5m].mean() > 2

>1 >2  
5

Tiempo de procesamiento de solicitudes de espera

Nombre de métrica: WebRequestProcessingTime

Advertencia:

WebRequestProcessingTime[5m].mean() > 10000

Critical:

WebRequestProcessingTime[5m].mean() > 15000
>10.000 >15.000  
5

Threads de pool de threads activos

Nombre de métrica: ThreadPoolThreads

Advertencia:

ThreadPoolThreads[5m]{Status = "Active"}.mean() > 1000

Critical:

ThreadPoolThreads[5m]{Status = "Active"}.mean() > 1250
>1.000 >1.250  

Regla de alarma de ejemplo: cluster de Oracle Weblogic Server

  • Tipo de recurso: cluster de Oracle Weblogic Server

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: weblogic_cluster

Período de Tiempo de Evaluación (Minutos) Regla de Alarmas Advertencia Importante Descripción
1

WebLogic Cluster caído

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier cluster WebLogic en un compartimento determinado que informa que está caído o que no informa del estado durante más de 1 minuto.

Reglas de alarma de ejemplo: Oracle HTTP Server (OHS)

  • Tipo de Recurso: Oracle HTTP Server

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_http_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
3

Oracle HTTP Server Caído

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarma crítica para cualquier instancia de Oracle HTTP Server de un compartimento determinado que informe de estado caído o que no informe de estado durante más de 3 minutos.
5

Uso Alto de CPU

Nombre de métrica: CPUUtilization

Advertencia MQL:

CPUUtilization[5m].mean() > 80

MQL Crítico:

CPUUtilization[5m].mean() > 90
>80 >90

Alarma de advertencia para cualquier Oracle HTTP Server de un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier Oracle HTTP Server de un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.

5

Uso Alto de Memoria

Nombre de métrica: MemoryUtilization

Advertencia MQL:

MemoryUtilization[5m].mean() > 80

MQL Crítico:

MemoryUtilization[5m].mean() > 90

>80 >90

Alarma de advertencia para cualquier Oracle HTTP Server de un compartimento determinado que informe de un uso de memoria superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier Oracle HTTP Server de un compartimento determinado que informe de un uso de memoria superior al 90 % durante los últimos 5 minutos.

5

Alto tiempo de procesamiento de solicitudes

Nombre de métrica: WebRequestProcessingTime

Advertencia MQL:

WebRequestProcessingTime[5m].mean() > 1500

MQL Crítico:

WebRequestProcessingTime[5m].mean() > 3000

>1.500 >3.000

La alarma de advertencia para cualquier instancia de Oracle HTTP Server de un compartimento determinado que informe más de 1500 ms significa tiempo de procesamiento de solicitud web para los últimos 5 minutos.

La alarma crítica para cualquier instancia de Oracle HTTP Server de un compartimento determinado con informes de más de 3000 ms significa tiempo de procesamiento de solicitud web para los últimos 5 minutos.

Oracle Identity Manager (OIM)

Regla de alarma de ejemplo: Oracle Identity Manager (OIM)

  • Tipo de Recurso: Cluster de Oracle Identity Manager/Oracle Identity Manager

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_oim / oracle_oim_cluster

Período de Tiempo de Evaluación (minutos) alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica: MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a < 1

Estado de disponibilidad del cluster/servidor de OIM.

Se disparará una alerta crítica si el valor de respuesta es distinto de 1.

15

Orquestación - Tiempo medio de ejecución

Nombre de métrica: Orchestration-AverageExecutionTime

MQL:

Orchestration-AverageExecutionTime[15m].mean() > 300 Orchestration-AverageExecutionTime[15m].mean() > 500
> 300 > 500

Tiempo medio de ejecución de orquestación

Se disparará una alerta de advertencia si el tiempo medio de ejecución de la orquestación es superior a 300 ms

Se disparará una alerta crítica si el tiempo medio de ejecución de la orquestación es superior a 500 ms

Oracle Access Manager (OAM)

Regla de alarma de ejemplo: Oracle Access Manager (OAM)

  • Tipo de recurso: cluster de Oracle Access Manager/Oracle Access Manager

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_oam / oracle_oam_cluster

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica: MonitoringStatus

MQL:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a < 1

Estado de disponibilidad del cluster/servidor de OAM.

Se disparará una alerta crítica si el valor de respuesta es distinto de 1.

5

Latencia de autorización

Nombre de métrica: AuthorizationLatency

MQL:

authorizationLatency[5m].mean() > 300 authorizationLatency[5m].mean() > 500
> 500 > 800

Latencia de Autorización

Se disparará una alerta de advertencia si la latencia de autorización es superior a 500 ms

Se disparará una alerta crítica si la latencia de autorización es superior a 800 ms

Oracle JVM

Tipo de Recurso: Tiempo de Ejecución de JVM de Oracle

ServerMetric Espacio de nombres: oracle_appmgmt

Grupo de recursos: oracle_jvm

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Inactividad de Tiempo de Ejecución de JVM de Oracle

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean()!=1||MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para que ya no se pueda conectar a Oracle JVM Runtime
5

Uso de la agrupación de memoria

Nombre de métrica: MemoryPoolUtilization

Nombre de dimensión: Type

Valor de dimensión: Used

Advertencia MQL:

MemoryPoolUtilization[5m]{Type="Used"}.mean()>80%

MQL Crítico:

MemoryPoolUtilization[5m]{Type=Used"}.mean()>90%
>80% >90% Porcentaje de memoria utilizada en agrupaciones de memoria en relación con el máximo disponible
5

Uso de Memoria de Pila Utilizada

Nombre de métrica:

HeapMemoryUtilization

Nombre de dimensión: Type

Valor de dimensión: Used

Advertencia MQL:

HeapMemoryUtilization[5m]{Type="Used"}.mean()>80%

MQL Crítico:

HeapMemoryUtilization[5m]{Type = "Used"}.mean() >90%
>80% >90% Porcentaje de memoria utilizada en la memoria de pila en relación con el máximo disponible.
5

Uso de Memoria No de Pila Usada

Nombre de métrica:

NonHeapMemoryUtilization

Nombre de dimensión: Type

Valor de dimensión: Used

Advertencia MQL:

NonHeapMemoryUtilization[5m]{Type="Used"}.mean()>80%

MQL Crítico:

NonHeapMemoryUtilization[5m]{Type = "Used"}.mean() >90%
>80% >90% Porcentaje de memoria utilizada en la memoria no de pila en relación con el máximo disponible.
5

Uso de CPU

Nombre de métrica:

CPUUtilization

Advertencia MQL:

CPUUtilization[5m]. mean() > 80%

MQL Crítico:

CPUUtilization[5m]. mean() > 90%
>80% >90% Porcentaje de recursos de CPU consumidos por el proceso de JVM

Apache HTTP Server

Tipo de recurso: Apache HTTP

ServerMetric Espacio de nombres: oracle_appmgmt

Grupo de recursos: apache_http_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
3

Apache HTTP Server caído

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[3m].mean() != 1 || MonitoringStatus[3m].absent()

n/a n/a Alarma crítica para cualquier servidor Apache HTTP Server de un compartimento determinado que informa que está caído o que no informa del estado durante más de 3 minutos.
5

Uso Alto de CPU

Nombre de métrica: CPUUtilization

Advertencia MQL:

CPUUtilization[5m].mean() > 80

MQL Crítico:

CPUUtilization[5m].mean() > 90

>80 >90

Alarma de advertencia para cualquier servidor Apache HTTP Server de un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos.

Alarma crítica para cualquier servidor Apache HTTP Server de un compartimento determinado que informe de un uso de CPU superior al 90% durante los últimos 5 minutos.

5

Uso Alto de Memoria

Nombre de métrica: MemoryUtilization

Advertencia MQL:

MemoryUtilization[5m].mean() > 80

MQL Crítico:

MemoryUtilization[5m].mean() > 90

>80 >90

Alarma de advertencia para cualquier servidor Apache HTTP Server de un compartimento determinado que informe de un uso de memoria superior al 80% durante los últimos 5 minutos.

Alarma crítica para cualquier Apache HTTP Server de un compartimento determinado que informe de un uso de memoria superior al 90% durante los últimos 5 minutos.

5

Alto tiempo de procesamiento de solicitudes

Nombre de métrica: WebRequestProcessingTime

Advertencia MQL:

WebRequestProcessingTime[5m].mean() > 1500

MQL Crítico:

WebRequestProcessingTime[5m].mean() > 3000

>1.500 >3.000

La alarma de advertencia para cualquier servidor Apache HTTP Server de un compartimento determinado que informe más de 1500 ms significa tiempo de procesamiento de solicitud web durante los últimos 5 minutos.

La alarma crítica para cualquier servidor Apache HTTP Server de un compartimento determinado que informe más de 3000 ms significa tiempo de procesamiento de solicitud web durante los últimos 5 minutos.

Oracle Unified Directory

Regla de alarma de ejemplo: Oracle Unified Directory (OUD)

  • Tipo de Recurso: Oracle Unified Directory

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oud_directory, oud_proxy, oud_gateway

alarma Advertencia Importante Descripción

Estado de Supervisión

Nombre de métrica: oud_base_status

MQL:

oud_base_status[1m].mean() != 1 || oud_base_status[1m].absent()
n/a < 1

Estado de disponibilidad del servidor de OUD.

Se disparará una alerta crítica si el valor de respuesta es menor que 1.

Manejador de conexiones - Estado

Nombre de métrica: ConnectionHandlerState

MQL:

ConnectionHandlerState[1m].mean() < 1
n/a <1

Manejador de conexiones - Estado

Se disparará una alerta crítica si el estado del manejador de conexiones es menor que 1.

Entradas de backend

Nombre de métrica: BackendEntries

Advertencia MQL:

BackendEntries[5m].mean() > 30

MQL Crítico:

BackendEntries[5m].mean() > 50
> 30 >50

Entradas de backend

Se disparará una alerta de advertencia si el tiempo de entradas de backend es superior a 30.

Se disparará una alerta crítica si las entradas de backend son mayores que 50.

Manejador de conexiones - Todo - Tiempo de residencia

Nombre de métrica: ConnectionHandlerAllResidentTime

Advertencia MQL:

ConnectionHandlerAllResidentTime[5m].mean() > 300

MQL Crítico:

ConnectionHandlerAllResidentTime[5m].mean() > 500
> 300 > 500

Manejador de conexiones - Todo - Tiempo de residencia

Se disparará una alerta de advertencia si el valor de Connection Handler All Resident Time es mayor que 60.

Se disparará una alerta crítica si el tiempo de todos los residentes del manejador de conexiones es superior a 90.

Manejador de conexiones - Conexiones

Nombre de métrica: ConnectionHandlerConnections

Advertencia MQL:

ConnectionHandlerConnections[5m].mean() > 30

MQL Crítico:

ConnectionHandlerConnections[5m].mean() > 50
> 30 >50

Manejador de conexiones - Conexiones

Se disparará una alerta de advertencia si las conexiones del manejador de conexiones son mayores que 30.

Se disparará una alerta crítica si las conexiones del manejador de conexiones son mayores que 50.

Memoria usada de JVM

Nombre de métrica: JVMUsedMemory

Advertencia MQL:

JVMUsedMemory[5m].mean() > 1.5

MQL Crítico:

JVMUsedMemory[5m].mean() > 3
> 1,5 > 3

Memoria usada de JVM

Se disparará una alerta de advertencia si la memoria utilizada de JVM supera los 1,5 mb.

Se disparará una alerta crítica si la memoria utilizada de JVM es superior a 3 mb.

Memoria usada de SO

Nombre de métrica: OSUsedMemory

Advertencia MQL:

OSUsedMemory[5m].mean() > 1.5

MQL Crítico:

OSUsedMemory[5m].mean() > 3
> 1,5 > 3

Memoria usada de SO

Se disparará una alerta de advertencia si la memoria utilizada del sistema operativo es superior a 1,5 mb.

Se disparará una alerta crítica si la memoria utilizada del sistema operativo es superior a 3 mb.

Estado de dominio de replicación

Nombre de métrica: ReplicationDomainState

MQL:

ReplicationDomainState[5m].mean() < 1
n/a < 1

Estado de dominio de replicación

Se disparará una alerta crítica si el estado del dominio de replicación es menor que 1.

Elemento de flujo de trabajo - Operaciones de tiempo de residencia - Tiempo total

Nombre de métrica: WFEResidentTimeOperationsTotalTime

Advertencia MQL:

WFEResidentTimeOperationsTotalTime[5m].mean() > 60

MQL Crítico:

WFEResidentTimeOperationsTotalTime[5m].mean() > 90
> 60 > 90

Flujo de trabajo - Operaciones de tiempo de residencia - Tiempo total

Se activará una alerta de advertencia si el tiempo total de operaciones de tiempo de residencia de WFE es superior a 60.

Se activará una alerta crítica si el tiempo total de operaciones de tiempo de residencia de WFE es mayor que 90.

Atraso actual de cola de trabajo

Nombre de métrica: WorkQueueCurrentBacklog

Advertencia MQL:

WorkQueueCurrentBacklog[5m].mean() > 15

MQL Crítico:

WorkQueueCurrentBacklog[5m].mean() > 30
> 15 > 30

Atrás actual de cola de trabajo

Se activará una alerta de advertencia si el atraso actual de la cola de trabajo es mayor que 15.

Se activará una alerta crítica si el atraso actual de la cola de trabajo es mayor que 30.

Extensión LDAP - Conexiones

Nombre de métrica: ExtensionLDAPConnections

Advertencia MQL:

ExtensionLDAPConnections[5m].mean() > 30

MQL Crítico:

ExtensionLDAPConnections[5m].mean() > 50
> 30 > 50

Extensión LDAP - Conexiones

Se disparará una alerta de advertencia si las conexiones LDAP de extensión son mayores que 30.

Se disparará una alerta crítica si las conexiones LDAP de extensión son mayores que 50.

Extensión LDAP - Operaciones - Tiempo de respuesta total

Nombre de métrica: ExtensionLDAPOperationsTotalResponseTime

Advertencia MQL:

ExtensionLDAPOperationsTotalResponseTime[5m].mean() > 60

MQL Crítico:

ExtensionLDAPOperationsTotalResponseTime[5m].mean() > 90
> 60 > 90

Extensión LDAP - Operaciones - Tiempo de respuesta total

Se disparará una alerta de advertencia si el tiempo total de respuesta de las operaciones de LDAP de extensión es mayor que 60.

Se disparará una alerta crítica si el tiempo total de respuesta de las operaciones de LDAP de extensión es mayor que 90.

Oracle GoldenGate

Regla de alarma de ejemplo: Goldengate

  • Tipo de recurso: Oracle Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Goldengate abajo

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier Goldengate en un compartimento determinado que informe de estado inactivo o no durante más de 1 minuto.

Regla de alarma de ejemplo: Goldengate AdminServer

  • Tipo de recurso: servidor de administración de Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_admin_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Servidor de administración de Goldengate caído

Nombre de métrica: MonitoringStatusCritical

MQL:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier Goldengate AdminServer de un compartimento determinado que informe de que está caído o de que no está informando del estado durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica:CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier servidor de administración Goldengate de un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier servidor de administración de Goldengate en un compartimento determinado que informe de más del 90% de uso de CPU durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de paquetes borrados

Nombre de métrica: DroppedPacketRate

Advertencia MQL:

DroppedPacketRate[5m].mean() > 30

MQL Crítico:

DroppedPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes descartados es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de paquetes descartada es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de paquetes que faltan

Nombre de métrica: MissingPacketRate

Advertencia MQL:

MissingPacketRate[5m].mean() > 30

MQL Crítico:

MissingPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes faltantes es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de paquetes faltantes es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de errores de paquete

Nombre de métrica: PacketErrorRate

Advertencia MQL:

PacketErrorRate[5m].mean() > 30

MQL Crítico:

PacketErrorRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de errores del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de errores del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de recepción de paquetes

Nombre de métrica: PacketReceiveRate

Advertencia MQL:

PacketReceiveRate[5m].mean() > 30

MQL Crítico:

PacketReceiveRate[5m].mean() > 40
30 40

Se activará una alerta de advertencia si la media de ratio de recepción del paquete es superior a 30 mensajes/min durante los últimos 5 minutos.

Se activará una alerta crítica si la media de ratio de recepción del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.

Regla de alarma de ejemplo: servicio de distribución Goldengate

  • Tipo de recurso: Goldengate Distribution Service

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_distribution_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Servicio de distribución de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítica: Estado de Supervisión

[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier servicio de distribución de Goldengate en un compartimento determinado que informe de estado inactivo o no durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier servicio de distribución Goldengate en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier servicio de distribución Goldengate en un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de paquetes borrados

Nombre de métrica: DroppedPacketRate

Advertencia MQL:

DroppedPacketRate[5m].mean() > 30

MQL Crítico:

DroppedPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes descartados es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de paquetes descartada es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de paquetes que faltan

Nombre de métrica: MissingPacketRate

Advertencia MQL:

MissingPacketRate[5m].mean() > 30

MQL Crítico:

MissingPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes faltantes es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de paquetes faltantes es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de errores de paquete

Nombre de métrica: PacketErrorRate

Advertencia MQL:

PacketErrorRate[5m].mean() > 30

MQL Crítico:

PacketErrorRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de errores del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de errores del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de recepción de paquetes

Nombre de métrica: PacketReceiveRate

Advertencia MQL:

PacketReceiveRate[5m].mean() > 30

MQL Crítico:

PacketReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de ratio de recepción del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de ratio de recepción del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.

Regla de alarma de ejemplo: servicio de receptor Goldengate

  • Tipo de recurso: servicio de receptor Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_receiver_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Servicio de receptor de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier servicio de receptor de Goldengate en un compartimento determinado que notifique que está caído o que no informa el estado durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier servicio de receptor Goldengate en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier servicio de receptor Goldengate en un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de paquetes borrados

Nombre de métrica: DroppedPacketRate p

Advertencia MQL:

DroppedPacketRate[5m].mean() > 30

MQL Crítico:

DroppedPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes descartados es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de paquetes descartada es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de paquetes que faltan

Nombre de métrica: MissingPacketRate

Advertencia MQL:

MissingPacketRate[5m].mean() > 30

MQL Crítico:

MissingPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes faltantes es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de paquetes faltantes es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de errores de paquete

Nombre de métrica: PacketErrorRate

Advertencia MQL:

PacketErrorRate[5m].mean() > 30

MQL Crítico:

PacketErrorRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de errores del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de errores del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de recepción de paquetes

Nombre de métrica: PacketReceiveRate

Advertencia MQL:

PacketReceiveRate[5m].mean() > 30

MQL Crítico:

PacketReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de ratio de recepción del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de ratio de recepción del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.

Regla de alarma de ejemplo: Goldengate Service Manager

  • Tipo de recurso: Goldengate Service Manager

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_service_manager

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Gestor de servicios de Goldengate

Nombre de métrica: MonitoringStatus

StatusCritical MQL:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier gestor de servicio de Goldengate en un compartimento determinado que informe de estado inactivo o no durante más de 1 minuto.

Regla de alarma de ejemplo: servicio de métricas de rendimiento de Goldengate

  • Tipo de recurso: servicio de métricas de rendimiento de Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_pm_server

Período de Tiempo de Evaluación (minutos) Regla de alarma Advertencia Importante Descripción
1

Servicio de métricas de desempeño de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier servicio de métrica de rendimiento de Goldengate en un compartimento determinado que informe de estado caído o que no informe de estado durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier servicio de métrica de rendimiento de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier servicio de métricas de rendimiento de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.

Regla de alarma de ejemplo: extracto de Goldengate

  • Tipo de recurso: extracto de Goldengate

  • Tipo de recurso: goldengate_extract

  • Grupo de recursos: oracle_goldengate_extract

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Extracto de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier extracto de Goldengate en un compartimento determinado que informe de estado inactivo o no durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier extracción de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier extracción de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de paquetes borrados

Nombre de métrica: DroppedPacketRate

Advertencia MQL:

DroppedPacketRate[5m].mean() > 30

MQL Crítico:

DroppedPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes descartados es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de paquetes descartada es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de paquetes que faltan

Nombre de métrica: MissingPacketRate

Advertencia MQL:

MissingPacketRate[5m].mean() > 30

MQL Crítico:

MissingPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes faltantes es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de paquetes faltantes es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de errores de paquete

Nombre de métrica: PacketErrorRate

Advertencia MQL:

PacketErrorRate[5m].mean() > 30

MQL Crítico:

PacketErrorRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de errores del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de errores del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de recepción de paquetes

Nombre de métrica: PacketReceiveRate

Advertencia MQL:

PacketReceiveRate[5m].mean() > 30

MQL Crítico:

PacketReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de ratio de recepción del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de ratio de recepción del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de supresiones asignadas

Nombre de métrica: MappedDeleteRate

Advertencia MQL:

MappedDeleteRate[5m].mean() > 30

MQL Crítico:

MappedDeleteRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de ratio de supresión asignada es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de ratio de supresión asignada es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de inserciones asignadas

Nombre de métrica: MappedInsertRate

Advertencia MQL:

MappedInsertRate[5m].mean() > 30

MQL Crítico:

MappedInsertRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de inserción asignado es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de inserción asignado es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de truncamientos asignados

Nombre de métrica: MappedTruncateRate

Advertencia MQL:

MappedTruncateRate[5m].mean() > 30

MQL Crítico:

MappedTruncateRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de truncamiento asignado es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de truncamiento asignado es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de actualizaciones asignadas

Nombre de métrica: MappedUpdateRate

Advertencia MQL:

MappedUpdateRate[5m].mean() > 30

MQL Crítico:

MappedUpdateRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de ratio de actualización asignada es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de ratio de actualización asignada es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de desechados

Nombre de métrica: DiscardRate

Advertencia MQL:

DiscardRate[5m].mean() > 30

MQL Crítico:

DiscardRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de descarte es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de descarte es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de ignoraciones

Nombre de métrica: IgnoreRate

Advertencia MQL:

IgnoreRate[5m].mean() > 30

MQL Crítico:

IgnoreRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de velocidad de omisión es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de velocidad de omisión es superior a 40 MB/s durante los últimos 5 minutos.
5

Lag

Nombre de métrica: Lag

Advertencia MQL:

Lag[5m].mean() > 10

MQL Crítico:

Lag[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de retraso es superior a 10 segundos durante los últimos 5 minutos. Se activará una alerta crítica si el promedio de retraso es superior a 20 segundos durante los últimos 5 minutos.
5

Ratio de operaciones

Nombre de métrica: OperationsPerSec

Advertencia MQL:

OperationsPerSec[5m].mean() > 30

MQL Crítico:

OperationsPerSec[5m].mean() > 40
20 30 Se activará una alerta de advertencia si la media de velocidad de operaciones es superior a 20 operaciones por segundo durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de operaciones es superior a 30 operaciones/s durante los últimos 5 minutos.

Regla de alarma de ejemplo: Goldengate Replicat

  • Tipo de recurso: Goldengate Replicat

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_replicat

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Replicación de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier réplica de Goldengate en un compartimento determinado que informe que está inactivo o que no informa el estado durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuTimeUtilizationPercentage

Advertencia MQL:

CpuTimeUtilizationPercentage[5m].mean() > 80

MQL Crítico:

CpuTimeUtilizationPercentage[5m].mean() > 90
80 90 Alarma de advertencia para cualquier réplica de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 80 % durante los últimos 5 minutos. Alarma crítica para cualquier réplica de Goldengate en un compartimento determinado que informe de un uso de CPU superior al 90 % durante los últimos 5 minutos.
5

Memoria privada

Nombre de métrica: PrivateMemory

Advertencia MQL:

PrivateMemory[5m].mean() > 30

MQL Crítico:

PrivateMemory[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de memoria privada es superior a 30 GB durante los últimos 5 minutos. Se disparará una alerta crítica si la media de memoria privada es superior a 40 GB durante los últimos 5 minutos.
5

Ratio de lectura de E/S

Nombre de métrica: IOReadRate

Advertencia MQL:

IOReadRate[5m].mean() > 10

MQL Crítico:

IOReadRate[5m].mean() > 20
10 20 Se activará una alerta de advertencia si la media de velocidad de lectura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la velocidad media de lectura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de escritura de E/S

Nombre de métrica: IOWriteRate

Advertencia MQL:

IOWriteRate[5m].mean() > 10

MQL Crítico:

IOWriteRate[5m].mean() > 20
10 20 Se disparará una alerta de advertencia si la media de velocidad de escritura de E/S es superior a 10 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si el ratio medio de escritura de E/S es superior a 20 MB/s durante los últimos 5 minutos.
5

Ratio de paquetes borrados

Nombre de métrica: DroppedPacketRate

Advertencia MQL:

DroppedPacketRate[5m].mean() > 30

MQL Crítico:

DroppedPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes descartados es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de paquetes descartada es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de paquetes que faltan

Nombre de métrica: MissingPacketRate

Advertencia MQL:

MissingPacketRate[5m].mean() > 30

MQL Crítico:

MissingPacketRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de paquetes faltantes es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de paquetes faltantes es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de errores de paquete

Nombre de métrica:

PacketErrorRate

Advertencia MQL:

PacketErrorRate[5m].mean() > 30

MQL Crítico:

PacketErrorRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de errores del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de errores del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de recepción de paquetes

Nombre de métrica: PacketReceiveRate

Advertencia MQL:

PacketReceiveRate[5m].mean() > 30

MQL Crítico:

PacketReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de ratio de recepción del paquete es superior a 30 mensajes/min durante los últimos 5 minutos. Se activará una alerta crítica si la media de ratio de recepción del paquete es superior a 40 mensajes/min durante los últimos 5 minutos.
5

Ratio de supresiones asignadas

Nombre de métrica: MappedDeleteRate

Advertencia MQL:

MappedDeleteRate[5m].mean() > 30

MQL Crítico:

MappedDeleteRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de ratio de supresión asignada es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de ratio de supresión asignada es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de inserciones asignadas

Nombre de métrica: MappedInsertRate

Advertencia MQL:

MappedInsertRate[5m].mean() > 30

MQL Crítico:

MappedInsertRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de inserción asignado es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de inserción asignado es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de truncamientos asignados

Nombre de métrica: MappedTruncateRate

Advertencia MQL:

MappedTruncateRate[5m].mean() > 30

MQL Crítico:

MappedTruncateRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media del ratio de truncamiento asignado es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media del ratio de truncamiento asignado es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de actualizaciones asignadas

Nombre de métrica: MappedUpdateRate

MQL de advertencia:

MappedUpdateRate[5m].mean() > 30

MQL Crítico:

MappedUpdateRate[5m].mean() > 40
30 40 Se disparará una alerta de advertencia si la media de ratio de actualización asignada es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de ratio de actualización asignada es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de desechados

Nombre de métrica: DiscardRate

MQL de advertencia:

DiscardRate[5m].mean() > 30

MQL Crítico:

DiscardRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de tasa de descarte es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de tasa de descarte es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de ignoraciones

Nombre de métrica: IgnoreRate

MQL de advertencia:

IgnoreRate[5m].mean() > 30

MQL Crítico:

IgnoreRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de velocidad de omisión es superior a 30 MB/s durante los últimos 5 minutos. Se disparará una alerta crítica si la media de velocidad de omisión es superior a 40 MB/s durante los últimos 5 minutos.
5

Lag

Nombre de métrica: Lag

MQL de advertencia:

Lag[5m].mean() > 30

MQL Crítico:

Lag[5m].mean() > 40
10 20 Se activará una alerta de advertencia si la media de retraso es superior a 10 segundos durante los últimos 5 minutos. Se activará una alerta crítica si el promedio de retraso es superior a 20 segundos durante los últimos 5 minutos.
5

Ratio de operaciones

Nombre de métrica: OperationsPerSec

MQL de advertencia:

OperationsPerSec[5m].mean() > 30

MQL Crítico:

OperationsPerSec[5m].mean() > 40
20 30 Se activará una alerta de advertencia si la media de velocidad de operaciones es superior a 20 operaciones por segundo durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de operaciones es superior a 30 operaciones/s durante los últimos 5 minutos.

Regla de alarma de ejemplo: Ruta de distribución de Goldengate

  • Tipo de recurso: Ruta de distribución de Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_distribution_path

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Ruta de distribución de Goldengate

Nombre de métrica: MonitoringStatus

MQL Crítico:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier ruta de distribución de Goldengate en un compartimento determinado que notifique que está inactiva o que no informa el estado durante más de 1 minuto.
5

Lag

Nombre de métrica: Lag

MQL de advertencia:

Lag[5m].mean() > 30

MQL Crítico:

Lag[5m].mean() > 40
10 20 Se activará una alerta de advertencia si la media de retraso es superior a 10 segundos durante los últimos 5 minutos. Se activará una alerta crítica si el promedio de retraso es superior a 20 segundos durante los últimos 5 minutos.
5

Ratio de envíos de red

Nombre de métrica: NetworkSentRate

MQL de advertencia:

NetworkSentRate[5m].mean() > 30

MQL crítica:

NetworkSentRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de velocidad de envío de red es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de envío de red es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de recepción de red

Nombre de métrica: NetworkReceiveRate

MQL de advertencia:

NetworkReceiveRate[5m].mean() > 30

MQL crítica:

NetworkReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de recepción enviada por la red es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de frecuencia de recepción de red es superior a 40 MB/s durante los últimos 5 minutos.

Regla de alarma de ejemplo: ruta de receptor de Goldengate

  • Tipo de recurso: ruta de receptor de Goldengate

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_goldengate_receiver_path

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Ruta de receptor de Goldengate

Nombre de métrica: MonitoringStatus

MQL crítica:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier ruta de receptor de Goldengate en un compartimento determinado que notifique que está inactiva o que no informa el estado durante más de 1 minuto.
5

Lag

Nombre de métrica: Lag

MQL de advertencia:

Lag[5m].mean() > 30

MQL crítica:

Lag[5m].mean() > 40
10 20 Se activará una alerta de advertencia si la media de retraso es superior a 10 segundos durante los últimos 5 minutos. Se activará una alerta crítica si el promedio de retraso es superior a 20 segundos durante los últimos 5 minutos.
5

Ratio de envíos de red

Nombre de métrica: NetworkSentRate

MQL de advertencia:

NetworkSentRate[5m].mean() > 30

MQL crítica:

NetworkSentRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de velocidad de envío de red es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de velocidad de envío de red es superior a 40 MB/s durante los últimos 5 minutos.
5

Ratio de recepción de red

Nombre de métrica: NetworkReceiveRate

MQL de advertencia:

NetworkReceiveRate[5m].mean() > 30

MQL crítica:

NetworkReceiveRate[5m].mean() > 40
30 40 Se activará una alerta de advertencia si la media de recepción enviada por la red es superior a 30 MB/s durante los últimos 5 minutos. Se activará una alerta crítica si la media de frecuencia de recepción de red es superior a 40 MB/s durante los últimos 5 minutos.

Reglas de alarma de ejemplo de recursos personalizados basadas en procesos

  • Tipo de recurso: Recurso personalizado

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: custom_resource

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Recursos Personalizados Caídos

Nombre de métrica: MonitoringStatus

MQL crítica:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier recurso personalizado de un compartimento determinado que esté caído o que no informe de estado durante más de 1 minuto.
5

Uso Alto de CPU

Nombre de métrica: CpuUtilization

MQL de advertencia:

CpuUtilization[1m].mean() > 80

MQL crítica:

CpuUtilization[1m].mean() > 90
>80 >90

Alarma de advertencia para cualquier recurso personalizado de un compartimento determinado que informe de un uso de CPU superior al 80 % en 5 minutos.

Alarma crítica para cualquier recurso personalizado en un compartimento determinado que informe de un uso de CPU superior al 90 % en 5 minutos.

15

Uso Alto de Memoria

Nombre de métrica: MemoryUtilization

MQL de advertencia:

MemoryUtilization[1m].mean() > 80

MQL crítica:

MemoryUtilization[1m].mean() > 90
>80 >90

Alarma de advertencia para cualquier recurso personalizado de un compartimento determinado que informe de un uso de memoria superior al 80 % en 15 minutos.

Alarma crítica para cualquier recurso personalizado en un compartimento determinado que informe de un uso de memoria superior al 90 % en 15 minutos.

Oracle Service Bus (OSB)

  • Tipo de Recurso: Oracle Service Bus

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: oracle_servicebus

Período de Tiempo de Evaluación (minutos) Regla de Alarmas Advertencia Importante Descripción
1

Estado de Supervisión

Nombre de métrica: MonitoringStatus

MQL crítica:

MonitoringStatus[1m].mean() == 0 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para cualquier Service Bus en un compartimento determinado que notifique que está caído o que no informa de estado durante más de 1 minuto.
5

Errores de Service Bus

Nombre de métrica: ServiceBusErrors

MQL crítica:

ServiceBusErrors[1m].mean() > 0
n/a >0 Alarma crítica para cualquier Service Bus de un compartimento determinado que informe cuando haya errores en cualquiera de los servicios de OSB durante más de 5 minutos.

IIS de Microsoft

  • Tipo de recurso: IIS

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: microsoft_iis

Período de Evaluación Tule de alarma Advertencia Importante Descripción
1

IIS caído

Nombre de métrica: MonitoringStatus

MQL crítica:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()

n/a n/a Alarma crítica para no poder conectarse a IIS
5

ASP.Net Reinicio de proceso de trabajador

Nombre de métrica: ASPDotNetWorkerProcessRestarts

MQL crítica:

ASPDotNetWorkerProcessRestarts[1m].mean() > 1
>1 n/a Alarma crítica para saber si hemos tenido algún reinicio de proceso de trabajador. Esto puede deberse a una serie de factores y causar problemas, como el impacto en el rendimiento y la pérdida de información.
5

ASP.Net Solicitudes en Cola

Nombre de métrica: ASPDotNetRequests.Type.Queued

MQL de advertencia:

ASPDotNetRequests.Type.Queued[1m].mean() > 5

MQL crítica:

ASPDotNetRequests.Type.Queued[1m].mean() > 10
>5 >10 Umbral crítico/de advertencia que nos permite saber si las solicitudes HTTP entrantes se están poniendo en una cola debido a la carga.
5

ASP.Net Ratio de Errores

Nombre de métrica: ErrorRate

MQL de advertencia:

ErrorRate[1m].mean() > 1%*

MQL crítica:

ErrorRate[1m].mean() > 2%*
> 1%* > 2%* Umbral crítico/de advertencia para alertar al usuario de que el ratio de errores de una aplicación ASP.Net está por encima de un umbral determinado. Esta métrica devuelve errores/segundo, por lo que el umbral se tendrá que definir en función del total medio de solicitudes obtenidas. Por ejemplo, si normalmente reciben 100 solicitudes por segundo, sugerimos 1 error para una advertencia y 2 para una crítica.
  • Tipo de recurso: Sitio web de IIS

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: microsoft_iis

Período de Tiempo de Evaluación (en minutos) Regla de Alarmas Advertencia Crítico Descripción
1

Sitio web de IIS caído

Nombre de métrica: MonitoringStatus

MQL crítica:

MonitoringStatus[1m].mean() != 1 || MonitoringStatus[1m].absent()
n/a n/a Alarma crítica para no poder conectarse al sitio web de IIS
5

Conexiones Actuales WWW

Nombre de métrica: CurrentConnections.Service.WWW

MQL de advertencia:

CurrentConnections.Service.WWW[1m].mean() > 90%*

MQL crítica:

CurrentConnections.Service.WWW[1m].mean() > 95%*
> 90%* > 95%* Umbral crítico/de advertencia para alertar al usuario de que el número de conexiones se está acercando al máximo. Tenga en cuenta que el cliente deberá establecer el número en 90 / 95% de sus conexiones máximas. La métrica es un número, por lo que esta alerta que se defina será única para cada cliente. Por ejemplo, si el usuario tiene 200 conexiones totales permitidas, sugerimos 180 para advertencia y 190 para crítica.

NGINX

  • Tipo de recurso: NGINX

  • Espacio de nombre de métrica: oracle_appmgmt

  • Grupo de recursos: nginx

Período de evaluación Regla de Alarmas Advertencia Crítico Descripción
3

Nginx caído

Nombre Mostrado: MonitoringStatus

MQL:

MonitoringStatus[3m].mean() != 1 ||MonitoringStatus[1m].absent()

n/a 0

Alarma por no poder conectarse al punto final de API de NGINX.

5

Ratio de procesos recuperados

Nombre de métrica: RespawnedProcessesRate

MQL de advertencia:

RespawnedProcessesRate[5m].mean() > 1

MQL crítica:

RespawnedProcessesRate[5m].mean() > 2

>1 >2

Número de procesos que se han vuelto a generar durante el intervalo.

5

Ratio de Comprobaciones del Sistema de Flujos Actuales HTTP No Correcto

Nombre de métrica: HttpUpstreamsHealthChecksRate

Nombre de dimensión: Type

Valor de dimensión: Unhealthy

MQL de advertencia:

HttpUpstreamsHealthChecksRate[5m]{Type = "Unhealthy"}.mean() > 1

>1 n/a

Estado no saludable detectado por NGINX que podría afectar negativamente al rendimiento o la disponibilidad.

5

Ratio de comprobaciones del sistema ascendentes de flujo: Estado incorrecto >1: estado incorrecto detectado por el rendimiento o la disponibilidad de NGINX

Nombre de métrica:

StreamUpstreamsHealthChecksRate

Nombre de dimensión: Type

Valor de dimensión: Unhealthy

MQL de advertencia:

StreamUpstreamsHealthChecksRate[5m] {Type = "Unhealthy"}.mean() > 1

>1 n/a

Estado no saludable detectado por NGINX que podría afectar negativamente al rendimiento o la disponibilidad

Extensiones de métricas

Puede crear reglas de alarma para disparar alarmas cuando los valores de métrica de las extensiones de métrica superen los umbrales. Utilice el mismo flujo de trabajo general que seguiría para crear una regla de alarma para las métricas incorporadas para los recursos. La principal diferencia está en la sección Metric description.

  • Compartimento: seleccione el compartimento del recurso en el que se ha activado la extensión de métrica
  • Espacio de nombres de métrica: seleccione oracle_metric_extensions_appmgmt
  • Grupo de recursos: tipo de recurso en el que se ha desplegado la extensión de métrica.

La creación de una regla de alarma para una extensión de métrica de un host se muestra en la siguiente imagen:


creación de reglas de alarma para extensiones de métricas