Gestión de métricas de cluster

Puede supervisar el estado, la capacidad y el rendimiento de los recursos de Big Data Service mediante métricas, alarmas y notificaciones.

Política de IAM necesaria

Para supervisar recursos, debe tener el tipo de acceso necesario en una política escrita por un administrador, tanto si utiliza la consola como la API de REST con un SDK, la CLI u otra herramienta. La política debe proporcionar acceso a los servicios de supervisión y a los recursos que se están supervisando. Si realiza una acción y obtiene un mensaje que le indica que no tiene permiso o no está autorizado, confirme con el administrador el tipo de acceso que se le ha otorgado y en qué compartimento trabajar. Para obtener información sobre las autorizaciones de usuario para la supervisión y las notificaciones, consulte la sección Autenticación y autorización de los siguientes servicios: Monitoring y Notifications.

Métricas disponibles: oci_big_data_service

Hay dos tipos de métricas disponibles para Big Data Service.

Métricas de cluster

Las métricas de cluster permiten obtener un informe de nivel de cluster y supervisar los diferentes indicadores de rendimiento clave distribuidos.

métricas de nodo

Las métricas de nodo permiten obtener informes de nivel de nodo y supervisar el estado de nodos individuales del cluster.

Big Data Service emite métricas cuando el VMS no está en buen estado. Por ejemplo, se emite una métrica cuando la máquina virtual está caída y no hay ninguna métrica cuando el VMS está activo o la máquina virtual está en estado PARADA.

Nota

Big Data Service no expone los eventos de mantenimiento relacionados con DenseIO mediante métricas si la acción de cálculo es DISABLE o TERMINATE.

Métricas de entidad de recurso

Las métricas de los tokens de sesión de entidad de recurso (RPST) ayudan a supervisar de forma proactiva el ciclo de vida, la validez y el estado de refrescamiento de los tokens.

Dimensiones de la métrica


Dimensión	Descripción
resourceId	OCID del nodo o cluster de Big Data Service, según la métrica.
clusterOcid	OCID del cluster de Big Data Service.
clusterName	Nombre del cluster de Big Data Service.
resourceType	`BigDataClusterNode` (para métricas de nodo) o `BigDataCluster` (para el nivel de cluster).
resourceDisplayName	Nombre de nodo, disponible en la interfaz de usuario de detalles de cluster.

Las métricas de Big Data Service incluyen las siguientes dimensiones:

resourceId
ID de Oracle Cloud (OCID) del cluster de Big Data Service (para métricas de cluster).

ID de Oracle Cloud (OCID) del nodo de Big Data Service (para métricas de nodo)
resourceType
BigDataCluster (para métricas de cluster)

BigDataClusterNode (para métricas de nodo)
resourceDisplayName
Este campo sirve como identificador único para cada entidad de métrica. El campo es el nombre del nodo que se puede encontrar en la página de detalles del cluster.

Dimensiones específicas de MaintenanceStatus

maintenanceDueTime
Hora de inicio programada de la ventana de mantenimiento de 24 horas.
computeMaintenanceAction
Acción que Oracle Cloud Infrastructure realiza en una instancia durante un mantenimiento programado.
- REBOOT: la instancia se migra desde el host físico que necesita mantenimiento a un host en buen estado. Si la migración activa no es posible, la instancia se migra con reinicio.
- REBUILD_IN_PLACE: la instancia se para, se reconstruye en el mismo hardware físico y se reinicia. Durante el proceso de mantenimiento, se produce un tiempo de inactividad de varias horas.
recommendedAction
Acción que puede realizar antes del evento del mantenimiento programado para que pueda controlar cómo y cuándo experimentan las aplicaciones tiempo de inactividad.
- REBOOT: puede reiniciar un nodo de cluster. Consulte Restarting a Cluster's Node.

Las métricas que aparecen en la siguiente tabla están disponibles automáticamente para cualquier cluster que cree. No necesita activar la supervisión en el recurso para obtener estas métricas.


Métrica	Nombre mostrado de la métrica	Unidad	Descripción	Tipo de recurso
`HdfsSpaceUsed`	Espacio usado de HDFS	Bytes	Espacio de HDFS total utilizado en el cluster	Cluster
`HdfsSpaceFree`	Espacio libre de HDFS	Bytes	Espacio de HDFS libre total utilizado en el cluster	Cluster
`YarnJobsCompleted`	Trabajos de Yarn completados	Trabajos/min	Número de trabajos de YARN completados en este cluster	Cluster
`SparkJobsCompleted`	Trabajos de Spark completados	Trabajos/min	Número de trabajos de Spark completados en este cluster	Cluster
`ServiceCertificateExpiryTime`	Tiempo de caducidad del certificado de servicio	días	Número de días que faltan para que caduque un certificado de servicio concreto en el cluster	Cluster
`CpuUtilization`	Uso de CPU	Porcentaje	Porcentaje de CPU usado	nodo
`DiskUtilization`	Uso de Disco	Bytes	Espacio en Disco utilizado	nodo
`MemoryUtilization`	Uso de memoria	Bytes	Uso total de memoria	nodo
`NetworkBytesIn`	Bytes de red entrantes	Bytes/min	Bytes de red entrantes por minuto	nodo
`NetworkBytesOut`	Bytes de red salientes	Bytes/min	Bytes de red salientes por minuto	nodo
`CertificateExpiryTime`	Tiempo de caducidad de certificado	días	Días hasta la caducidad del certificado	nodo
`MaintenanceStatus`	Estado de mantenimiento	Recuento	Un valor de 0 indica que el nodo no tiene ningún reinicio por mantenimiento programado. Un valor de 1 indica que el nodo tiene un reinicio por mantenimiento programado.	nodo
`ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold`	Alerta de caducidad de token	Booleano	Indica si el token RPST ha superado el 80 % de su vida útil.	BigDataClusterNode
`ResourcePrincipalSessionTokenStatus`	Estado de RPST	Recuento	1: Token caducado, 2: Falta el token. 0: token en buen estado.	BigDataClusterNode
`ResourcePrincipalTokenRefreshedInLast30Mins`	Estado de refrescamiento de token	Booleano	Indica si el token RPST se refrescó en los últimos 30 minutos en el nivel de cluster.	BigDataCluster

Documentación de Oracle Cloud Infrastructure

Gestión de métricas de cluster

Política de IAM necesaria

Métricas disponibles: oci_big_data_service