Gestión de métricas de cluster
Puede supervisar el estado, la capacidad y el rendimiento de los recursos de Big Data Service mediante métricas, alarmas y notificaciones.
Política de IAM necesaria
Para supervisar recursos, debe tener el tipo de acceso necesario en una política escrita por un administrador, tanto si utiliza la consola como la API de REST con un SDK, la CLI u otra herramienta. La política debe proporcionar acceso a los servicios de supervisión y a los recursos que se están supervisando. Si realiza una acción y obtiene un mensaje que le indica que no tiene permiso o no está autorizado, confirme con el administrador el tipo de acceso que se le ha otorgado y en qué compartimento trabajar. Para obtener información sobre las autorizaciones de usuario para la supervisión y las notificaciones, consulte la sección Autenticación y autorización de los siguientes servicios: Monitoring y Notifications.
Métricas disponibles: oci_big_data_service
Hay dos tipos de métricas disponibles para Big Data Service.
- Métricas de cluster
-
Las métricas de cluster permiten obtener un informe de nivel de cluster y supervisar los diferentes indicadores de rendimiento clave distribuidos.
- métricas de nodo
-
Las métricas de nodo permiten obtener informes de nivel de nodo y supervisar el estado de nodos individuales del cluster.
Big Data Service emite métricas cuando el VMS no está en buen estado. Por ejemplo, se emite una métrica cuando la máquina virtual está caída y no hay ninguna métrica cuando el VMS está activo o la máquina virtual está en estado PARADA.
Nota
Big Data Service no expone los eventos de mantenimiento relacionados con DenseIO mediante métricas si la acción de cálculo es DISABLE o TERMINATE. - Métricas de entidad de recurso
-
Las métricas de los tokens de sesión de entidad de recurso (RPST) ayudan a supervisar de forma proactiva el ciclo de vida, la validez y el estado de refrescamiento de los tokens.
Dimensiones de la métrica
Dimensión Descripción resourceId OCID del nodo o cluster de Big Data Service, según la métrica. clusterOcid OCID del cluster de Big Data Service. clusterName Nombre del cluster de Big Data Service. resourceType BigDataClusterNode
(para métricas de nodo) oBigDataCluster
(para el nivel de cluster).resourceDisplayName Nombre de nodo, disponible en la interfaz de usuario de detalles de cluster.
Las métricas de Big Data Service incluyen las siguientes dimensiones:
- resourceId
ID de Oracle Cloud (OCID) del cluster de Big Data Service (para métricas de cluster).
ID de Oracle Cloud (OCID) del nodo de Big Data Service (para métricas de nodo)
- resourceType
BigDataCluster
(para métricas de cluster)BigDataClusterNode
(para métricas de nodo) - resourceDisplayName
Este campo sirve como identificador único para cada entidad de métrica. El campo es el nombre del nodo que se puede encontrar en la página de detalles del cluster.
- maintenanceDueTime
Hora de inicio programada de la ventana de mantenimiento de 24 horas.
- computeMaintenanceAction
Acción que Oracle Cloud Infrastructure realiza en una instancia durante un mantenimiento programado.
REBOOT
: la instancia se migra desde el host físico que necesita mantenimiento a un host en buen estado. Si la migración activa no es posible, la instancia se migra con reinicio.REBUILD_IN_PLACE
: la instancia se para, se reconstruye en el mismo hardware físico y se reinicia. Durante el proceso de mantenimiento, se produce un tiempo de inactividad de varias horas.
- recommendedAction
Acción que puede realizar antes del evento del mantenimiento programado para que pueda controlar cómo y cuándo experimentan las aplicaciones tiempo de inactividad.
REBOOT
: puede reiniciar un nodo de cluster. Consulte Reinicio de un nodo de cluster.
Las métricas que aparecen en la siguiente tabla están disponibles automáticamente para cualquier cluster que cree. No necesita activar la supervisión en el recurso para obtener estas métricas.
Métrica | Nombre mostrado de la métrica | Unidad | Descripción | Tipo de recurso |
---|---|---|---|---|
HdfsSpaceUsed |
Espacio usado de HDFS | Bytes | Espacio de HDFS total utilizado en el cluster | Cluster |
HdfsSpaceFree |
Espacio libre de HDFS | Bytes | Espacio de HDFS libre total utilizado en el cluster | Cluster |
YarnJobsCompleted |
Trabajos de Yarn completados | Trabajos/min | Número de trabajos de YARN completados en este cluster | Cluster |
SparkJobsCompleted |
Trabajos de Spark completados | Trabajos/min | Número de trabajos de Spark completados en este cluster | Cluster |
ServiceCertificateExpiryTime |
Tiempo de caducidad del certificado de servicio | días | Número de días que faltan para que caduque un certificado de servicio concreto en el cluster | Cluster |
CpuUtilization |
Uso de CPU | Porcentaje | Porcentaje de CPU usado | nodo |
DiskUtilization |
Uso de Disco | Bytes | Espacio en Disco utilizado | nodo |
MemoryUtilization |
Uso de memoria | Bytes | Uso total de memoria | nodo |
NetworkBytesIn |
Bytes de red entrantes | Bytes/min | Bytes de red entrantes por minuto | nodo |
NetworkBytesOut |
Bytes de red salientes | Bytes/min | Bytes de red salientes por minuto | nodo |
CertificateExpiryTime |
Tiempo de caducidad de certificado | días | Días hasta la caducidad del certificado | nodo |
MaintenanceStatus |
Estado de mantenimiento | Recuento | Un valor de 0 indica que el nodo no tiene ningún reinicio por mantenimiento programado. Un valor de 1 indica que el nodo tiene un reinicio por mantenimiento programado. | nodo |
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold |
Alerta de caducidad de token | Booleano | Indica si el token RPST ha superado el 80 % de su vida útil. | BigDataClusterNode |
ResourcePrincipalSessionTokenStatus |
Estado de RPST | Recuento | 1: Token caducado, 2: Falta el token. 0: token en buen estado. | BigDataClusterNode |
ResourcePrincipalTokenRefreshedInLast30Mins |
Estado de refrescamiento de token | Booleano | Indica si el token RPST se refrescó en los últimos 30 minutos en el nivel de cluster. | BigDataCluster |