Gestión de métricas de cluster

Política de IAM necesaria

Para supervisar recursos, debe tener el tipo de acceso necesario en una política escrita por un administrador, tanto si utiliza la consola como la API de REST con un SDK, la CLI u otra herramienta. La política debe proporcionar acceso a los servicios de supervisión y a los recursos que se están supervisando. Si realiza una acción y obtiene un mensaje que le indica que no tiene permiso o no está autorizado, confirme con el administrador el tipo de acceso que se le ha otorgado y en qué compartimento trabajar. Para obtener información sobre las autorizaciones de usuario para la supervisión y las notificaciones, consulte la sección Autenticación y autorización de los siguientes servicios: Monitoring y Notifications.

Métricas disponibles: oci_big_data_service

Hay dos tipos de métricas disponibles para Big Data Service.

Métricas de cluster

Las métricas de cluster permiten obtener un informe de nivel de cluster y supervisar los diferentes indicadores de rendimiento clave distribuidos.

métricas de nodo

Las métricas de nodo permiten obtener informes de nivel de nodo y supervisar el estado de nodos individuales del cluster.

Big Data Service emite métricas cuando el VMS no está en buen estado. Por ejemplo, se emite una métrica cuando la máquina virtual está caída y no hay ninguna métrica cuando el VMS está activo o la máquina virtual está en estado PARADA.

Nota

Big Data Service no expone los eventos de mantenimiento relacionados con DenseIO mediante métricas si la acción de cálculo es DISABLE o TERMINATE.
Métricas de entidad de recurso

Las métricas de los tokens de sesión de entidad de recurso (RPST) ayudan a supervisar de forma proactiva el ciclo de vida, la validez y el estado de refrescamiento de los tokens.

Dimensiones de la métrica

Dimensión Descripción
resourceId OCID del nodo o cluster de Big Data Service, según la métrica.
clusterOcid OCID del cluster de Big Data Service.
clusterName Nombre del cluster de Big Data Service.
resourceType BigDataClusterNode (para métricas de nodo) o BigDataCluster (para el nivel de cluster).
resourceDisplayName Nombre de nodo, disponible en la interfaz de usuario de detalles de cluster.

Las métricas de Big Data Service incluyen las siguientes dimensiones:

  • resourceId

    ID de Oracle Cloud (OCID) del cluster de Big Data Service (para métricas de cluster).

    ID de Oracle Cloud (OCID) del nodo de Big Data Service (para métricas de nodo)

  • resourceType

    BigDataCluster (para métricas de cluster)

    BigDataClusterNode (para métricas de nodo)

  • resourceDisplayName

    Este campo sirve como identificador único para cada entidad de métrica. El campo es el nombre del nodo que se puede encontrar en la página de detalles del cluster.

Dimensiones específicas de MaintenanceStatus
  • maintenanceDueTime

    Hora de inicio programada de la ventana de mantenimiento de 24 horas.

  • computeMaintenanceAction

    Acción que Oracle Cloud Infrastructure realiza en una instancia durante un mantenimiento programado.

    • REBOOT: la instancia se migra desde el host físico que necesita mantenimiento a un host en buen estado. Si la migración activa no es posible, la instancia se migra con reinicio.
    • REBUILD_IN_PLACE: la instancia se para, se reconstruye en el mismo hardware físico y se reinicia. Durante el proceso de mantenimiento, se produce un tiempo de inactividad de varias horas.
  • recommendedAction

    Acción que puede realizar antes del evento del mantenimiento programado para que pueda controlar cómo y cuándo experimentan las aplicaciones tiempo de inactividad.

Las métricas que aparecen en la siguiente tabla están disponibles automáticamente para cualquier cluster que cree. No necesita activar la supervisión en el recurso para obtener estas métricas.

Métrica Nombre mostrado de la métrica Unidad Descripción Tipo de recurso
HdfsSpaceUsed Espacio usado de HDFS Bytes Espacio de HDFS total utilizado en el cluster Cluster
HdfsSpaceFree Espacio libre de HDFS Bytes Espacio de HDFS libre total utilizado en el cluster Cluster
YarnJobsCompleted Trabajos de Yarn completados Trabajos/min Número de trabajos de YARN completados en este cluster Cluster
SparkJobsCompleted Trabajos de Spark completados Trabajos/min Número de trabajos de Spark completados en este cluster Cluster
ServiceCertificateExpiryTime Tiempo de caducidad del certificado de servicio días Número de días que faltan para que caduque un certificado de servicio concreto en el cluster Cluster
CpuUtilization Uso de CPU Porcentaje Porcentaje de CPU usado nodo
DiskUtilization Uso de Disco Bytes Espacio en Disco utilizado nodo
MemoryUtilization Uso de memoria Bytes Uso total de memoria nodo
NetworkBytesIn Bytes de red entrantes Bytes/min Bytes de red entrantes por minuto nodo
NetworkBytesOut Bytes de red salientes Bytes/min Bytes de red salientes por minuto nodo
CertificateExpiryTime Tiempo de caducidad de certificado días Días hasta la caducidad del certificado nodo
MaintenanceStatus Estado de mantenimiento Recuento Un valor de 0 indica que el nodo no tiene ningún reinicio por mantenimiento programado. Un valor de 1 indica que el nodo tiene un reinicio por mantenimiento programado. nodo
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Alerta de caducidad de token Booleano Indica si el token RPST ha superado el 80 % de su vida útil. BigDataClusterNode
ResourcePrincipalSessionTokenStatus Estado de RPST Recuento 1: Token caducado, 2: Falta el token. 0: token en buen estado. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Estado de refrescamiento de token Booleano Indica si el token RPST se refrescó en los últimos 30 minutos en el nivel de cluster. BigDataCluster