Gestion des mesures de cluster

Vous pouvez surveiller l'état, la capacité et les performances de vos ressources Big Data Service à l'aide de mesures, d'alarmes et de notifications.

Stratégie IAM requise

Pour surveiller des ressources, vous devez disposer du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisiez la console ou l'API REST avec un kit SDK, une CLI ou tout autre outil. La stratégie doit vous donner accès aux services de surveillance et aux ressources surveillées. Si vous effectuez une action et qu'un message vous indique que vous n'y êtes pas autorisé, vérifiez auprès de l'admin. le type d'accès qui vous a été accordé et le compartiment dans lequel vous souhaitez travailler. Pour plus d'informations sur les autorisations utilisateur liées à la surveillance et aux notifications, reportez-vous à la section Authentification et autorisation des services suivants : Monitoring et Notifications.

Mesures disponibles : oci_big_data_service

Les mesures de deux types sont disponibles pour Big Data Service.

Mesures de cluster

Les mesures de cluster permettent d'obtenir un rapport au niveau du cluster et de surveiller les différents indicateurs de performances clés distribués.

Mesures de noeud

Les mesures de noeud permettent d'obtenir des rapports de niveau noeud et de surveiller le statut de chaque noeud du cluster.

Big Data Service émet des mesures lorsque le VMS n'est pas en bon état. Par exemple, une mesure est émise lorsque la machine virtuelle est arrêtée, et aucune mesure lorsque le VMS est démarré ou que la machine virtuelle est à l'état STOPPED.

Remarque

Big Data Service ne présente pas les événements de maintenance associés à DenseIO via des mesures si l'action de calcul est DISABLE ou TERMINATE.
Métriques du principal de ressource

Les mesures des jetons de session de principal de ressource (RPST) permettent de surveiller de manière proactive le cycle de vie, la validité et le statut d'actualisation des jetons.

Dimensions de la mesure

Dimension Description
resourceId OCID du cluster ou du noeud Big Data Service, selon la mesure.
clusterOcid OCID du cluster Big Data Service.
clusterName Nom du cluster Big Data Service.
resourceType BigDataClusterNode (pour les mesures de noeud) ou BigDataCluster (pour le niveau du cluster).
resourceDisplayName Nom de noeud, disponible dans l'interface utilisateur des détails du cluster.

Les mesures de Big Data Service incluent les dimensions suivantes :

  • resourceId

    ID Oracle Cloud (OCID) du cluster Big Data Service (pour les mesures de cluster).

    ID Oracle Cloud (OCID) du noeud Big Data Service (pour les mesures de noeud)

  • resourceType

    BigDataCluster (pour les mesures de cluster)

    BigDataClusterNode (pour les mesures de noeud)

  • resourceDisplayName

    Ce champ sert d'identificateur unique pour chaque entité de mesure. Le champ est le nom du noeud disponible sur la page de détails du cluster.

MaintenanceStatus dimensions spécifiques
  • maintenanceDueTime

    Heure de début programmée de la fenêtre de maintenance de 24 heures.

  • computeMaintenanceAction

    Action qu'Oracle Cloud Infrastructure effectue sur une instance pendant une maintenance programmée.

    • REBOOT : l'instance est migrée de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage.
    • REBUILD_IN_PLACE : l'instance est arrêtée, reconstruite sur le même matériel physique et redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
  • recommendedAction

    Action que vous pouvez réaliser avant l'événement de maintenance programmé, afin de contrôler la façon et le moment où vos applications subissent un temps d'inactivité.

Les mesures répertoriées dans le tableau suivant sont automatiquement disponibles pour tous les clusters que vous créez. Vous n'avez pas besoin d'activer la surveillance sur la ressource pour obtenir ces mesures.

Mesure Nom d'affichage de mesure Unité Description Type de ressource
HdfsSpaceUsed Espace HDFS utilisé octets Espace HDFS total utilisé sur le cluster Groupe
HdfsSpaceFree Espace HDFS libre octets Espace HDFS libre total sur le cluster Groupe
YarnJobsCompleted Travaux Yarn terminés Travaux/min Nombre de travaux YARN terminés sur ce cluster Groupe
SparkJobsCompleted Travaux Spark terminés Travaux/min Nombre de travaux Spark terminés sur ce cluster Groupe
ServiceCertificateExpiryTime Délai d'expiration du certificat de service Jours Nombre de jours restants pour l'expiration d'un certificat de service particulier dans le cluster Groupe
CpuUtilization Utilisation de l'UC Pourcentage Pourcentage d'UC utilisé noeud
DiskUtilization Utilisation du disque octets Espace disque utilisé noeud
MemoryUtilization Utilisation de la mémoire octets Mémoire totale utilisée noeud
NetworkBytesIn Octets réseau entrants Octets/min Octets réseau entrants par minute noeud
NetworkBytesOut Octets réseau sortants Octets/min Octets réseau sortants par minute noeud
CertificateExpiryTime Heure d'expiration du certificat Jours Jours avant l'expiration du certificat noeud
MaintenanceStatus Statut de maintenance Compte La valeur 0 indique qu'aucun redémarrage de maintenance n'est programmé pour le noeud. La valeur 1 indique que le redémarrage de maintenance est programmé pour le noeud. noeud
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Alerte d'expiration de jeton Booléen Indique si le jeton RPST a dépassé 80 % de sa durée de vie. BigDataClusterNode
ResourcePrincipalSessionTokenStatus Statut RPST Comptage 1 : jeton expiré, 2 : jeton manquant. 0 : jeton sain. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Statut d'actualisation du jeton Booléen Indique si le jeton RPST a été actualisé au cours des 30 dernières minutes au niveau cluster. BigDataCluster