Gestion des mesures de cluster

Vous pouvez surveiller l'état, la capacité et les performances de vos ressources Big Data Service à l'aide de mesures, d'alarmes et de notifications.

Stratégie IAM requise

Pour surveiller des ressources, vous devez disposer du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisiez la console ou l'API REST avec un kit SDK, une CLI ou tout autre outil. La stratégie doit vous donner accès aux services de surveillance et aux ressources surveillées. Si vous effectuez une action et qu'un message vous indique que vous n'y êtes pas autorisé, vérifiez auprès de l'admin. le type d'accès qui vous a été accordé et le compartiment dans lequel vous souhaitez travailler. Pour plus d'informations sur les autorisations utilisateur liées à la surveillance et aux notifications, reportez-vous à la section Authentification et autorisation des services suivants : Monitoring et Notifications.

Mesures disponibles : oci_big_data_service

Les mesures de deux types sont disponibles pour Big Data Service.

Mesures de cluster

Les mesures de cluster permettent d'obtenir un rapport au niveau du cluster et de surveiller les différents indicateurs de performances clés distribués.

Mesures de noeud

Les mesures de noeud permettent d'obtenir des rapports de niveau noeud et de surveiller le statut de chaque noeud du cluster.

Big Data Service émet des mesures lorsque le VMS n'est pas en bon état. Par exemple, une mesure est émise lorsque la machine virtuelle est arrêtée, et aucune mesure lorsque le VMS est démarré ou que la machine virtuelle est à l'état STOPPED.

Remarque

Big Data Service ne présente pas les événements de maintenance associés à DenseIO via des mesures si l'action de calcul est DISABLE ou TERMINATE.

Métriques du principal de ressource

Les mesures des jetons de session de principal de ressource (RPST) permettent de surveiller de manière proactive le cycle de vie, la validité et le statut d'actualisation des jetons.

Dimensions de la mesure


Dimension	Description
resourceId	OCID du cluster ou du noeud Big Data Service, selon la mesure.
clusterOcid	OCID du cluster Big Data Service.
clusterName	Nom du cluster Big Data Service.
resourceType	`BigDataClusterNode` (pour les mesures de noeud) ou `BigDataCluster` (pour le niveau du cluster).
resourceDisplayName	Nom de noeud, disponible dans l'interface utilisateur des détails du cluster.

Les mesures de Big Data Service incluent les dimensions suivantes :

resourceId
ID Oracle Cloud (OCID) du cluster Big Data Service (pour les mesures de cluster).

ID Oracle Cloud (OCID) du noeud Big Data Service (pour les mesures de noeud)
resourceType
BigDataCluster (pour les mesures de cluster)

BigDataClusterNode (pour les mesures de noeud)
resourceDisplayName
Ce champ sert d'identificateur unique pour chaque entité de mesure. Le champ est le nom du noeud disponible sur la page de détails du cluster.

MaintenanceStatus dimensions spécifiques

maintenanceDueTime
Heure de début programmée de la fenêtre de maintenance de 24 heures.
computeMaintenanceAction
Action qu'Oracle Cloud Infrastructure effectue sur une instance pendant une maintenance programmée.
- REBOOT : l'instance est migrée de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage.
- REBUILD_IN_PLACE : l'instance est arrêtée, reconstruite sur le même matériel physique et redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
recommendedAction
Action que vous pouvez réaliser avant l'événement de maintenance programmé, afin de contrôler la façon et le moment où vos applications subissent un temps d'inactivité.
- REBOOT : vous pouvez réinitialiser un noeud de cluster. Reportez-vous à Redémarrage du noeud d'un cluster.

Les mesures répertoriées dans le tableau suivant sont automatiquement disponibles pour tous les clusters que vous créez. Vous n'avez pas besoin d'activer la surveillance sur la ressource pour obtenir ces mesures.


Mesure	Nom d'affichage de mesure	Unité	Description	Type de ressource
`HdfsSpaceUsed`	Espace HDFS utilisé	octets	Espace HDFS total utilisé sur le cluster	Groupe
`HdfsSpaceFree`	Espace HDFS libre	octets	Espace HDFS libre total sur le cluster	Groupe
`YarnJobsCompleted`	Travaux Yarn terminés	Travaux/min	Nombre de travaux YARN terminés sur ce cluster	Groupe
`SparkJobsCompleted`	Travaux Spark terminés	Travaux/min	Nombre de travaux Spark terminés sur ce cluster	Groupe
`ServiceCertificateExpiryTime`	Délai d'expiration du certificat de service	Jours	Nombre de jours restants pour l'expiration d'un certificat de service particulier dans le cluster	Groupe
`CpuUtilization`	Utilisation de l'UC	Pourcentage	Pourcentage d'UC utilisé	noeud
`DiskUtilization`	Utilisation du disque	octets	Espace disque utilisé	noeud
`MemoryUtilization`	Utilisation de la mémoire	octets	Mémoire totale utilisée	noeud
`NetworkBytesIn`	Octets réseau entrants	Octets/min	Octets réseau entrants par minute	noeud
`NetworkBytesOut`	Octets réseau sortants	Octets/min	Octets réseau sortants par minute	noeud
`CertificateExpiryTime`	Heure d'expiration du certificat	Jours	Jours avant l'expiration du certificat	noeud
`MaintenanceStatus`	Statut de maintenance	Compte	La valeur 0 indique qu'aucun redémarrage de maintenance n'est programmé pour le noeud. La valeur 1 indique que le redémarrage de maintenance est programmé pour le noeud.	noeud
`ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold`	Alerte d'expiration de jeton	Booléen	Indique si le jeton RPST a dépassé 80 % de sa durée de vie.	BigDataClusterNode
`ResourcePrincipalSessionTokenStatus`	Statut RPST	Comptage	1 : jeton expiré, 2 : jeton manquant. 0 : jeton sain.	BigDataClusterNode
`ResourcePrincipalTokenRefreshedInLast30Mins`	Statut d'actualisation du jeton	Booléen	Indique si le jeton RPST a été actualisé au cours des 30 dernières minutes au niveau cluster.	BigDataCluster

Documentation Oracle Cloud Infrastructure

Gestion des mesures de cluster

Stratégie IAM requise

Mesures disponibles : oci_big_data_service