Gestion des mesures de cluster
Vous pouvez surveiller l'état, la capacité et les performances de vos ressources Big Data Service à l'aide de mesures, d'alarmes et de notifications.
Stratégie IAM requise
Pour surveiller des ressources, vous devez disposer du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisiez la console ou l'API REST avec un kit SDK, une CLI ou tout autre outil. La stratégie doit vous donner accès aux services de surveillance et aux ressources surveillées. Si vous effectuez une action et qu'un message vous indique que vous n'y êtes pas autorisé, vérifiez auprès de l'admin. le type d'accès qui vous a été accordé et le compartiment dans lequel vous souhaitez travailler. Pour plus d'informations sur les autorisations utilisateur liées à la surveillance et aux notifications, reportez-vous à la section Authentification et autorisation des services suivants : Monitoring et Notifications.
Mesures disponibles : oci_big_data_service
Les mesures de deux types sont disponibles pour Big Data Service.
- Mesures de cluster
-
Les mesures de cluster permettent d'obtenir un rapport au niveau du cluster et de surveiller les différents indicateurs de performances clés distribués.
- Mesures de noeud
-
Les mesures de noeud permettent d'obtenir des rapports de niveau noeud et de surveiller le statut de chaque noeud du cluster.
Big Data Service émet des mesures lorsque le VMS n'est pas en bon état. Par exemple, une mesure est émise lorsque la machine virtuelle est arrêtée, et aucune mesure lorsque le VMS est démarré ou que la machine virtuelle est à l'état STOPPED.
Remarque
Big Data Service ne présente pas les événements de maintenance associés à DenseIO via des mesures si l'action de calcul est DISABLE ou TERMINATE. - Métriques du principal de ressource
-
Les mesures des jetons de session de principal de ressource (RPST) permettent de surveiller de manière proactive le cycle de vie, la validité et le statut d'actualisation des jetons.
Dimensions de la mesure
Dimension Description resourceId OCID du cluster ou du noeud Big Data Service, selon la mesure. clusterOcid OCID du cluster Big Data Service. clusterName Nom du cluster Big Data Service. resourceType BigDataClusterNode
(pour les mesures de noeud) ouBigDataCluster
(pour le niveau du cluster).resourceDisplayName Nom de noeud, disponible dans l'interface utilisateur des détails du cluster.
Les mesures de Big Data Service incluent les dimensions suivantes :
- resourceId
ID Oracle Cloud (OCID) du cluster Big Data Service (pour les mesures de cluster).
ID Oracle Cloud (OCID) du noeud Big Data Service (pour les mesures de noeud)
- resourceType
BigDataCluster
(pour les mesures de cluster)BigDataClusterNode
(pour les mesures de noeud) - resourceDisplayName
Ce champ sert d'identificateur unique pour chaque entité de mesure. Le champ est le nom du noeud disponible sur la page de détails du cluster.
- maintenanceDueTime
Heure de début programmée de la fenêtre de maintenance de 24 heures.
- computeMaintenanceAction
Action qu'Oracle Cloud Infrastructure effectue sur une instance pendant une maintenance programmée.
REBOOT
: l'instance est migrée de l'hôte physique nécessitant une maintenance vers un hôte en bon état. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage.REBUILD_IN_PLACE
: l'instance est arrêtée, reconstruite sur le même matériel physique et redémarrée. Le processus de maintenance provoque un temps d'inactivité de plusieurs heures.
- recommendedAction
Action que vous pouvez réaliser avant l'événement de maintenance programmé, afin de contrôler la façon et le moment où vos applications subissent un temps d'inactivité.
REBOOT
: vous pouvez redémarrer un noeud de cluster. Reportez-vous à Redémarrage d'un noeud de cluster.
Les mesures répertoriées dans le tableau suivant sont automatiquement disponibles pour tous les clusters que vous créez. Vous n'avez pas besoin d'activer la surveillance sur la ressource pour obtenir ces mesures.
Mesure | Nom d'affichage de mesure | Unité | Description | Type de ressource |
---|---|---|---|---|
HdfsSpaceUsed |
Espace HDFS utilisé | octets | Espace HDFS total utilisé sur le cluster | Groupe |
HdfsSpaceFree |
Espace HDFS libre | octets | Espace HDFS libre total sur le cluster | Groupe |
YarnJobsCompleted |
Travaux Yarn terminés | Travaux/min | Nombre de travaux YARN terminés sur ce cluster | Groupe |
SparkJobsCompleted |
Travaux Spark terminés | Travaux/min | Nombre de travaux Spark terminés sur ce cluster | Groupe |
ServiceCertificateExpiryTime |
Délai d'expiration du certificat de service | Jours | Nombre de jours restants pour l'expiration d'un certificat de service particulier dans le cluster | Groupe |
CpuUtilization |
Utilisation de l'UC | Pourcentage | Pourcentage d'UC utilisé | noeud |
DiskUtilization |
Utilisation du disque | octets | Espace disque utilisé | noeud |
MemoryUtilization |
Utilisation de la mémoire | octets | Mémoire totale utilisée | noeud |
NetworkBytesIn |
Octets réseau entrants | Octets/min | Octets réseau entrants par minute | noeud |
NetworkBytesOut |
Octets réseau sortants | Octets/min | Octets réseau sortants par minute | noeud |
CertificateExpiryTime |
Heure d'expiration du certificat | Jours | Jours avant l'expiration du certificat | noeud |
MaintenanceStatus |
Statut de maintenance | Compte | La valeur 0 indique qu'aucun redémarrage de maintenance n'est programmé pour le noeud. La valeur 1 indique que le redémarrage de maintenance est programmé pour le noeud. | noeud |
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold |
Alerte d'expiration de jeton | Booléen | Indique si le jeton RPST a dépassé 80 % de sa durée de vie. | BigDataClusterNode |
ResourcePrincipalSessionTokenStatus |
Statut RPST | Comptage | 1 : jeton expiré, 2 : jeton manquant. 0 : jeton sain. | BigDataClusterNode |
ResourcePrincipalTokenRefreshedInLast30Mins |
Statut d'actualisation du jeton | Booléen | Indique si le jeton RPST a été actualisé au cours des 30 dernières minutes au niveau cluster. | BigDataCluster |