Gestion des mesures de grappe

Vous pouvez surveiller l'état, la capacité et la performance des ressources du service de mégadonnées à l'aide de mesures, d'alarmes et d'avis.

Politique GIA requise

Pour que vous puissiez surveiller des ressources, le type d'accès requis doit vous être accordé dans une politique écrite par un administrateur, que vous utilisiez la console ou l'API REST avec une trousse SDK, l'interface de ligne de commande ou un autre outil. La politique doit vous donner accès aux services de surveillance et aux ressources surveillées. Si vous effectuez une action et obtenez un message indiquant que vous ne disposez pas de l'autorisation requise, vérifiez auprès de l'administrateur le type d'accès qui vous a été octroyé et le compartiment à utiliser. Pour plus d'informations sur les autorisations d'utilisateur pour la surveillance et les avis, voir la section Authentification et autorisation pour les services suivants : Surveillance et Avis.

Mesures disponibles : oci_big_data_service

Deux types de mesure sont disponibles pour le service de mégadonnées.

Mesures de grappe

Les mesures de cluster vous permettent d'obtenir un rapport au niveau du cluster et de surveiller les différents indicateurs de performance clés distribués.

Mesures de noeud

Les mesures de noeud vous permettent d'obtenir des rapports au niveau du noeud et de surveiller le statut des noeuds individuels de la grappe.

Le service de mégadonnées émet des mesures lorsque le VMS n'est pas sain. Par exemple, une mesure est émise lorsque la machine virtuelle est arrêtée, et aucune mesure lorsque le VMS est actif ou que la machine virtuelle est à l'état STOPPED.

Note

Le service de mégadonnées n'affiche pas les événements de maintenance associés à DenseIO au moyen de mesures si l'action de calcul est DISABLE ou TERMINATE.
Mesures du principal de ressource

Les mesures des jetons de session du principal de ressource (RPST) permettent de surveiller de manière proactive le cycle de vie, la validité et le statut d'actualisation des jetons.

Dimensions de la mesure

Dimension Description
resourceId OCID du noeud ou de la grappe du service de mégadonnées, selon la mesure.
clusterOcid OCID de la grappe du service de mégadonnées.
clusterName Nom de la grappe du service de mégadonnées.
resourceType BigDataClusterNode (pour les mesures de noeud) ou BigDataCluster (au niveau de la grappe).
resourceDisplayName Nom du noeud, disponible dans l'interface utilisateur des détails de la grappe.

Les mesures du service de mégadonnées comprennent les dimensions suivantes :

  • resourceId

    ID Oracle Cloud (OCID) de la grappe du service de mégadonnées (pour les mesures de grappe).

    ID Oracle Cloud (OCID) du noeud du service de mégadonnées (pour les mesures de noeud)

  • resourceType

    BigDataCluster (pour les mesures de grappe)

    BigDataClusterNode (pour les mesures de noeud)

  • resourceDisplayName

    Ce champ sert d'identificateur unique pour chaque entité de mesure. Le champ est le nom du noeud qui se trouve dans la page Détails de la grappe.

MaintenanceStatus dimensions spécifiques
  • maintenanceDueTime

    Heure de début programmée de la fenêtre de maintenance de 24 heures.

  • computeMaintenanceAction

    Action effectuée par Oracle Cloud Infrastructure sur une instance lors d'une maintenance programmée.

    • REBOOT : L'instance est migrée de l'hôte physique qui a besoin d'une maintenance vers un hôte sain. Si la migration en direct n'est pas possible, l'instance est migrée au redémarrage.
    • REBUILD_IN_PLACE : L'instance est arrêtée, reconstruite sur le même matériel physique, et redémarrée. Un temps d'arrêt de plusieurs heures se produit pendant le processus de maintenance.
  • recommendedAction

    Action que vous pouvez entreprendre avant l'événement de maintenance programmée pour contrôler comment et quand vos applications connaissent des temps d'arrêt.

Les mesures indiquées dans le tableau suivant sont automatiquement disponibles pour toutes les grappes que vous créez. Il n'est pas nécessaire d'activer la surveillance de la ressource pour obtenir ces mesures.

Mesure Nom d'affichage de la mesure Unité Description Type de ressource
HdfsSpaceUsed Espace HDFS utilisé Octets Espace HDFS total utilisé sur la grappe Cluster
HdfsSpaceFree Espace libre HDFS Octets Espace HDFS libre total sur la grappe Cluster
YarnJobsCompleted Tâches Yarn terminées Tâches/minute Nombre de tâches YARN terminées sur cette grappe Cluster
SparkJobsCompleted Tâches Spark terminées Tâches/minute Nombre de tâches Spark terminées sur cette grappe Cluster
ServiceCertificateExpiryTime Délai d'expiration du certificat de service Jours Nombre de jours restants avant l'expiration d'un certificat de service particulier dans la grappe Cluster
CpuUtilization Utilisation d'UC Pourcentage Pourcentage d'UC utilisé Noeud
DiskUtilization Utilisation de disque Octets Espace disque utilisé Noeud
MemoryUtilization Utilisation de mémoire Octets Mémoire totale utilisée Noeud
NetworkBytesIn Octets de réseau entrants Octets/minute Octets de réseau entrants par minute Noeud
NetworkBytesOut Octets de réseau sortants Octets/minute Octets de réseau sortants par minute Noeud
CertificateExpiryTime Heure d'expiration du certificat Jours Nombre de jours avant l'expiration du certificat Noeud
MaintenanceStatus Statut de maintenance Compte La valeur 0 indique que le noeud n'a pas de redémarrage de maintenance programmé. La valeur 1 indique que le noeud a un redémarrage de maintenance programmé. Noeud
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Alerte d'expiration de jeton Boolean Indique si le jeton RPST a dépassé 80 % de sa durée de vie. BigDataClusterNode
ResourcePrincipalSessionTokenStatus Statut RPST Nombre 1 : Jeton expiré, 2 : Jeton manquant. 0 : Jeton sain. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Statut d'actualisation du jeton Boolean Indique si le jeton RPST a été actualisé au cours des 30 dernières minutes au niveau de la grappe. BigDataCluster