Mesures liées aux instances de calcul

Vous pouvez surveiller l'état, la capacité et la performance des instances de calcul à l'aide des mesures, des alarmes et des avis.

Cette rubrique décrit les mesures émises par l'espace de noms de mesure oci_computeagent (le plugiciel de surveillance des instances de calcul).

Vous pouvez voir ces mesures pour des instances de calcul individuelles et pour toutes les instances d'un groupe d'instances.

Ressources : Instances de calcul activées pour la surveillance.

Aperçu des mesures pour une instance et les ressources connexes

Cette section offre une image globale des différents types de mesures disponibles pour une instance, ainsi que son stockage et ses appareils réseau. Voir le diagramme et la table qui suivent pour un sommaire.

L'image montre les types de mesure disponibles pour une instance et ses composants connexes.


Espace de noms de mesure	ID ressource	Emplacement de mesure	Mesures disponibles
`oci_computeagent`	OCID de l'instance	Dans l'instance. Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, `DiskBytesRead` est agrégé pour tous les volumes de stockage attachés à l'instance et `NetworkBytesIn` est agrégé pour toutes les cartes vNIC attachées à l'instance.	Voir Mesures disponibles : oci_computeagent.
`oci_blockstore`	OCID du volume de démarrage ou du volume par blocs	Par le service Volumes par blocs. Les mesures concernent un volume individuel (un volume de démarrage ou un volume par blocs).	Voir Mesures du service de volumes par blocs.
`oci_vcn`	OCID de carte vNIC	Par le service de réseau. Les mesures sont destinées à une carte vNIC individuelle.	Voir Mesures des cartes vNIC.

Avant de commencer

Politiques IAM : Pour surveiller les ressources, le type d'accès requis doit vous être accordé dans une politique écrite par un administrateur, que vous utilisiez la console ou l'API REST avec une trousse SDK, l'interface de ligne de commande ou un autre outil. La politique doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et obtenez un message indiquant que vous ne disposez pas de l'autorisation requise, communiquez avec l'administrateur pour connaître le type d'accès qui vous a été octroyé et le compartiment que vous devez utiliser. Pour plus d'informations sur les autorisations d'utilisateur pour la surveillance, voir Politiques IAM.
Des mesures existent dans le service de surveillance : Les ressources que vous voulez surveiller doivent émettre des mesures dans le service de surveillance.
Instance de calcul : Pour émettre des mesures, le plugiciel de surveillance d'instance de calcul doit être activé sur l'instance et les plugiciels doivent être en cours d'exécution. L'instance doit également avoir une passerelle de service ou une adresse IP publique pour envoyer des mesures au service de surveillance. Pour plus d'informations, voir Activation de la surveillance pour les instances de calcul.

Mesures disponibles : oci_computeagent

Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance.

Pour les mesures émises par l'espace de noms de mesure oci_computeagent, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service de surveillance pour créer des interrogation personnalisées.

Chaque mesure comprend les dimensions suivantes :

availabilityDomain: Domaine de disponibilité où réside l'instance.
faultDomain: Domaine d'erreur où réside l'instance.
imageId: OCID de l'image pour l'instance.
instancePoolId: Groupe d'instances auquel appartient l'instance.
region: Région où réside l'instance.
resourceDisplayName: Nom convivial de l'instance.
resourceId: OCID de l'instance.
shape: Forme de l'instance.


Mesure	Nom d'affichage de la mesure	Unité	Description	Dimensions
`CpuUtilization`	Utilisation de l'UC	pourcentage	Niveau d'activité des unités centrales. Exprimée sous forme de pourcentage du temps total. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`DiskBytesRead` ^1, ³	Octets lus sur disque	octets	Débit de lecture. Exprimé en tant qu'octets lus par intervalle.
`DiskBytesWritten` ^1, ³	Octets écrits sur disque	octets	Débit d'écriture. Exprimé en tant qu'octets écrits par intervalle.
`DiskIopsRead` ^1, ³	E/S de lecture de disque	opérations	Niveau d'activité des lectures d'E/S. Exprimé en tant que lectures par intervalle.
`DiskIopsWritten` ^1, ³	E/S d'écriture sur disque	opérations	Niveau d'activité des écritures d'E/S. Exprimé en tant que nombre d'écritures par intervalle.
`LoadAverage`	Charge moyenne	nombre de processus	Charge système moyenne calculée sur une période de 1 minute.
`MemoryAllocationStalls`	Blocages d'affectation de mémoire	nombre de blocages	Nombre de fois où une réclamation de page a été appelée directement.
`MemoryUtilization` ¹	Utilisation de la mémoire	pourcentage	Espace actuellement utilisé. Mesuré en pages. Exprimée en tant que pourcentage des pages utilisées. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.
`NetworksBytesIn` ^1, ²	Octets reçus sur le réseau	octets	Débit de réception du réseau. Exprimée en tant qu'octets reçus.
`NetworksBytesOut` ^1, ²	Octets transmis sur le réseau	octets	Débit de transmission du réseau. Exprimée en tant qu'octets transmis.
¹ Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. ² Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_vcn`) pour chaque carte VNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau. ³ Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_blockstore`) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures disponibles : gpu_infrastructure_health

Pour les mesures émises par l'espace de noms de mesure gpu_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service de surveillance pour créer des interrogation personnalisées.

Chaque mesure comprend les dimensions suivantes :

composant: GPU ou rdma_nic
estampille: Heure UTC à laquelle les données utiles/battements de coeur sont émis
version: Numéro de version des données utiles pour la compatibilité


Mesure	Nom d'affichage de la mesure	Unité	Description	Dimensions
`GpuUtilization`	Utilisation de GPU	pourcentage	Niveau d'activité à partir du GPU. Exprimée sous forme de pourcentage du temps total. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.	`availabilityDomain` `faultDomain` `gpuId` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`GpuMemoryUtilization`	Utilisation de mémoire de GPU	pourcentage	Pourcentage de ressource de mémoire de GPU utilisé.
`GpuPowerDraw`	Consommation d'énergie du GPU	entier	Quantité de puissance GPU utilisée.
`GpuTemperature`	Température de GPU	entier	La température GPU indiquée.
`GpuEccSingleBitErrors`	Erreurs d'un seul bit de GPU	entier	Nombre d'erreurs ECC simple bit de GPU signalées.
`GpuEccDoubleBitErrors`	Erreurs double bit GPU	entier	Nombre d'erreurs ECC double bit de GPU signalées.
¹ Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. ² Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_vcn`) pour chaque carte VNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau. ³ Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_blockstore`) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures d'erreur : gpu_infrastructure_health


Mesure	Nom d'affichage de la mesure	Unité	Description	Dimensions
`Fault`	Défaillance de processeur graphique	Nombre	Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.	`availabilityDomain` `faultCode` `faultDomain` `gpuId` `imageId` `instancePoolId` `pcieAddress` `region` `resourceDisplayName` `resourceId` `shape`
¹ Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. ² Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_vcn`) pour chaque carte VNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau. ³ Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_blockstore`) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures disponibles : rdma_infrastructure_health

Pour les mesures émises par l'espace de noms de mesure rdma_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service de surveillance pour créer des interrogation personnalisées.

Chaque mesure comprend les dimensions suivantes :

composant: GPU ou rdma_nic
estampille: Heure UTC à laquelle les données utiles/battements de coeur sont émis
version: Numéro de version des données utiles pour la compatibilité


Mesure	Nom d'affichage de la mesure	Unité	Description	Dimensions
`RdmaTxBytes`	Octets transmis sur le réseau agrégé RDMA	octets	Octets transmis sur l'interface RDMA.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaRxBytes`	Octets reçus sur le réseau agrégé RDMA	octets	Octets reçus sur l'interface RDMA.
`RdmaTxPackets`	Paquets de transmission de réseau agrégé RDMA	entier	Nombre de paquets transmis sur l'interface RDMA.
`RdmaRxPackets`	Paquets de réception de réseau agrégé RDMA	entier	Nombre de paquets reçus sur l'interface RDMA.
¹ Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. ² Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_vcn`) pour chaque carte VNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau. ³ Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_blockstore`) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures d'erreur : rdma_infrastructure_health


Mesure	Nom d'affichage de la mesure	Unité	Description	Dimensions
`RdmaLinkSpeedFault`	Erreur	Nombre	Détecte si une erreur de vitesse de liaison est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `pcieAddress` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaPcieAddressFault`	Erreur	Nombre	Détecte si une erreur d'adresse PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.
`RdmaPcieBerCheckFault`	Erreur	Nombre	Détecte si une erreur PCIE BER est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.
`RdmaPcieCableFlapFault`	Erreur	Nombre	Détecte si un défaut de rabat de câble PCIE est présent. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.
`RdmaPcieCablePlugFault`	Erreur	Nombre	Détecte si une erreur de fiche de câble PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.
`RdmaPcieCableStateFault`	Erreur	Nombre	Détecte si une erreur d'état de câble PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.
¹ Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. ² Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_vcn`) pour chaque carte VNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau. ³ Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure `oci_blockstore`) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Utilisation de la console

Pour voir les graphiques de mesure par défaut pour une instance de calcul unique

Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
Cliquez sur l'instance qui vous intéresse.
Sous Ressources, cliquez sur Mesures.

Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.

La page Mesures affiche un jeu de graphiques par défaut pour l'instance courante.

Vous ne voyez aucun graphique de mesure pour l'instance?

Si aucun graphique de mesure ne s'affiche, il est possible que l'instance n'émet pas de mesures. Voir les causes possibles suivantes et les résolutions.


Cause possible	Comment vérifier	Résolution
Le plugiciel de surveillance d'instance de calcul est désactivé sur l'instance ou les plugiciels sont arrêtés.	Vérifiez les propriétés de l'instance.	Activez le plugiciel de surveillance d'instance de calcul et démarrez tous les plugiciels.
L'instance ne peut pas accéder au service de surveillance, car son VCN n'utilise pas Internet.	Vérifiez l'adresse IP de l'instance. Si elle n'est pas publique, une passerelle de service est nécessaire.	Configurer une passerelle de service.
L'instance n'utilise pas d'image prise en charge.	Vérifiez les images prises en charge.	Créer une instance avec une image prise en charge.
Anciennes images et images personnalisées : Aucun logiciel Oracle Cloud Agent n'existe sur l'instance.	Connectez-vous à l'instance et recherchez le logiciel.	Installez le logiciel Oracle Cloud Agent.
Un autre problème existe dans le logiciel Oracle Cloud Agent.	(sans objet)	Suivez les étapes de dépannage pour Oracle Cloud Agent.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.

Pour voir les graphiques de mesure par défaut des ressources associées à une instance de calcul

Pour un volume par blocs attaché : Lors de la consultation des détails de l'instance, sous Ressources, cliquez sur volumes par blocs attachés, puis sur le volume qui vous intéresse. Sous Resources, cliquez sur Mesures pour voir les graphiques du volume. Pour plus d'informations sur les mesures émises, voir Mesures du service de volumes par blocs.
Pour le volume de démarrage attaché : Lors de la consultation des détails de l'instance, sous Ressources, cliquez sur Volume de démarrage, puis sur le volume qui vous intéresse. Sous Resources, cliquez sur Mesures pour voir les graphiques du volume. Pour plus d'informations sur les mesures émises, voir Mesures du service de volumes par blocs.
Pour une carte VNIC attachée : Lors de la consultation des détails de l'instance, sous Ressources, cliquez sur Cartes VNIC attachées, puis sur la carte VNIC qui vous intéresse. Sous Resources, cliquez sur Mesures pour voir les graphiques de la carte VNIC. Pour plus d'informations sur les mesures émises, voir Mesures du service de réseau.

Pour voir les graphiques de mesure par défaut pour toutes les instances de calcul d'un compartiment

Ouvrez le menu de navigation et sélectionnez Observabilité et gestion. Sous Surveillance, sélectionnez Mesures de service.
Sélectionnez un compartiment.
Pour l'espace de noms de mesure, sélectionnez oci_computeagent.

La page Mesures de service est mise à jour de manière dynamique afin d'afficher les graphiques pour chaque mesure émise par l'espace de noms de mesure sélectionné.

Pour voir les graphiques de mesure par défaut pour les instances d'un groupe d'instances

Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Groupes d'instances.
Cliquez sur le groupe d'instances qui vous intéresse.
Sous Ressources, cliquez sur Mesures.
Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.

La page Mesures affiche un jeu de graphiques par défaut pour le groupe d'instances courant.

Utilisation de l'API

Pour plus d'informations sur l'utilisation de l'API et sur la signature des demandes, voir la documentation de l'API REST et Security Credentials. Pour plus d'informations sur les trousses SDK, voir Trousses SDK et interface de ligne de commande.

Utilisez les API suivantes pour la surveillance :

API de surveillance pour les mesures et les alarmes
API d'avis pour les avis (utilisée avec les alarmes)

Documentation sur Oracle Cloud Infrastructure

Mesures liées aux instances de calcul

Aperçu des mesures pour une instance et les ressources connexes

Avant de commencer

Mesures disponibles : oci_computeagent

Mesures disponibles : gpu_infrastructure_health

Mesures d'erreur : gpu_infrastructure_health

Mesures disponibles : rdma_infrastructure_health

Mesures d'erreur : rdma_infrastructure_health

Utilisation de la console

Utilisation de l'API