Mesures d'instance Compute

Vous pouvez surveiller l'état, la capacité et les performances de vos instances de calcul à l'aide de mesures, d'alarmes et de notifications.

Cette rubrique décrit les mesures émises par l'espace de mots de passe de mesure oci_computeagent (module d'extension de surveillance d'instance de Compute sur les instances de calculer).

Vous pouvez visualiser ces mesures pour des instances de calcul individuelles et pour toutes les instances d'un pool d'instances.

Ressources : instances de calcul  pour lesquelles la surveillance est activée.

Présentation des mesures relatives à une instance et des ressources connexes

Cette section donne un aperçu global des différents types de mesure disponibles pour une instance et ses périphériques réseau et de stockage. Reportez-vous au diagramme et au tableau suivants pour obtenir un récapitulatif.

Cette image montre les types de mesure disponibles pour une instance et les composants associés.

Espace de noms de mesure ID de ressource Emplacement de la mesure Mesures disponibles
oci_computeagent OCID d'instance Sur l'instance. Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.

Reportez-vous à Mesures disponibles : oci_computeagent.

oci_blockstore OCID de volume d'initialisation ou de blocs Par le service Block Volume. Ces mesures concernent un volume individuel (volume d'initialisation ou volume de blocs). Reportez-vous à Mesures de Block Volume.
oci_vcn OCID de carte d'interface réseau virtuelle Par le service Networking. Ces mesures concernent une carte d'interface réseau virtuelle individuelle.

Reportez-vous à Mesures de carte d'interface réseau virtuelle.

Avant de commencer

  • Stratégies IAM : pour surveiller des ressources, vous devez bénéficier du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisiez la console ou l'API REST avec un kit SDK, une interface d'interface de ligne de page ou tout autre outil. La stratégie doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et qu'un message vous indique que vous n'y êtes pas autorisé, contactez l'administrateur pour savoir quel type d'accès vous a été accordé et dans quel compartiment vous devez travailler. Pour plus d'informations sur les autorisations utilisateurs liées à la surveillance, reportez-vous à Stratégies IAM.
  • Il existe des mesures dans Monitoring : les ressources à surveiller doivent émettre des mesures au service Monitoring.
  • Instances Compute : pour émettre des mesures, le modules d'extension de surveillance d'instance Compute doit être activé sur l'instance et les modules d'application doivent être en cours d'exécution. L'instance doit également disposer d'une passerelle de service ou d'une adresse IP publique pour envoyer des indicateurs au service Monitoring. Pour plus d'informations, reportez-vous à Activation de la surveillance pour les instances Compute.

Mesures disponibles : oci_computeagent

Les mesures d'instance de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.

Pour les mesures émises par l'espace de noms de mesure oci_computeagent, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.

Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.

Chaque mesure inclut les dimensions  suivantes :

availabilityDomain
Domaine de disponibilité dans lequel réside l'instance.
faultDomain
Domaine de pannes dans lequel l'instance réside.
imageId
OCID de l'image  de l'instance.
instancePoolId
Pool d'instances auquel appartient l'instance.
region
Région  dans laquelle réside l'instance.
resourceDisplayName
Nom convivial de l'instance.
resourceId
OCID  de l'instance.
shape
Forme  de l'instance.
Mesure Nom d'affichage de mesure Unité Description Dimensions
CpuUtilization Utilisation de l'UC pourcentage

Niveau d'activité de l'UC. Exprimé en pourcentage du temps total.

Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool.

availabilityDomain

faultDomain

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

DiskBytesRead 1, 3 Octets de lecture sur disque octets Débit de lecture. Exprimé en octets lus par intervalle.
DiskBytesWritten 1, 3 Octets d'écriture sur disque octets Débit d'écriture. Exprimé en octets écrits par intervalle.
DiskIopsRead 1, 3 E/S de lecture sur disque opérations Niveau d'activité à partir des lectures d'E/S. Exprimé en lectures par intervalle.
DiskIopsWritten 1, 3 E/S d'écriture sur disque opérations Niveau d'activité à partir des écritures d'E/S. Exprimé en écritures par intervalle.
LoadAverage Charge moyenne nombre de processus Charge système moyenne calculée sur une période d'une minute.
MemoryAllocationStalls Arrêts d'allocation de mémoire nombre d'arrêts Nombre de fois où une réclamation de page a été directement appelée.
MemoryUtilization 1 Utilisation de la mémoire pourcentage

Espace en cours d'utilisation. Mesuré en pages. Exprimé en pourcentage de pages utilisées.

Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool.

NetworksBytesIn 1, 2 Octets de réception réseau octets

Débit de réception réseau. Exprimé en octets reçus.

NetworksBytesOut 1, 2 Octets de transmission réseau octets Débit de transmission réseau. Exprimé en octets transmis.

1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.

2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures oci_vcn) pour chaque carte d'interface réseau locale de l'instance. Pour plus d'informations, reportez-vous à Mesures de Networking.

3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, reportez-vous à Mesures de Block Volume.

Mesures disponibles : gpu_infrastructure_health

Les mesures d'instance de calcul vous aident à mesurer l'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.

Pour les mesures émises par l'espace de noms de mesure gpu_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.

Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.

Chaque mesure inclut les dimensions  suivantes :

component
GPU ou rdma_nic
horodatage
Heure UTC à laquelle la charge utile/le signal d'activité est émis
version
Numéro de version de la charge utile pour la compatibilité
Mesure Nom d'affichage de mesure Unité Description Dimensions
GpuUtilization Utilisation du GPU pourcentage

Niveau d'activité du GPU. Exprimé en pourcentage du temps total.

Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool.

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization Utilisation de la mémoire GPU pourcentage Pourcentage de la ressource mémoire GPU en cours d'utilisation
GpuPowerDraw Consommation d'énergie de GPU entier Quantité d'énergie de GPU utilisée.
GpuTemperature Température de GPU entier Température du GPU signalée.
GpuEccSingleBitErrors Erreurs simples GPU entier Nombre d'erreurs simples d'ECC de GPU signalées.
GpuEccDoubleBitErrors Erreurs double de bit de GPU entier Nombre d'erreurs ECC double de bit de GPU signalées.

1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.

2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures oci_vcn) pour chaque carte d'interface réseau locale de l'instance. Pour plus d'informations, reportez-vous à Mesures de Networking.

3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, reportez-vous à Mesures de Block Volume.

Mesures des Incidents : gpu_infrastructure_health

Mesure Nom d'affichage de mesure Unité Description Dimensions
Fault Erreur de GPU inventaire

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.

2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures oci_vcn) pour chaque carte d'interface réseau locale de l'instance. Pour plus d'informations, reportez-vous à Mesures de Networking.

3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, reportez-vous à Mesures de Block Volume.

Mesures disponibles : rdma_infrastructure_health

Les mesures d'instance de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.

Pour les mesures émises par l'espace de noms de mesure rdma_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.

Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.

Chaque mesure inclut les dimensions  suivantes :

component
GPU ou rdma_nic
horodatage
Heure UTC à laquelle la charge utile/le signal d'activité est émis
version
Numéro de version de la charge utile pour la compatibilité
Mesure Nom d'affichage de mesure Unité Description Dimensions
RdmaTxBytes Octets de transmission réseau agrégés RDMA octets Octets transmis sur l'interface RDMA.

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes Octets de réception réseau agrégés RDMA octets Octets reçus sur l'interface RDMA.
RdmaTxPackets paquets de transmission réseau agrégés RDMA entier Nombre de paquets d'interface RDMA transmis.
RdmaRxPackets paquets de réception de réseau agrégé RDMA entier Nombre de paquets d'interface RDMA reçus.

1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.

2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures oci_vcn) pour chaque carte d'interface réseau locale de l'instance. Pour plus d'informations, reportez-vous à Mesures de Networking.

3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, reportez-vous à Mesures de Block Volume.

Mesures des Incidents : rdma_infrastructure_health

Mesure Nom d'affichage de mesure Unité Description Dimensions
RdmaLinkSpeedFault Erreurs inventaire Détecte si une erreur de vitesse de liaison est présente.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault Erreurs inventaire Détecte si une erreur d'adresse PCIE est présente.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieBerCheckFault Erreurs inventaire Détecte si une panne PCIE BER est présente.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCableFlapFault Erreurs inventaire Détecte la présence d'une panne de volet de câble PCIE.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCablePlugFault Erreurs inventaire Détecte si une panne de prise de câble PCIE est présente.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCableStateFault Erreurs inventaire Détecte si une panne d'état de câble PCIE est présente.

Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées.

1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.

2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures oci_vcn) pour chaque carte d'interface réseau locale de l'instance. Pour plus d'informations, reportez-vous à Mesures de Networking.

3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, reportez-vous à Mesures de Block Volume.

Utilisation de la console

Procédure de visualisation des graphiques de mesures pour une instance de calcul unique
  1. Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
  2. Cliquez sur l'instance qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesures, sélectionnez oci_computeagent.

    La page Mesures affiche un ensemble de graphiques par défaut pour l'instance en cours.

    Aucun graphique de mesures n'apparaît pour l'instance ?

    Si aucun graphique de mesures n'apparaît, l'instance n'émet peut-être pas de mesures. Reportez-vous aux causes possibles et aux résolutions suivantes.

    Cause possible Vérification Résolution
    Le plug-in de surveillance des instances de calcul est désactivé sur l'instance ou des modules d'application sont arrêtés. Vérifiez les propriétés de l'instance. Activez le module d'extension et démarrez tous les modules d'extension de surveillance des instances de calcul.
    L'instance ne peut pas accéder au service Monitoring car son VCN n'utilise pas Internet. Vérifiez l'adresse IP de l'instance. Si elle n'est pas publique, une passerelle de service est nécessaire. Configurez une passerelle de service.
    L'instance n'utilise pas d'image prise en charge. Vérifiez les images prises en charge. Créez une instance avec une image prise en charge.
    Images plus anciennes et images personnalisées : aucun logiciel d'agent Oracle Cloud n'existe sur l'instance. Connectez-vous à l'instance et recherchez le logiciel. Installez le logiciel d'agent Oracle Cloud.
    Le logiciel d'agent Oracle Cloud pose un problème. (non applicable) Suivez les étapes du dépannage de l'agent Oracle Cloud.

    Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.

Procédure de visualisation des graphiques de mesures par défaut pour toutes les instances de calcul d'un compartiment
  1. Ouvrez le menu de navigation et sélectionnez Observation & gestion. Sous Surveillance, sélectionnez Mesures de service.
  2. Sélectionnez un compartiment.
  3. Pour Espace de noms de mesures, sélectionnez oci_computeagent.

    La page Mesures de service est mise à jour de façon dynamique afin d'afficher les graphiques de chaque mesure émise par l'espace de noms de mesure sélectionné.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.

Procédure de visualisation des graphiques de mesures par défaut des instances d'un pool
  1. Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Pools d'instances.
  2. Cliquez sur le pool d'instances qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesures, sélectionnez oci_computeagent.

    La page Mesures affiche un ensemble de graphiques par défaut pour le pool d'instances en cours.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.