Mesures liées aux instances de calcul

Vous pouvez surveiller l'état, la capacité et la performance des instances de calcul à l'aide des mesures, des alarmes et des avis.

Cette rubrique décrit les mesures émises par l'espace de noms de mesure oci_computeagent (le plugiciel de surveillance des instances de calcul).

Vous pouvez voir ces mesures pour des instances de calcul individuelles et pour toutes les instances d'un groupe d'instances.

Ressources : Instances de calcul activées pour la surveillance.

Aperçu des mesures pour une instance et les ressources connexes

Cette section offre une image globale des différents types de mesures disponibles pour une instance, ainsi que son stockage et ses appareils réseau. Voir le diagramme et la table qui suivent pour un sommaire.

L'image montre les types de mesure disponibles pour une instance et ses composants connexes.

Espace de noms de mesure ID ressource Emplacement de mesure Mesures disponibles
oci_computeagent OCID de l'instance Dans l'instance. Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance.

Voir Mesures disponibles : oci_computeagent.

oci_blockstore OCID du volume de démarrage ou du volume par blocs Par le service Volumes par blocs. Les mesures concernent un volume individuel (un volume de démarrage ou un volume par blocs). Voir Mesures du service de volumes par blocs.
oci_vcn OCID de carte vNIC Par le service de réseau. Les mesures sont destinées à une carte vNIC individuelle.

Voir Mesures des cartes vNIC.

Avant de commencer

  • Politiques IAM : Pour surveiller les ressources, le type d'accès requis doit vous être accordé dans une politique écrite par un administrateur, que vous utilisiez la console ou l'API REST avec une trousse SDK, l'interface de ligne de commande ou un autre outil. La politique doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et obtenez un message indiquant que vous ne disposez pas de l'autorisation requise, communiquez avec l'administrateur pour connaître le type d'accès qui vous a été octroyé et le compartiment que vous devez utiliser. Pour plus d'informations sur les autorisations d'utilisateur pour la surveillance, voir Politiques IAM.
  • Des mesures existent dans le service de surveillance : Les ressources que vous voulez surveiller doivent émettre des mesures dans le service de surveillance.
  • Instances de calcul : Pour émettre des mesures, le plugiciel de surveillance d'instance de calcul doit être activé sur l'instance et les plugiciels doivent être en cours d'exécution. L'instance doit également avoir une passerelle de service ou une adresse IP publique pour envoyer des mesures au service de surveillance. Pour plus d'informations, voir Activation de la surveillance pour les instances de calcul.

Mesures disponibles : oci_computeagent

Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance.

Pour les mesures émises par l'espace de noms de mesure oci_computeagent, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.

Chaque mesure comprend les dimensions suivantes :

availabilityDomain
Domaine de disponibilité où réside l'instance.
faultDomain
Domaine d'erreur où réside l'instance.
imageId
OCID de l'image pour l'instance.
instancePoolId
Groupe d'instances auquel appartient l'instance.
region
Région où réside l'instance.
resourceDisplayName
Nom convivial de l'instance.
resourceId
OCID de l'instance.
shape
Forme de l'instance.
Mesure Nom d'affichage de la mesure Unité Description Dimensions
CpuUtilization Utilisation de l'UC pourcentage

Niveau d'activité des unités centrales. Exprimée sous forme de pourcentage du temps total.

Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.

availabilityDomain

faultDomain

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

DiskBytesRead1, 3 Octets lus sur disque octets Débit de lecture. Exprimé en tant qu'octets lus par intervalle.
DiskBytesWritten1, 3 Octets écrits sur disque octets Débit d'écriture. Exprimé en tant qu'octets écrits par intervalle.
DiskIopsRead1, 3 E/S de lecture de disque opérations Niveau d'activité des lectures d'E/S. Exprimé en tant que lectures par intervalle.
DiskIopsWritten1, 3 E/S d'écriture sur disque opérations Niveau d'activité des écritures d'E/S. Exprimé en tant que nombre d'écritures par intervalle.
LoadAverage Charge moyenne nombre de processus Charge système moyenne calculée sur une période de 1 minute.
MemoryAllocationStalls Blocages d'affectation de mémoire nombre de blocages Nombre de fois où une réclamation de page a été appelée directement.
MemoryUtilization1 Utilisation de la mémoire pourcentage

Espace actuellement utilisé. Mesuré en pages. Exprimée en tant que pourcentage des pages utilisées.

Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.

NetworksBytesIn1, 2 Octets reçus sur le réseau octets

Débit de réception du réseau. Exprimée en tant qu'octets reçus.

NetworksBytesOut1, 2 Octets transmis sur le réseau octets Débit de transmission du réseau. Exprimée en tant qu'octets transmis.

1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation.

2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_vcn) pour chaque carte vNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau.

3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures disponibles : gpu_infrastructure_health

Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance.

Pour les mesures émises par l'espace de noms de mesure gpu_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.

Chaque mesure comprend les dimensions suivantes :

composant
GPU ou rdma_nic
heure
Heure UTC à laquelle les données utiles/le battement de coeur sont émis
version
Numéro de version des données utiles pour la compatibilité
Mesure Nom d'affichage de la mesure Unité Description Dimensions
GpuUtilization Utilisation GPU pourcentage

Niveau d'activité du GPU. Exprimée sous forme de pourcentage du temps total.

Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe.

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization Utilisation de mémoire GPU pourcentage Pourcentage de la ressource de mémoire GPU utilisée.
GpuPowerDraw Puissance du processeur graphique nombre entier Quantité de puissance GPU utilisée.
GpuTemperature Température du GPU nombre entier La température du GPU rapportée.
GpuEccSingleBitErrors Erreurs mono-bit du processeur graphique nombre entier Nombre d'erreurs du Centre de contrôle de GPU à bit unique signalées.
GpuEccDoubleBitErrors Erreurs double bits du processeur graphique nombre entier Nombre d'erreurs ECC à double bit GPU signalées.

1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation.

2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_vcn) pour chaque carte vNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau.

3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures d'erreur : gpu_infrastructure_health

Mesure Nom d'affichage de la mesure Unité Description Dimensions
Fault Erreur GPU Nombre

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation.

2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_vcn) pour chaque carte vNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau.

3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures disponibles : rdma_infrastructure_health

Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.

Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance.

Pour les mesures émises par l'espace de noms de mesure rdma_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.

Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.

Chaque mesure comprend les dimensions suivantes :

composant
GPU ou rdma_nic
heure
Heure UTC à laquelle les données utiles/le battement de coeur sont émis
version
Numéro de version des données utiles pour la compatibilité
Mesure Nom d'affichage de la mesure Unité Description Dimensions
RdmaTxBytes Octets transmis sur le réseau agrégé RDMA octets Les octets transmis sur l'interface RDMA.

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes octets reçus sur le réseau agrégé RDMA octets Octets reçus sur l'interface RDMA.
RdmaTxPackets Paquets de transmission de réseau agrégé RDMA nombre entier Nombre de paquets transmis sur l'interface RDMA.
RdmaRxPackets Paquets de réception de réseau agrégé RDMA nombre entier Nombre de paquets reçus sur l'interface RDMA.

1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation.

2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_vcn) pour chaque carte vNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau.

3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Mesures d'erreur : rdma_infrastructure_health

Mesure Nom d'affichage de la mesure Unité Description Dimensions
RdmaLinkSpeedFault Erreurs Nombre Détecte si un défaut de vitesse de liaison est présent.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault Erreurs Nombre Détecte si une erreur d'adresse PCIE est présente.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieBerCheckFault Erreurs Nombre Détecte si une erreur PCIE BER est présente.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCableFlapFault Erreurs Nombre Détecte si un défaut de volet de câble PCIE est présent.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCablePlugFault Erreurs Nombre Détecte si un défaut de prise de câble PCIE est présent.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

RdmaPcieCableStateFault Erreurs Nombre Détecte si un défaut d'état de câble PCIE est présent.

Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées.

1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation.

2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_vcn) pour chaque carte vNIC sur l'instance. Pour plus d'informations, voir Mesures du service de réseau.

3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure oci_blockstore) pour chaque volume attaché à l'instance. Pour plus d'informations, voir Mesures du service de volumes par blocs.

Utilisation de la console

Pour voir les graphiques de mesure par défaut pour une instance de calcul unique
  1. Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
  2. Cliquez sur l'instance qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.

    La page Mesures affiche un jeu de graphiques par défaut pour l'instance courante.

    Vous ne voyez aucun graphique de mesure pour l'instance?

    Si aucun graphique de mesure ne s'affiche, il est possible que l'instance n'émet pas de mesures. Voir les causes possibles suivantes et les résolutions.

    Cause possible Comment vérifier Résolution
    Le plugiciel de surveillance d'instance de calcul est désactivé sur l'instance ou les plugiciels sont arrêtés. Vérifiez les propriétés de l'instance. Activez le plugiciel de surveillance d'instance de calcul et démarrez tous les plugiciels.
    L'instance ne peut pas accéder au service de surveillance, car son VCN n'utilise pas Internet. Vérifiez l'adresse IP de l'instance. Si elle n'est pas publique, une passerelle de service est nécessaire. Configurer une passerelle de service.
    L'instance n'utilise pas d'image prise en charge. Vérifiez les images prises en charge. Créer une instance avec une image prise en charge.
    Anciennes images et images personnalisées : Aucun logiciel Oracle Cloud Agent n'existe sur l'instance. Connectez-vous à l'instance et recherchez le logiciel. Installez le logiciel Oracle Cloud Agent.
    Un autre problème existe dans le logiciel Oracle Cloud Agent. (sans objet) Suivez les étapes de dépannage pour Oracle Cloud Agent.

    Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.

Pour voir les graphiques de mesure par défaut pour toutes les instances de calcul d'un compartiment
  1. Ouvrez le menu de navigation et sélectionnez Observabilité et gestion. Sous Surveillance, sélectionnez Mesures de service.
  2. Sélectionnez un compartiment.
  3. Pour Espace de noms de mesure, sélectionnez oci_computeagent.

    La page Mesures de service est mise à jour de manière dynamique afin d'afficher les graphiques pour chaque mesure émise par l'espace de noms de mesure sélectionné.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.

Pour voir les graphiques de mesure par défaut pour les instances d'un groupe d'instances
  1. Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Groupes d'instances.
  2. Cliquez sur le groupe d'instances qui vous intéresse.
  3. Sous Ressources, cliquez sur Mesures.
  4. Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.

    La page Mesures affiche un jeu de graphiques par défaut pour le groupe d'instances courant.

Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.