Mesures d'instance Compute
Vous pouvez surveiller l'état, la capacité et les performances de vos instances de calcul à l'aide de mesures, d'alarmes et de notifications.
Cette rubrique décrit les mesures émises par l'espace de mots de passe de mesure oci_computeagent (module d'extension de surveillance d'instance de Compute sur les instances de calculer).
Vous pouvez visualiser ces mesures pour des instances de calcul individuelles et pour toutes les instances d'un pool d'instances.
Ressources : instances de calcul pour lesquelles la surveillance est activée.
Présentation des mesures relatives à une instance et des ressources connexes
Cette section donne un aperçu global des différents types de mesure disponibles pour une instance et ses périphériques réseau et de stockage. Reportez-vous au diagramme et au tableau suivants pour obtenir un récapitulatif.
| Espace de noms de mesure | ID de ressource | Emplacement de la mesure | Mesures disponibles |
|---|---|---|---|
oci_computeagent
|
OCID d'instance | Sur l'instance. Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.
|
Reportez-vous à Mesures disponibles : oci_computeagent. |
oci_blockstore
|
OCID de volume d'initialisation ou de blocs | Par le service Block Volume. Ces mesures concernent un volume individuel (volume d'initialisation ou volume de blocs). | Reportez-vous à Mesures de Block Volume. |
oci_vcn
|
OCID de carte d'interface réseau virtuelle | Par le service Networking. Ces mesures concernent une carte d'interface réseau virtuelle individuelle. |
Reportez-vous à Mesures de carte d'interface réseau virtuelle. |
Avant de commencer
- Stratégies IAM : pour surveiller des ressources, vous devez bénéficier du type d'accès requis dans une stratégie écrite par un administrateur, que vous utilisiez la console ou l'API REST avec un kit SDK, une interface d'interface de ligne de page ou tout autre outil. La stratégie doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et qu'un message vous indique que vous n'y êtes pas autorisé, contactez l'administrateur pour savoir quel type d'accès vous a été accordé et dans quel compartiment vous devez travailler. Pour plus d'informations sur les autorisations utilisateurs liées à la surveillance, reportez-vous à Stratégies IAM.
- Il existe des mesures dans Monitoring : les ressources à surveiller doivent émettre des mesures au service Monitoring.
- Instances Compute : pour émettre des mesures, le modules d'extension de surveillance d'instance Compute doit être activé sur l'instance et les modules d'application doivent être en cours d'exécution. L'instance doit également disposer d'une passerelle de service ou d'une adresse IP publique pour envoyer des indicateurs au service Monitoring. Pour plus d'informations, reportez-vous à Activation de la surveillance pour les instances Compute.
Mesures disponibles : oci_computeagent
Les mesures d'instance de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.
Pour les mesures émises par l'espace de noms de mesure oci_computeagent, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.
Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.
Chaque mesure inclut les dimensions suivantes :
- availabilityDomain
- Domaine de disponibilité dans lequel réside l'instance.
- faultDomain
- Domaine de pannes dans lequel l'instance réside.
- imageId
- OCID de l'image de l'instance.
- instancePoolId
- Pool d'instances auquel appartient l'instance.
- region
- Région dans laquelle réside l'instance.
- resourceDisplayName
- Nom convivial de l'instance.
- resourceId
- OCID de l'instance.
- shape
- Forme de l'instance.
| Mesure | Nom d'affichage de mesure | Unité | Description | Dimensions |
|---|---|---|---|---|
CpuUtilization
|
Utilisation de l'UC | pourcentage |
Niveau d'activité de l'UC. Exprimé en pourcentage du temps total. Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool. |
|
DiskBytesRead 1, 3
|
Octets de lecture sur disque | octets | Débit de lecture. Exprimé en octets lus par intervalle. | |
DiskBytesWritten 1, 3
|
Octets d'écriture sur disque | octets | Débit d'écriture. Exprimé en octets écrits par intervalle. | |
DiskIopsRead 1, 3
|
E/S de lecture sur disque | opérations | Niveau d'activité à partir des lectures d'E/S. Exprimé en lectures par intervalle. | |
DiskIopsWritten 1, 3
|
E/S d'écriture sur disque | opérations | Niveau d'activité à partir des écritures d'E/S. Exprimé en écritures par intervalle. | |
LoadAverage
|
Charge moyenne | nombre de processus | Charge système moyenne calculée sur une période d'une minute. | |
MemoryAllocationStalls
|
Arrêts d'allocation de mémoire | nombre d'arrêts | Nombre de fois où une réclamation de page a été directement appelée. | |
MemoryUtilization 1
|
Utilisation de la mémoire | pourcentage |
Espace en cours d'utilisation. Mesuré en pages. Exprimé en pourcentage de pages utilisées. Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool. |
|
NetworksBytesIn 1, 2
|
Octets de réception réseau | octets |
Débit de réception réseau. Exprimé en octets reçus. |
|
NetworksBytesOut 1, 2
|
Octets de transmission réseau | octets | Débit de transmission réseau. Exprimé en octets transmis. | |
|
1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.
2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures
3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms |
||||
Mesures disponibles : gpu_infrastructure_health
Les mesures d'instance de calcul vous aident à mesurer l'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.
Pour les mesures émises par l'espace de noms de mesure gpu_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.
Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.
Chaque mesure inclut les dimensions suivantes :
- component
- GPU ou rdma_nic
- horodatage
- Heure UTC à laquelle la charge utile/le signal d'activité est émis
- version
- Numéro de version de la charge utile pour la compatibilité
| Mesure | Nom d'affichage de mesure | Unité | Description | Dimensions |
|---|---|---|---|---|
GpuUtilization
|
Utilisation du GPU | pourcentage |
Niveau d'activité du GPU. Exprimé en pourcentage du temps total. Pour les pools d'instances, la valeur moyenne est calculée pour toutes les instances du pool. |
|
GpuMemoryUtilization
|
Utilisation de la mémoire GPU | pourcentage | Pourcentage de la ressource mémoire GPU en cours d'utilisation | |
GpuPowerDraw
|
Consommation d'énergie de GPU | entier | Quantité d'énergie de GPU utilisée. | |
GpuTemperature
|
Température de GPU | entier | Température du GPU signalée. | |
GpuEccSingleBitErrors
|
Erreurs simples GPU | entier | Nombre d'erreurs simples d'ECC de GPU signalées. | |
GpuEccDoubleBitErrors
|
Erreurs double de bit de GPU | entier | Nombre d'erreurs ECC double de bit de GPU signalées. | |
|
1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.
2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures
3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms |
||||
Mesures des Incidents : gpu_infrastructure_health
| Mesure | Nom d'affichage de mesure | Unité | Description | Dimensions |
|---|---|---|---|---|
Fault
|
Erreur de GPU | inventaire |
Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
|
1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.
2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures
3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms |
||||
Mesures disponibles : rdma_infrastructure_health
Les mesures d'instance de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures répertoriées dans le tableau suivant sont disponibles pour toute instance de calcul pour laquelle la surveillance est activée. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont agrégées pour toutes les ressources associées sur l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés de l'instance et NetworkBytesIn est agrégé pour toutes les cartes d'interface réseau virtuelles attachées de l'instance.
Pour les mesures émises par l'espace de noms de mesure rdma_infrastructure_health, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque minute, le décompte agrégé est toujours six, la somme agrégée est la somme des six points de données et la moyenne agrégée correspond à la moyenne des six points de données.
Vous pouvez également utiliser le service Monitoring pour créer desrequêtes personnalisées.
Chaque mesure inclut les dimensions suivantes :
- component
- GPU ou rdma_nic
- horodatage
- Heure UTC à laquelle la charge utile/le signal d'activité est émis
- version
- Numéro de version de la charge utile pour la compatibilité
| Mesure | Nom d'affichage de mesure | Unité | Description | Dimensions |
|---|---|---|---|---|
RdmaTxBytes
|
Octets de transmission réseau agrégés RDMA | octets | Octets transmis sur l'interface RDMA. |
|
RdmaRxBytes
|
Octets de réception réseau agrégés RDMA | octets | Octets reçus sur l'interface RDMA. | |
RdmaTxPackets
|
paquets de transmission réseau agrégés RDMA | entier | Nombre de paquets d'interface RDMA transmis. | |
RdmaRxPackets
|
paquets de réception de réseau agrégé RDMA | entier | Nombre de paquets d'interface RDMA reçus. | |
|
1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.
2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures
3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms |
||||
Mesures des Incidents : rdma_infrastructure_health
| Mesure | Nom d'affichage de mesure | Unité | Description | Dimensions |
|---|---|---|---|---|
RdmaLinkSpeedFault
|
Erreurs | inventaire | Détecte si une erreur de vitesse de liaison est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieAddressFault
|
Erreurs | inventaire | Détecte si une erreur d'adresse PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieBerCheckFault
|
Erreurs | inventaire | Détecte si une panne PCIE BER est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCableFlapFault
|
Erreurs | inventaire | Détecte la présence d'une panne de volet de câble PCIE. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCablePlugFault
|
Erreurs | inventaire | Détecte si une panne de prise de câble PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCableStateFault
|
Erreurs | inventaire | Détecte si une panne d'état de câble PCIE est présente. Si la valeur est 0, il n'y a pas d'erreur. Si la valeur est 1, des erreurs sont détectées. |
|
|
1Cette mesure est un compteur cumulatif qui indique une croissance monotone pour chaque session du logiciel d'agent Oracle Cloud, avec réinitialisation lorsque le système d'exploitation est redémarré.
2Le service Networking fournit davantage de mesures (dans l'espace de noms des mesures
3Le service Block Volume fournit des mesures supplémentaire (dans l'espace de noms |
||||
Utilisation de la console
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse.
- Sous Ressources, cliquez sur Mesures.
-
Dans la liste Espace de noms de mesures, sélectionnez oci_computeagent.
La page Mesures affiche un ensemble de graphiques par défaut pour l'instance en cours.
Aucun graphique de mesures n'apparaît pour l'instance ?Si aucun graphique de mesures n'apparaît, l'instance n'émet peut-être pas de mesures. Reportez-vous aux causes possibles et aux résolutions suivantes.
Cause possible Vérification Résolution Le plug-in de surveillance des instances de calcul est désactivé sur l'instance ou des modules d'application sont arrêtés. Vérifiez les propriétés de l'instance. Activez le module d'extension et démarrez tous les modules d'extension de surveillance des instances de calcul. L'instance ne peut pas accéder au service Monitoring car son VCN n'utilise pas Internet. Vérifiez l'adresse IP de l'instance. Si elle n'est pas publique, une passerelle de service est nécessaire. Configurez une passerelle de service. L'instance n'utilise pas d'image prise en charge. Vérifiez les images prises en charge. Créez une instance avec une image prise en charge. Images plus anciennes et images personnalisées : aucun logiciel d'agent Oracle Cloud n'existe sur l'instance. Connectez-vous à l'instance et recherchez le logiciel. Installez le logiciel d'agent Oracle Cloud. Le logiciel d'agent Oracle Cloud pose un problème. (non applicable) Suivez les étapes du dépannage de l'agent Oracle Cloud. Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.
- Ouvrez le menu de navigation et sélectionnez Observation & gestion. Sous Surveillance, sélectionnez Mesures de service.
- Sélectionnez un compartiment.
-
Pour Espace de noms de mesures, sélectionnez oci_computeagent.
La page Mesures de service est mise à jour de façon dynamique afin d'afficher les graphiques de chaque mesure émise par l'espace de noms de mesure sélectionné.
Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.
- Ouvrez le menu de navigation et sélectionnez Compute. Sous Compute, sélectionnez Pools d'instances.
- Cliquez sur le pool d'instances qui vous intéresse.
- Sous Ressources, cliquez sur Mesures.
-
Dans la liste Espace de noms de mesures, sélectionnez oci_computeagent.
La page Mesures affiche un ensemble de graphiques par défaut pour le pool d'instances en cours.
Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, reportez-vous à Présentation de Monitoring. Pour plus d'informations sur les notifications relatives aux alarmes, reportez-vous à Présentation de Notifications.
Utilisation de l'API
Pour plus d'autres informations sur l'utilisation de l'API et sur la signature des demandes, reportez-vous à ladocumentation relative aux API REST et aux informations d'identification de sécurité. Pour plus d'informations sur les kits SDK, reportez-vous à Kits SDK et interface de ligne de commande.
- API Monitoring pour les mesures et les alarmes
- API Notifications pour les notifications (utilisées avec des alarmes)
