Mesures liées aux instances de calcul
Vous pouvez surveiller l'état, la capacité et la performance des instances de calcul à l'aide des mesures, des alarmes et des avis.
Cette rubrique décrit les mesures émises par l'espace de noms de mesure oci_computeagent
(le plugiciel de surveillance des instances de calcul).
Vous pouvez voir ces mesures pour des instances de calcul individuelles et pour toutes les instances d'un groupe d'instances.
Ressources : Instances de calcul activées pour la surveillance.
Aperçu des mesures pour une instance et les ressources connexes
Cette section offre une image globale des différents types de mesures disponibles pour une instance, ainsi que son stockage et ses appareils réseau. Voir le diagramme et la table qui suivent pour un sommaire.
Espace de noms de mesure | ID ressource | Emplacement de mesure | Mesures disponibles |
---|---|---|---|
oci_computeagent
|
OCID de l'instance | Dans l'instance. Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn est agrégé pour toutes les cartes vNIC attachées à l'instance. |
|
oci_blockstore
|
OCID du volume de démarrage ou du volume par blocs | Par le service Volumes par blocs. Les mesures concernent un volume individuel (un volume de démarrage ou un volume par blocs). | Voir Mesures du service de volumes par blocs. |
oci_vcn
|
OCID de carte vNIC | Par le service de réseau. Les mesures sont destinées à une carte vNIC individuelle. |
Voir Mesures des cartes vNIC. |
Avant de commencer
- Politiques IAM : Pour surveiller les ressources, le type d'accès requis doit vous être accordé dans une politique écrite par un administrateur, que vous utilisiez la console ou l'API REST avec une trousse SDK, l'interface de ligne de commande ou un autre outil. La politique doit vous donner accès à la fois aux services de surveillance et aux ressources surveillées. Si vous essayez d'effectuer une action et obtenez un message indiquant que vous ne disposez pas de l'autorisation requise, communiquez avec l'administrateur pour connaître le type d'accès qui vous a été octroyé et le compartiment que vous devez utiliser. Pour plus d'informations sur les autorisations d'utilisateur pour la surveillance, voir Politiques IAM.
- Des mesures existent dans le service de surveillance : Les ressources que vous voulez surveiller doivent émettre des mesures dans le service de surveillance.
- Instances de calcul : Pour émettre des mesures, le plugiciel de surveillance d'instance de calcul doit être activé sur l'instance et les plugiciels doivent être en cours d'exécution. L'instance doit également avoir une passerelle de service ou une adresse IP publique pour envoyer des mesures au service de surveillance. Pour plus d'informations, voir Activation de la surveillance pour les instances de calcul.
Mesures disponibles : oci_computeagent
Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead
est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn
est agrégé pour toutes les cartes vNIC attachées à l'instance.
Pour les mesures émises par l'espace de noms de mesure oci_computeagent
, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.
Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.
Chaque mesure comprend les dimensions suivantes :
- availabilityDomain
- Domaine de disponibilité où réside l'instance.
- faultDomain
- Domaine d'erreur où réside l'instance.
- imageId
- OCID de l'image pour l'instance.
- instancePoolId
- Groupe d'instances auquel appartient l'instance.
- region
- Région où réside l'instance.
- resourceDisplayName
- Nom convivial de l'instance.
- resourceId
- OCID de l'instance.
- shape
- Forme de l'instance.
Mesure | Nom d'affichage de la mesure | Unité | Description | Dimensions |
---|---|---|---|---|
CpuUtilization
|
Utilisation de l'UC | pourcentage |
Niveau d'activité des unités centrales. Exprimée sous forme de pourcentage du temps total. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe. |
|
DiskBytesRead 1, 3 |
Octets lus sur disque | octets | Débit de lecture. Exprimé en tant qu'octets lus par intervalle. | |
DiskBytesWritten 1, 3 |
Octets écrits sur disque | octets | Débit d'écriture. Exprimé en tant qu'octets écrits par intervalle. | |
DiskIopsRead 1, 3 |
E/S de lecture de disque | opérations | Niveau d'activité des lectures d'E/S. Exprimé en tant que lectures par intervalle. | |
DiskIopsWritten 1, 3 |
E/S d'écriture sur disque | opérations | Niveau d'activité des écritures d'E/S. Exprimé en tant que nombre d'écritures par intervalle. | |
LoadAverage |
Charge moyenne | nombre de processus | Charge système moyenne calculée sur une période de 1 minute. | |
MemoryAllocationStalls |
Blocages d'affectation de mémoire | nombre de blocages | Nombre de fois où une réclamation de page a été appelée directement. | |
MemoryUtilization 1 |
Utilisation de la mémoire | pourcentage |
Espace actuellement utilisé. Mesuré en pages. Exprimée en tant que pourcentage des pages utilisées. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe. |
|
NetworksBytesIn 1, 2 |
Octets reçus sur le réseau | octets |
Débit de réception du réseau. Exprimée en tant qu'octets reçus. |
|
NetworksBytesOut 1, 2
|
Octets transmis sur le réseau | octets | Débit de transmission du réseau. Exprimée en tant qu'octets transmis. | |
1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. 2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure 3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure |
Mesures disponibles : gpu_infrastructure_health
Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead
est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn
est agrégé pour toutes les cartes vNIC attachées à l'instance.
Pour les mesures émises par l'espace de noms de mesure gpu_infrastructure_health
, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.
Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.
Chaque mesure comprend les dimensions suivantes :
- composant
- GPU ou rdma_nic
- heure
- Heure UTC à laquelle les données utiles/le battement de coeur sont émis
- version
- Numéro de version des données utiles pour la compatibilité
Mesure | Nom d'affichage de la mesure | Unité | Description | Dimensions |
---|---|---|---|---|
GpuUtilization
|
Utilisation GPU | pourcentage |
Niveau d'activité du GPU. Exprimée sous forme de pourcentage du temps total. Pour les groupes d'instances, la moyenne de la valeur est calculée pour toutes les instances du groupe. |
|
GpuMemoryUtilization |
Utilisation de mémoire GPU | pourcentage | Pourcentage de la ressource de mémoire GPU utilisée. | |
GpuPowerDraw |
Puissance du processeur graphique | nombre entier | Quantité de puissance GPU utilisée. | |
GpuTemperature |
Température du GPU | nombre entier | La température du GPU rapportée. | |
GpuEccSingleBitErrors |
Erreurs mono-bit du processeur graphique | nombre entier | Nombre d'erreurs du Centre de contrôle de GPU à bit unique signalées. | |
GpuEccDoubleBitErrors |
Erreurs double bits du processeur graphique | nombre entier | Nombre d'erreurs ECC à double bit GPU signalées. | |
1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. 2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure 3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure |
Mesures d'erreur : gpu_infrastructure_health
Mesure | Nom d'affichage de la mesure | Unité | Description | Dimensions |
---|---|---|---|---|
Fault |
Erreur GPU | Nombre |
Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. 2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure 3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure |
Mesures disponibles : rdma_infrastructure_health
Les mesures liées aux instances de calcul vous aident à mesurer le niveau d'activité et le débit des instances de calcul. Les mesures indiquées dans le tableau suivant sont disponibles pour toute instance de calcul activée pour la surveillance. Pour obtenir ces mesures, activez la surveillance sur l'instance.
Les mesures de cet espace de noms sont regroupées pour l'ensemble des ressources connexes de l'instance. Par exemple, DiskBytesRead
est agrégé pour tous les volumes de stockage attachés à l'instance et NetworkBytesIn
est agrégé pour toutes les cartes vNIC attachées à l'instance.
Pour les mesures émises par l'espace de noms de mesure rdma_infrastructure_health
, les points de données sont échantillonnés toutes les dix secondes. Un lot de six points de données est émis toutes les minutes. Par conséquent, pour chaque granularité de minute, le nombre agrégé est toujours de six, la somme agrégée est la somme des six points de données et la moyenne agrégée est la moyenne des six points de données.
Vous pouvez également utiliser le service Surveillance pour créer des interrogations personnalisées.
Chaque mesure comprend les dimensions suivantes :
- composant
- GPU ou rdma_nic
- heure
- Heure UTC à laquelle les données utiles/le battement de coeur sont émis
- version
- Numéro de version des données utiles pour la compatibilité
Mesure | Nom d'affichage de la mesure | Unité | Description | Dimensions |
---|---|---|---|---|
RdmaTxBytes
|
Octets transmis sur le réseau agrégé RDMA | octets | Les octets transmis sur l'interface RDMA. |
|
RdmaRxBytes |
octets reçus sur le réseau agrégé RDMA | octets | Octets reçus sur l'interface RDMA. | |
RdmaTxPackets |
Paquets de transmission de réseau agrégé RDMA | nombre entier | Nombre de paquets transmis sur l'interface RDMA. | |
RdmaRxPackets |
Paquets de réception de réseau agrégé RDMA | nombre entier | Nombre de paquets reçus sur l'interface RDMA. | |
1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. 2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure 3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure |
Mesures d'erreur : rdma_infrastructure_health
Mesure | Nom d'affichage de la mesure | Unité | Description | Dimensions |
---|---|---|---|---|
RdmaLinkSpeedFault |
Erreurs | Nombre | Détecte si un défaut de vitesse de liaison est présent. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieAddressFault |
Erreurs | Nombre | Détecte si une erreur d'adresse PCIE est présente. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieBerCheckFault |
Erreurs | Nombre | Détecte si une erreur PCIE BER est présente. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCableFlapFault |
Erreurs | Nombre | Détecte si un défaut de volet de câble PCIE est présent. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCablePlugFault |
Erreurs | Nombre | Détecte si un défaut de prise de câble PCIE est présent. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
RdmaPcieCableStateFault |
Erreurs | Nombre | Détecte si un défaut d'état de câble PCIE est présent. Si la valeur est 0, il n'y a aucune erreur. Si la valeur est 1, des erreurs sont détectées. |
|
1 Cette mesure est un compteur cumulatif qui affiche le comportement croissant monotone pour chaque session du logiciel Oracle Cloud Agent. Il est réinitialisé lors du redémarrage du système d'exploitation. 2 Le service Réseau fournit des mesures supplémentaires (dans l'espace de noms de mesure 3 Le service Volumes par blocs fournit des mesures supplémentaires (dans l'espace de noms de mesure |
Utilisation de la console
- Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Instances.
- Cliquez sur l'instance qui vous intéresse.
- Sous Ressources, cliquez sur Mesures.
-
Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.
La page Mesures affiche un jeu de graphiques par défaut pour l'instance courante.
Vous ne voyez aucun graphique de mesure pour l'instance?Si aucun graphique de mesure ne s'affiche, il est possible que l'instance n'émet pas de mesures. Voir les causes possibles suivantes et les résolutions.
Cause possible Comment vérifier Résolution Le plugiciel de surveillance d'instance de calcul est désactivé sur l'instance ou les plugiciels sont arrêtés. Vérifiez les propriétés de l'instance. Activez le plugiciel de surveillance d'instance de calcul et démarrez tous les plugiciels. L'instance ne peut pas accéder au service de surveillance, car son VCN n'utilise pas Internet. Vérifiez l'adresse IP de l'instance. Si elle n'est pas publique, une passerelle de service est nécessaire. Configurer une passerelle de service. L'instance n'utilise pas d'image prise en charge. Vérifiez les images prises en charge. Créer une instance avec une image prise en charge. Anciennes images et images personnalisées : Aucun logiciel Oracle Cloud Agent n'existe sur l'instance. Connectez-vous à l'instance et recherchez le logiciel. Installez le logiciel Oracle Cloud Agent. Un autre problème existe dans le logiciel Oracle Cloud Agent. (sans objet) Suivez les étapes de dépannage pour Oracle Cloud Agent. Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.
- Ouvrez le menu de navigation et sélectionnez Observabilité et gestion. Sous Surveillance, sélectionnez Mesures de service.
- Sélectionnez un compartiment.
-
Pour Espace de noms de mesure, sélectionnez oci_computeagent.
La page Mesures de service est mise à jour de manière dynamique afin d'afficher les graphiques pour chaque mesure émise par l'espace de noms de mesure sélectionné.
Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.
- Ouvrez le menu de navigation et sélectionnez Calcul. Sous Calcul, sélectionnez Groupes d'instances.
- Cliquez sur le groupe d'instances qui vous intéresse.
- Sous Ressources, cliquez sur Mesures.
-
Dans la liste Espace de noms de mesure, sélectionnez oci_computeagent.
La page Mesures affiche un jeu de graphiques par défaut pour le groupe d'instances courant.
Pour plus d'informations sur la surveillance des mesures et l'utilisation des alarmes, voir Aperçu de la surveillance. Pour plus d'informations sur les avis relatifs aux alarmes, voir Aperçu des avis.
Utilisation de l'API
Pour plus d'informations sur l'utilisation de l'API et sur les demandes de signature, voir la documentation de l'API REST et Données d'identification de sécurité. Pour plus d'informations sur les trousses SDK, voir Trousses SDK et interface de ligne de commande.
- API de surveillance pour les mesures et les alarmes
- API d'avis pour les avis (utilisée avec les alarmes)