High Performance Computing-Metriken
Oracle Cloud Infrastruture bietet spezialisierte Metriken, um die Performance von HPC-Instanzen zu verbessern.
HPC-Metriken ähneln Standard-Compute-Instanzmetriken. Die HPC-Metriken sind jedoch nur auf Instanzen verfügbar, bei denen das HPC-Plug-in mit aktivierter GPU- und RDMA-Überwachung aktiviert ist und sich in den Kunden-Namespaces gpu_infrastructure_health
und rdma_infrastructure_health
befinden. Details zum Zugriff auf und zur Verwaltung von Compute-Metriken finden Sie unter Compute-Instanzmetriken.
Verfügbare Metriken: gpu_infrastructure_health
Mit den Compute-Instanzkennzahlen können Sie Aktivitätsebene und Durchsatz von Compute-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.
Die Metriken in diesem Namespace werden über alle zugehörigen Ressourcen in der Instanz aggregiert. Beispiel: DiskBytesRead
wird über alle angehängten Speicher-Volumes der Instanz aggregiert und NetworkBytesIn
über alle angehängten VNICs der Instanz.
Für Metriken, die vom Metrik-Namespace gpu_infrastructure_health
ausgegeben werden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.
Mit dem Service Monitoring können Sie auch benutzerdefinierte Abfragen erstellen.
Jede Metrik umfasst die folgenden Dimensionen :
- Komponente
- GPU oder rdma_nic
- Zeitstempel
- UTC-Zeit, wenn Payload/Heartbeat ausgegeben wird
- Version
- Die Payload-Versionsnummer für die Kompatibilität
Metrik | Metrikanzeigename | Einheit | Beschreibung | Dimensionen |
---|---|---|---|---|
GpuUtilization
|
GPU-Auslastung | Prozent |
Aktivitätsebene aus GPU. Wird als Prozentsatz der Gesamtzeit ausgedrückt. Bei Instanzpools wird der Durchschnittswert über alle Instanzen im Pool hinweg ermittelt. |
|
GpuMemoryUtilization |
GPU-Speicherauslastung | Prozent | Der Prozentsatz der verwendeten GPU-Speicherressource. | |
GpuPowerDraw |
GPU-Stromverbrauch | Ganzzahl | Die Menge der verwendeten GPU-Leistung. | |
GpuTemperature |
GPU-Temperatur | Ganzzahl | Die gemeldete GPU-Temperatur. | |
GpuEccSingleBitErrors |
GPU-Ein-Bit-Fehler | Ganzzahl | Die Anzahl der gemeldeten GPU-Einbit-ECC-Fehler. | |
GpuEccDoubleBitErrors |
GPU-Doppelbitfehler | Ganzzahl | Die Anzahl der gemeldeten GPU-Doppelbit-ECC-Fehler. | |
1 Diese Metrik ist ein kumulativer Zähler, der den monotonen Anstieg während jeder Session der Oracle Cloud Agent-Software zeigt und bei einem Neustart des Betriebssystems zurückgesetzt wird. 2 Der Networking-Service stellt weitere Metriken (im Metrik-Namespace 3 Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace |
Faultmetriken: gpu_infrastructure_health
Metrik | Metrikanzeigename | Einheit | Beschreibung | Dimensionen |
---|---|---|---|---|
Fault |
GPU-Fehler | Anzahl |
Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
1 Diese Metrik ist ein kumulativer Zähler, der den monotonen Anstieg während jeder Session der Oracle Cloud Agent-Software zeigt und bei einem Neustart des Betriebssystems zurückgesetzt wird. 2 Der Networking-Service stellt weitere Metriken (im Metrik-Namespace 3 Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace |
Verfügbare Metriken: rdma_infrastructure_health
Mit den Compute-Instanzmetriken können Sie Aktivitätsebene und Durchsatz von Compute-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.
Die Metriken in diesem Namespace werden über alle zugehörigen Ressourcen in der Instanz aggregiert. Beispiel: DiskBytesRead
wird über alle angehängten Speicher-Volumes der Instanz aggregiert und NetworkBytesIn
über alle angehängten VNICs der Instanz.
Für Metriken, die vom Metrik-Namespace rdma_infrastructure_health
ausgegeben werden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.
Mit dem Service Monitoring können Sie auch benutzerdefinierte Abfragen erstellen.
Jede Metrik umfasst die folgenden Dimensionen :
- Komponente
- GPU oder rdma_nic
- Zeitstempel
- UTC-Zeit, wenn Payload/Heartbeat ausgegeben wird
- Version
- Die Payload-Versionsnummer für die Kompatibilität
Metrik | Metrikanzeigename | Einheit | Beschreibung | Dimensionen |
---|---|---|---|---|
RdmaTxBytes
|
RDMA-Aggregatnetzwerk-Übertragungsvorgänge in Byte | Byte | Die auf der RDMA-Schnittstelle übertragenen Byte. |
|
RdmaRxBytes |
RDMA-Aggregatnetzwerk-Empfangsvorgänge in Byte | Byte | Die auf der RDMA-Schnittstelle erhaltenen Byte. | |
RdmaTxPackets |
RDMA-Aggregatnetzwerk-Übertragungspakete | Ganzzahl | Die Anzahl der übermittelten RDMA-Schnittstellenpakete. | |
RdmaRxPackets |
RDMA-Aggregatnetzwerk-Empfangspakete | Ganzzahl | Die Anzahl der RDMA-Schnittstellenpakete, die empfangen wurden. | |
1 Diese Metrik ist ein kumulativer Zähler, der den monotonen Anstieg während jeder Session der Oracle Cloud Agent-Software zeigt und bei einem Neustart des Betriebssystems zurückgesetzt wird. 2 Der Networking-Service stellt weitere Metriken (im Metrik-Namespace 3 Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace |
Faultmetriken: rdma_infrastructure_health
Metrik | Metrikanzeigename | Einheit | Beschreibung | Dimensionen |
---|---|---|---|---|
RdmaLinkSpeedFault |
Faults | Anzahl | Ermittelt, ob ein Fehler bei der Verbindungsgeschwindigkeit vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
RdmaPcieAddressFault |
Faults | Anzahl | Ermittelt, ob ein PCIE-Adressfehler vorhanden ist. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
RdmaPcieBerCheckFault |
Faults | Anzahl | Ermittelt, ob ein PCIE BER-Fehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
RdmaPcieCableFlapFault |
Faults | Anzahl | Ermittelt, ob ein PCIE-Kabelklappenfehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
RdmaPcieCablePlugFault |
Faults | Anzahl | Ermittelt, ob ein PCIE-Kabelsteckerfehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
RdmaPcieCableStateFault |
Faults | Anzahl | Ermittelt, ob ein PCIE-Kabelstatusfehler vorhanden ist. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt. |
|
1 Diese Metrik ist ein kumulativer Zähler, der den monotonen Anstieg während jeder Session der Oracle Cloud Agent-Software zeigt und bei einem Neustart des Betriebssystems zurückgesetzt wird. 2 Der Networking-Service stellt weitere Metriken (im Metrik-Namespace 3 Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace |
High Performance Computing-Policys
Dynamische Gruppe erstellen
In diesem Beispiel wird eine Gruppe erstellt, die alle Instanzen in einem bestimmten Compartment enthält.
Any {instance.compartment.id = '<compartment_ocid>'}
Faultmanagement von OCI verwenden
In diesem Beispiel wird eine Policy erstellt, mit der OCI Ihre Faults verwalten kann.
Allow dynamic-group <group_name> to inspect all-resources in tenancyoder
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>