High Performance Computing-Metriken

Oracle Cloud Infrastruture bietet spezielle Metriken, um den Überblick über die Performance von HPC-Instanzen zu verbessern.

HPC-Metriken ähneln Standardmetriken für Compute-Instanzen. Die HPC-Metriken sind jedoch nur auf Instanzen verfügbar, bei denen das HPC-Plug-in mit aktiviertem GPU- und RDMA-Monitoring aktiviert ist und sich in den Kunden-Namespaces gpu_infrastructure_health und rdma_infrastructure_health befinden. Weitere Informationen zum Zugriff auf und zur Verwaltung von Compute-Metriken finden Sie unter Compute-Instanzmetriken.

Verfügbare Metriken: gpu_infrastructure_health

Mit diesen Compute-Instanzmetriken können Sie Aktivitätsebene und Durchsatz von Computing-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.

Die Metriken in diesem Namespace werden über alle zugehörigen Ressourcen in der Instanz aggregiert. Beispiel: DiskBytesRead wird über alle angehängten Speicher-Volumes der Instanz aggregiert und NetworkBytesIn über alle angehängten VNICs der Instanz.

Für Metriken, die vom Metrik-Namespace gpu_infrastructure_health ausgegeben wurden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.

Mit dem Monitoring-Service können Sie auch benutzerdefinierte Abfragen erstellen.

Jede Metrik umfasst die folgenden Dimensionen :

Komponente
GPU oder rdma_nic
timestamp
UTC-Zeit, zu der die Payload/der Heartbeat ausgegeben wird
Version
Die Payload-Versionsnummer für Kompatibilität
Metrik Metrikanzeigename Einheit Beschreibung Dimensionen
GpuUtilization GPU-Ausnutzung Prozent

Aktivitätsebene aus GPU. Wird als Prozentsatz der Gesamtzeit ausgedrückt.

Bei Instanzpools wird der Durchschnittswert über alle Instanzen im Pool hinweg ermittelt.

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization GPU-Speicherauslastung Prozent Der Prozentsatz der belegten GPU-Arbeitsspeicherressource.
GpuPowerDraw GPU-Stromverbrauch Ganzzahl Die Menge der verwendeten GPU-Leistung.
GpuTemperature GPU-Temperatur Ganzzahl Die GPU-Temperatur wurde gemeldet.
GpuEccSingleBitErrors GPU-Einbitfehler Ganzzahl Die Anzahl der gemeldeten GPU-Single-Bit-ECC-Fehler.
GpuEccDoubleBitErrors GPU-Doppel-Bit-Fehler Ganzzahl Die Anzahl der gemeldeten GPU-Doppelbit-ECC-Fehler.

1Diese Metrik ist ein kumulativer Zähler, der das monotonen Anstiegs während jeder Session der Oracle Cloud Agent-Software zeigt und bei einer Neustart des Betriebssystems zurückgesetzt wird.

2Der Networking-Service stellt weitere Metriken (im Metrik-Namespace oci_vcn) für jede VNIC auf der Instanz zur Verfügung. Weitere Informationen finden Sie unter Networking-Metriken.

3Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace oci_blockstore) für jedes an die Instanz angehängte Volume zur Verfügung. Weitere Informationen finden Sie unter Block-Volume-Metriken.

Faultmetriken: gpu_infrastructure_health

Metrik Metrikanzeigename Einheit Beschreibung Dimensionen
Fault GPU-Fehler Anzahl

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1Diese Metrik ist ein kumulativer Zähler, der das monotonen Anstiegs während jeder Session der Oracle Cloud Agent-Software zeigt und bei einer Neustart des Betriebssystems zurückgesetzt wird.

2Der Networking-Service stellt weitere Metriken (im Metrik-Namespace oci_vcn) für jede VNIC auf der Instanz zur Verfügung. Weitere Informationen finden Sie unter Networking-Metriken.

3Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace oci_blockstore) für jedes an die Instanz angehängte Volume zur Verfügung. Weitere Informationen finden Sie unter Block-Volume-Metriken.

Verfügbare Metriken: rdma_infrastructure_health

Mit den Compute-Instanzmetriken können Sie Aktivitätsebene und Durchsatz von Compute-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.

Die Metriken in diesem Namespace werden über alle zugehörigen Ressourcen in der Instanz aggregiert. Beispiel: DiskBytesRead wird über alle angehängten Speicher-Volumes der Instanz aggregiert und NetworkBytesIn über alle angehängten VNICs der Instanz.

Für Metriken, die vom Metrik-Namespace rdma_infrastructure_health ausgegeben wurden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.

Mit dem Monitoring-Service können Sie auch benutzerdefinierte Abfragen erstellen.

Jede Metrik umfasst die folgenden Dimensionen :

Komponente
GPU oder rdma_nic
timestamp
UTC-Zeit, zu der die Payload/der Heartbeat ausgegeben wird
Version
Die Payload-Versionsnummer für Kompatibilität
Metrik Metrikanzeigename Einheit Beschreibung Dimensionen
RdmaTxBytes RDMA-Aggregatnetzwerk-Übertragungsbyte Byte Die auf der RDMA-Schnittstelle übertragenen Byte.

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes RDMA-Aggregatnetzwerk-Empfangsbyte Byte Die auf der RDMA-Schnittstelle empfangenen Byte.
RdmaTxPackets RDMA-Aggregatnetzübertragungspakete Ganzzahl Die Anzahl der auf der RDMA-Schnittstelle übertragenen Pakete.
RdmaRxPackets RDMA-Aggregatnetzwerk-Empfangspakete Ganzzahl Die Anzahl der auf der RDMA-Schnittstelle empfangenen Pakete.

1Diese Metrik ist ein kumulativer Zähler, der das monotonen Anstiegs während jeder Session der Oracle Cloud Agent-Software zeigt und bei einer Neustart des Betriebssystems zurückgesetzt wird.

2Der Networking-Service stellt weitere Metriken (im Metrik-Namespace oci_vcn) für jede VNIC auf der Instanz zur Verfügung. Weitere Informationen finden Sie unter Networking-Metriken.

3Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace oci_blockstore) für jedes an die Instanz angehängte Volume zur Verfügung. Weitere Informationen finden Sie unter Block-Volume-Metriken.

Faultmetriken: rdma_infrastructure_health

Metrik Metrikanzeigename Einheit Beschreibung Dimensionen
RdmaLinkSpeedFault Faults Anzahl Ermittelt, ob ein Verbindungsgeschwindigkeitsfehler vorhanden ist.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault Faults Anzahl Ermittelt, ob ein PCIE-Adressfehler vorhanden ist.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

RdmaPcieBerCheckFault Faults Anzahl Ermittelt, ob ein PCIE BER-Fehler vorliegt.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

RdmaPcieCableFlapFault Faults Anzahl Ermittelt, ob ein PCIE-Kabelklappenfehler vorliegt.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

RdmaPcieCablePlugFault Faults Anzahl Ermittelt, ob ein PCIE-Kabelsteckerfehler vorliegt.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

RdmaPcieCableStateFault Faults Anzahl Ermittelt, ob ein PCIE-Kabelstatusfehler vorliegt.

Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

1Diese Metrik ist ein kumulativer Zähler, der das monotonen Anstiegs während jeder Session der Oracle Cloud Agent-Software zeigt und bei einer Neustart des Betriebssystems zurückgesetzt wird.

2Der Networking-Service stellt weitere Metriken (im Metrik-Namespace oci_vcn) für jede VNIC auf der Instanz zur Verfügung. Weitere Informationen finden Sie unter Networking-Metriken.

3Der Block Volume-Service stellt weitere Metriken (im Metrik-Namespace oci_blockstore) für jedes an die Instanz angehängte Volume zur Verfügung. Weitere Informationen finden Sie unter Block-Volume-Metriken.

High Performance-Computing-Policys

Dynamische Gruppe erstellen

In diesem Beispiel wird eine Gruppe erstellt, die alle Instanzen in einem bestimmten Compartment enthält.

Any {instance.compartment.id = '<compartment_ocid>'}

Fault Management nach OCI verwenden

In diesem Beispiel wird eine Policy erstellt, mit der OCI Ihre Faults verwalten kann.

Allow dynamic-group <group_name> to inspect all-resources in tenancy
oder
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>