High Performance Computing-Metriken

Oracle Cloud Infrastruture bietet spezielle Metriken, um den Überblick über die Performance von HPC-Instanzen zu verbessern.

HPC-Metriken ähneln Standardmetriken für Compute-Instanzen. Die HPC-Metriken sind jedoch nur auf Instanzen verfügbar, bei denen das HPC-Plug-in mit aktiviertem GPU- und RDMA-Monitoring aktiviert ist und sich in den Kunden-Namespaces gpu_infrastructure_health und rdma_infrastructure_health befinden. Weitere Informationen zum Zugriff auf und zur Verwaltung von Compute-Metriken finden Sie unter Compute-Instanzmetriken.

Verfügbare Metriken: gpu_infrastructure_health

Mit diesen Compute-Instanzmetriken können Sie Aktivitätsebene und Durchsatz von Computing-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.

Die Metriken in diesem Namespace werden über alle zugehörigen Ressourcen in der Instanz aggregiert. Beispiel: DiskBytesRead wird über alle angehängten Speicher-Volumes der Instanz aggregiert und NetworkBytesIn über alle angehängten VNICs der Instanz.

Für Metriken, die vom Metrik-Namespace gpu_infrastructure_health ausgegeben wurden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.

Mit dem Monitoring-Service können Sie auch benutzerdefinierte Abfragen erstellen.

Jede Metrik umfasst die folgenden Dimensionen :

Komponente: GPU oder rdma_nic
timestamp: UTC-Zeit, zu der die Payload/der Heartbeat ausgegeben wird
Version: Die Payload-Versionsnummer für Kompatibilität


Metrik	Metrikanzeigename	Einheit	Beschreibung	Dimensionen
`GpuUtilization`	GPU-Ausnutzung	Prozent	Aktivitätsebene aus GPU. Wird als Prozentsatz der Gesamtzeit ausgedrückt. Bei Instanzpools wird der Durchschnittswert über alle Instanzen im Pool hinweg ermittelt.	`availabilityDomain` `faultDomain` `gpuId` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`GpuMemoryUtilization`	GPU-Speicherauslastung	Prozent	Der Prozentsatz der belegten GPU-Arbeitsspeicherressource.
`GpuPowerDraw`	GPU-Stromverbrauch	Ganzzahl	Die Menge der verwendeten GPU-Leistung.
`GpuTemperature`	GPU-Temperatur	Ganzzahl	Die GPU-Temperatur wurde gemeldet.
`GpuEccSingleBitErrors`	GPU-Einbitfehler	Ganzzahl	Die Anzahl der gemeldeten GPU-Single-Bit-ECC-Fehler.
`GpuEccDoubleBitErrors`	GPU-Doppel-Bit-Fehler	Ganzzahl	Die Anzahl der gemeldeten GPU-Doppelbit-ECC-Fehler.

Faultmetriken: gpu_infrastructure_health


Metrik	Metrikanzeigename	Einheit	Beschreibung	Dimensionen
`Fault`	GPU-Fehler	Anzahl	Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.	`availabilityDomain` `faultCode` `faultDomain` `gpuId` `imageId` `instancePoolId` `pcieAddress` `region` `resourceDisplayName` `resourceId` `shape`

Verfügbare Metriken: rdma_infrastructure_health

Mit den Compute-Instanzmetriken können Sie Aktivitätsebene und Durchsatz von Compute-Instanzen messen. Die in der folgenden Tabelle aufgeführten Metriken sind für jede monitoringfähige Compute-Instanz verfügbar. Um diese Metriken abzurufen, aktivieren Sie Monitoring auf der Instanz.

Für Metriken, die vom Metrik-Namespace rdma_infrastructure_health ausgegeben wurden, werden Datenpunkte alle zehn Sekunden abgefragt. Pro Minute wird ein Batch von sechs Datenpunkten ausgegeben. Daher beträgt die Aggregatanzahl bei einer Granularität von einer Minute immer sechs, die aggregierte Summe ist die Summe der sechs Datenpunkte, und der aggregierte Durchschnitt ist der Durchschnitt der sechs Datenpunkte.

Mit dem Monitoring-Service können Sie auch benutzerdefinierte Abfragen erstellen.

Jede Metrik umfasst die folgenden Dimensionen :

Komponente: GPU oder rdma_nic
timestamp: UTC-Zeit, zu der die Payload/der Heartbeat ausgegeben wird
Version: Die Payload-Versionsnummer für Kompatibilität


Metrik	Metrikanzeigename	Einheit	Beschreibung	Dimensionen
`RdmaTxBytes`	RDMA-Aggregatnetzwerk-Übertragungsbyte	Byte	Die auf der RDMA-Schnittstelle übertragenen Byte.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaRxBytes`	RDMA-Aggregatnetzwerk-Empfangsbyte	Byte	Die auf der RDMA-Schnittstelle empfangenen Byte.
`RdmaTxPackets`	RDMA-Aggregatnetzübertragungspakete	Ganzzahl	Die Anzahl der auf der RDMA-Schnittstelle übertragenen Pakete.
`RdmaRxPackets`	RDMA-Aggregatnetzwerk-Empfangspakete	Ganzzahl	Die Anzahl der auf der RDMA-Schnittstelle empfangenen Pakete.

Faultmetriken: rdma_infrastructure_health


Metrik	Metrikanzeigename	Einheit	Beschreibung	Dimensionen
`RdmaLinkSpeedFault`	Faults	Anzahl	Ermittelt, ob ein Verbindungsgeschwindigkeitsfehler vorhanden ist. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `pcieAddress` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaPcieAddressFault`	Faults	Anzahl	Ermittelt, ob ein PCIE-Adressfehler vorhanden ist. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.
`RdmaPcieBerCheckFault`	Faults	Anzahl	Ermittelt, ob ein PCIE BER-Fehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.
`RdmaPcieCableFlapFault`	Faults	Anzahl	Ermittelt, ob ein PCIE-Kabelklappenfehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.
`RdmaPcieCablePlugFault`	Faults	Anzahl	Ermittelt, ob ein PCIE-Kabelsteckerfehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.
`RdmaPcieCableStateFault`	Faults	Anzahl	Ermittelt, ob ein PCIE-Kabelstatusfehler vorliegt. Wenn der Wert 0 ist, gibt es keine Fehler. Wenn der Wert 1 ist, werden Fehler erkannt.

Verfügbare Metriken: oci_gpu_infrastructure

Bei Metriken, die vom Metrik-Namespace oci_gpu_infrastructure ausgegeben werden, werden Datenpunkte jede Minute abgetastet. Pro Minute wird ein Batch von 13 Datenpunkten ausgegeben. Bei einem Host mit N RDMA-NICs erzeugt jede Metrik N Datenpunkte/Minute.

Für die 13 neuen Metriken in dieser Tabelle sind die gesamten Datenpunkte pro Host und Minute:


RDMA-NICs/Host	Datenpunkte pro Metrik/Minute	Datenpunkte/Minute gesamt (alle 13 Metriken)
1	1	13
4	4	52
8	8	104
16 (schlimmster Fall)	16	208

Mit dem Monitoring-Service können Sie auch benutzerdefinierte Abfragen erstellen.

Jede Metrik umfasst die folgenden Dimensionen :

Komponente: GPU oder rdma_nic
timestamp: UTC-Zeit, zu der die Payload/der Heartbeat ausgegeben wird
Version: Die Payload-Versionsnummer für Kompatibilität

Kennzahlenzähler: oci_gpu_infrastructure


Metrik	Metrikanzeigename	Einheit	Beschreibung	Dimensionen
`NpEcnMarkedRocePacketsCount`	Anzahl	Anzahl	ECN-markierte RoCEv2-Pakete empfangen (ECN=11). RDMA HW-Zähler	`baremetal_cluster_ocid` `customer_network_block_ocid` `gpu_shape` `host_serial` `hpc_island_id` `poolname` `port_pci` `tailnode_serial`
`OutOfSequenceCount`	Anzahl	Anzahl	Out-of-Sequence-Pakete empfangen. Fehlerzähler.
`NpCnpSentCount`	Anzahl	Anzahl	CNP-Pakete, die vom Benachrichtigungspunkt gesendet werden. RDMA HW-Zähler
`RpCnpHandledCount`	Anzahl	Anzahl	CNP-Pakete, die vom Reaktionspunkt verarbeitet werden. RDMA HW-Zähler
`SymbolErrorCount`	Anzahl	Anzahl	Kleinere Linkfehler auf physischen Lanes. Portzähler.
`TxPacketsPhyCount`	Anzahl	Anzahl	Auf physischem Port übertragene Pakete. Ethtool-Zähler.
`RxPacketsPhyCount`	Anzahl	Anzahl	Auf physischem Port empfangene Pakete. Ethtool-Zähler.
`RxMulticastPhyCount`	Anzahl	Anzahl	Empfangene Multicasten-Pakete. Ethtool-Zähler.
`RxCrcErrorsPhyCount`	Anzahl	Anzahl	Pakete, die aufgrund von CRC-Fehlern gelöscht wurden. Fehlerzähler.
`RxDiscardsPhyCount`	Anzahl	Anzahl	Pakete, die aufgrund fehlender Puffer gelöscht wurden. Dehnungsindikator.
`TxDiscardsPhyCount`	Anzahl	Anzahl	Bei der Übertragung verworfene Pakete. Dehnungsindikator.
`LinkDownEventsPhyCount`	Anzahl	Anzahl	Link wurde in DOWN (Flapping) überführt. Verknüpfungszustand.
`RxPcsSymbolErrPhyCount`	Anzahl	Anzahl	PCS-Symbolfehler nicht durch FEC korrigiert. Verknüpfungszustand.

High Performance-Computing-Policys

Dynamische Gruppe erstellen

In diesem Beispiel wird eine Gruppe erstellt, die alle Instanzen in einem bestimmten Compartment enthält.

Any {instance.compartment.id = '<compartment_ocid>'}

Fault Management nach OCI verwenden

In diesem Beispiel wird eine Policy erstellt, mit der OCI Ihre Faults verwalten kann.

Allow dynamic-group <group_name> to inspect all-resources in tenancy

oder

Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>

Oracle Cloud Infrastructure - Dokumentation

High Performance Computing-Metriken

Verfügbare Metriken: gpu_infrastructure_health

Faultmetriken: gpu_infrastructure_health

Verfügbare Metriken: rdma_infrastructure_health

Faultmetriken: rdma_infrastructure_health

Verfügbare Metriken: oci_gpu_infrastructure

Kennzahlenzähler: oci_gpu_infrastructure

High Performance-Computing-Policys