Abilitazione delle metriche GPU con il plugin HPC OCA
È possibile abilitare le metriche GPU con il plugin Oracle Cloud Agent High Performance Computing nelle istanze.
Package HPC OCI corrente | Nuovo plugin OCA | descrizione |
---|---|---|
oci-cn-auth | Autenticazione RDMA HPC Compute autenticazione oci-rdma |
Configura le interfacce di rete RDMA/RoCE con le impostazioni QoS, MTU e così via e mantiene l'autenticazione. |
configurazione oci-hpc-mlx | Configurazione automatica RDMA HPC Compute configurazione oci-hpc |
Configura il firmware Mellanox ConnectX-5 e le impostazioni PCIE. |
configurazione oci-hpc-rdma | Configurazione automatica RDMA HPC Compute configurazione oci-hpc |
Configura gli indirizzi IP dell'interfaccia RDMA. |
oci-hpc-dapl-configure | Configurazione automatica RDMA HPC Compute configurazione oci-hpc |
Configurare oci-dat.conf DAPL MPI legacy. |
È possibile eseguire la transizione da soluzioni basate su python per utilizzare il plugin Oracle Cloud Agent High Performance Computing.
Abilitazione dell'autenticazione e della configurazione automatica RDMA HPC di computazione in un'istanza esistente
Non eseguire questo workflow su un carico di lavoro in esecuzione. Queste azioni possono causare interruzioni del funzionamento e la perdita di dati.
-
Determinare la versione dell'agente Oracle Cloud installata. È richiesta la versione 1.35.0 o successiva. Se la versione non è 1.35.0 o successiva, contattare l'assistenza per ottenere il pacchetto di installazione.
OL7/8
# sudo yum info oracle-cloud-agent
Ubuntu
snap info oracle-cloud-agent
-
Arrestare i servizi oci-cn-auth esistenti.
# sudo systemctl stop oci-cn-auth-renew # sudo systemctl stop oci-cn-auth
-
Verificare che oci-cn-auth sia stato arrestato.
# sudo systemctl status oci-cn-auth
-
Arrestare i servizi wpa_supplicant.
# sudo systemctl stop wpa_supplicant-wired*
-
Verificare che il servizio wpa_supplicant sia stato arrestato.
# sudo systemctl status wpa_supplicant-wired*
-
Rimuovere i pacchetti oci-cn-auth, oci-hpc-rdma-configure, oci-hpc-mlx-configure e oci-hpc-dapl-configure, se installati.
OL7/8
# sudo yum remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
Ubuntu20
# sudo apt-get remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
-
Verificare che l'agente sia abilitato e in esecuzione.
OL7/8
# sudo systemctl status oracle-cloud-agent # sudo systemctl status oracle-cloud-agent-updater
Ubuntu20
# sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent.service # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent-updater.service
-
Scaricare la configurazione agente corrente nell'istanza. Per informazioni su come abilitare il plugin, vedere Gestione dei plugin.
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
-
Modificare l'agente config.json per abilitare uno o più plugin.
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" } ] }
-
Utilizzare l'SDK ZCLI o OCI OCI per aggiornare agentConfig per l'istanza.
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
-
Verificare che il plugin OCA sia abilitato per l'istanza tramite la riga di comando dell'SDK.
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig'
-
Verificare che il plugin sia in esecuzione. Il popolamento delle modifiche agentConfig nell'agente Oracle Cloud richiede alcuni minuti.
# ps -leaf | grep oci-rdma-authentication
-
Verificare che tutte le interfacce di rete RDMA dispongano di un wpa_supplicant
# ps -leaf | grep wpa_supplicant
Avvio dell'istanza con il plugin di autenticazione RDMA HPC abilitato
Se l'immagine personalizzata contiene l'agente Oracle Cloud 1.35.0 o versione successiva e i package HPC OCI non sono presenti, LaunchInstanceDetails viene utilizzato per applicare agentConfig con il plugin abilitato. Nel sistema operativo devono essere installati i driver GPU NVIDIA e i driver Mellanox OFED.
Per ulteriori informazioni, vedere Agente Oracle Cloud.
Abilitazione del monitoraggio GPU RDMA
Con Oracle Cloud Agent 1.35.0 sono disponibili nuove funzionalità per il monitoraggio di RDMA e GPU. Per abilitare questa funzionalità su un'istanza esistente, effettuare le operazioni riportate di seguito.
-
Scaricare la configurazione agente corrente nell'istanza. Le sezioni seguenti rappresentano un solo modo per abilitare il plugin. Per ulteriori informazioni, vedere Agente Oracle Cloud.
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
-
Modificare il json aggiungendo il "Monitoraggio GPU RDMA di computazione".
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" }, { "name": "Compute RDMA GPU Monitoring", "desiredState": "ENABLED" } ] }
-
Utilizzare l'interfaccia CLI OCI o l'SDK OCI per aggiornare agentConfig per l'istanza.
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
Criteri richiesti per il monitoraggio della GPU RDMA
Se utilizzi una VPN privata, hai bisogno di un gateway di servizi. Se si utilizza un gateway Internet pubblico, il gateway del servizio non è necessario.
Per informazioni su come utilizzare il servizio di monitoraggio, vedere Protezione del monitoraggio.
Crea un gruppo dinamico
In questo esempio viene creato un gruppo che contiene tutte le istanze in un compartimento specifico.
Any {instance.compartment.id = '<compartment_ocid>'}
Creare un criterio
Creare un criterio utilizzando il gruppo dinamico per consentire alle istanze di pubblicare le metriche. Il plugin di monitoraggio HPC crea 2 spazi di nomi personalizzati fatturati:
gpu_infrastructure_health
rdma_infrastructure_health
Allow dynamic-group <group_name> to use metrics in compartment <compartment_name> where target.metrics.namespace=<metric_namespace>'
Allow dynamic-group <group_name> to read metrics in compartment <compartment_name>
Per informazioni su come pubblicare le metriche personalizzate nel servizio di monitoraggio, vedere Pubblicazione delle metriche personalizzate.