Abilitazione delle metriche GPU con il plugin HPC OCA

È possibile abilitare le metriche GPU con il plugin Oracle Cloud Agent High Performance Computing nelle istanze.

Package HPC OCI corrente Nuovo plugin OCA descrizione
oci-cn-auth Autenticazione RDMA HPC Compute

autenticazione oci-rdma

Configura le interfacce di rete RDMA/RoCE con le impostazioni QoS, MTU e così via e mantiene l'autenticazione.
configurazione oci-hpc-mlx Configurazione automatica RDMA HPC Compute

configurazione oci-hpc

Configura il firmware Mellanox ConnectX-5 e le impostazioni PCIE.
configurazione oci-hpc-rdma Configurazione automatica RDMA HPC Compute

configurazione oci-hpc

Configura gli indirizzi IP dell'interfaccia RDMA.
oci-hpc-dapl-configure Configurazione automatica RDMA HPC Compute

configurazione oci-hpc

Configurare oci-dat.conf DAPL MPI legacy.
Nota

È possibile eseguire la transizione da soluzioni basate su python per utilizzare il plugin Oracle Cloud Agent High Performance Computing.

Abilitazione dell'autenticazione e della configurazione automatica RDMA HPC di computazione in un'istanza esistente

Per abilitare l'autenticazione RDMA HPC e la configurazione automatica su un host in cui sono in esecuzione i pacchetti HPC OCI correnti, attenersi alla procedura riportata di seguito.
Nota

Non eseguire questo workflow su un carico di lavoro in esecuzione. Queste azioni possono causare interruzioni del funzionamento e la perdita di dati.
  1. Determinare la versione dell'agente Oracle Cloud installata. È richiesta la versione 1.35.0 o successiva. Se la versione non è 1.35.0 o successiva, contattare l'assistenza per ottenere il pacchetto di installazione.

    OL7/8

    # sudo yum info oracle-cloud-agent

    Ubuntu

    snap info oracle-cloud-agent
  2. Arrestare i servizi oci-cn-auth esistenti.

    # sudo systemctl stop oci-cn-auth-renew
    # sudo systemctl stop oci-cn-auth
  3. Verificare che oci-cn-auth sia stato arrestato.

    # sudo systemctl status oci-cn-auth
  4. Arrestare i servizi wpa_supplicant.

    # sudo systemctl stop wpa_supplicant-wired*
  5. Verificare che il servizio wpa_supplicant sia stato arrestato.

    # sudo systemctl status wpa_supplicant-wired*
  6. Rimuovere i pacchetti oci-cn-auth, oci-hpc-rdma-configure, oci-hpc-mlx-configure e oci-hpc-dapl-configure, se installati.

    OL7/8

    # sudo yum remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure

    Ubuntu20

    # sudo apt-get remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
  7. Verificare che l'agente sia abilitato e in esecuzione.

    OL7/8

    # sudo systemctl status oracle-cloud-agent
    # sudo systemctl status oracle-cloud-agent-updater

    Ubuntu20

    # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent.service
    # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent-updater.service
  8. Scaricare la configurazione agente corrente nell'istanza. Per informazioni su come abilitare il plugin, vedere Gestione dei plugin.

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
  9. Modificare l'agente config.json per abilitare uno o più plugin.

    # cat agent-config.json
    {
    "monitoringDisabled": false,
    "managementDisabled": false,
    "allPluginsDisabled": false,
      "isManagementDisabled": false,
      "pluginsConfig": [
        {
          "name": "Compute HPC RDMA Authentication",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute HPC RDMA Auto-Configuration",
          "desiredState": "ENABLED"
        }
      ]
    }
  10. Utilizzare l'SDK ZCLI o OCI OCI per aggiornare agentConfig per l'istanza.

    # oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
  11. Verificare che il plugin OCA sia abilitato per l'istanza tramite la riga di comando dell'SDK.

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig'
  12. Verificare che il plugin sia in esecuzione. Il popolamento delle modifiche agentConfig nell'agente Oracle Cloud richiede alcuni minuti.

    # ps -leaf | grep oci-rdma-authentication
  13. Verificare che tutte le interfacce di rete RDMA dispongano di un wpa_supplicant

    # ps -leaf | grep wpa_supplicant

Avvio dell'istanza con il plugin di autenticazione RDMA HPC abilitato

Se l'immagine personalizzata contiene l'agente Oracle Cloud 1.35.0 o versione successiva e i package HPC OCI non sono presenti, LaunchInstanceDetails viene utilizzato per applicare agentConfig con il plugin abilitato. Nel sistema operativo devono essere installati i driver GPU NVIDIA e i driver Mellanox OFED.

Per ulteriori informazioni, vedere Agente Oracle Cloud.

Abilitazione del monitoraggio GPU RDMA

Con Oracle Cloud Agent 1.35.0 sono disponibili nuove funzionalità per il monitoraggio di RDMA e GPU. Per abilitare questa funzionalità su un'istanza esistente, effettuare le operazioni riportate di seguito.

  1. Scaricare la configurazione agente corrente nell'istanza. Le sezioni seguenti rappresentano un solo modo per abilitare il plugin. Per ulteriori informazioni, vedere Agente Oracle Cloud.

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
  2. Modificare il json aggiungendo il "Monitoraggio GPU RDMA di computazione".

    # cat agent-config.json
    {
      "monitoringDisabled": false,
      "managementDisabled": false,
      "allPluginsDisabled": false,
      "isManagementDisabled": false,
      "pluginsConfig": [
        {
          "name": "Compute HPC RDMA Authentication",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute HPC RDMA Auto-Configuration",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute RDMA GPU Monitoring",
          "desiredState": "ENABLED"
        }
      ]
    }
  3. Utilizzare l'interfaccia CLI OCI o l'SDK OCI per aggiornare agentConfig per l'istanza.

    # oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json

Criteri richiesti per il monitoraggio della GPU RDMA

Se utilizzi una VPN privata, hai bisogno di un gateway di servizi. Se si utilizza un gateway Internet pubblico, il gateway del servizio non è necessario.

Per informazioni su come utilizzare il servizio di monitoraggio, vedere Protezione del monitoraggio.

Crea un gruppo dinamico

In questo esempio viene creato un gruppo che contiene tutte le istanze in un compartimento specifico.

Any {instance.compartment.id = '<compartment_ocid>'}

Creare un criterio

Creare un criterio utilizzando il gruppo dinamico per consentire alle istanze di pubblicare le metriche. Il plugin di monitoraggio HPC crea 2 spazi di nomi personalizzati fatturati:

  • gpu_infrastructure_health
  • rdma_infrastructure_health
Allow dynamic-group <group_name> to use metrics in compartment <compartment_name> where target.metrics.namespace=<metric_namespace>'
Allow dynamic-group <group_name> to read metrics in compartment <compartment_name>

Per informazioni su come pubblicare le metriche personalizzate nel servizio di monitoraggio, vedere Pubblicazione delle metriche personalizzate.