Driver GPU non inclusi nelle immagini della piattaforma Oracle Linux

Le immagini della piattaforma Oracle Linux 8 o Oracle Linux 9 fornite con Compute Cloud@Customer non includono driver GPU. Se si crea un'istanza GPU, è necessario installare manualmente i driver GPU.

Dettagli

Se un'installazione di Compute Cloud@Customer include nodi di calcolo con GPU, puoi accedervi selezionando una forma dedicata. Le forme GPU possono essere selezionate per le istanze di computazione in base a un'immagine della piattaforma Oracle Linux 8 o Oracle Linux 9. Le versioni di immagine correnti non includono driver GPU. Il sistema operativo dell'istanza rileva le GPU allocate, ma per utilizzarle è necessario il toolkit CUDA dal sito per sviluppatori NVIDIA per installare i driver richiesti.

Nota

Il download di grandi dimensioni e l'installazione del repository locale richiedono una grande quantità di spazio su disco. Il volume di avvio predefinito da 50 GB è insufficiente su Oracle Linux 9 e solo abbastanza grande su Oracle Linux 8. Si consiglia di aumentare la dimensione del volume di avvio ad almeno 60 GB ed estendere il file system di conseguenza.

Soluzione alternativa

Dopo aver creato l'istanza, eseguire il login all'istanza e installare CUDA Toolkit. Segui le istruzioni per la tua versione di Oracle Linux.

Installazione di driver GPU in un'istanza di Oracle Linux 9
  1. Dalla riga di comando dell'istanza, scarica e installa CUDA Toolkit rpm per il tuo sistema operativo.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Abilita il repository yum Oracle Linux 9 EPEL. Installare il pacchetto dkms.

    $ sudo yum-config-manager --enable ol9_developer_EPEL
    $ sudo dnf install dkms
  3. Installare i driver GPU.

    $ sudo dnf install cuda-12-8
  4. Verificare l'installazione con l'interfaccia di gestione del sistema NVIDIA.

    $ nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+
Installazione di driver GPU in un'istanza di Oracle Linux 8
  1. Dalla riga di comando dell'istanza, scarica e installa CUDA Toolkit rpm per il tuo sistema operativo.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Abilita il repository yum Oracle Linux 8 EPEL. Installare il pacchetto dkms.

    $ sudo yum-config-manager --enable ol8_developer_EPEL
    $ sudo dnf install dkms
  3. Installare i driver GPU.

    $ sudo dnf install cuda-12-8
  4. Installare il modulo kernel NVIDIA.

    $ sudo scl enable gcc-toolset-13 bash
    # dkms install nvidia-open -v 570.86.10

    Se questo errore make viene visualizzato durante la compilazione del modulo kernel, è possibile ignorarlo in tutta sicurezza.

    Cleaning build area...(bad exit status: 2)
    Failed command:
    make -C /lib/modules/5.15.0-206.153.7.el8uek.x86_64/build M=/var/lib/dkms/nvidia-open/570.86.10/build clean
  5. Verificare l'installazione con l'interfaccia di gestione del sistema NVIDIA.

    # nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+