Controladores de GPU no incluidos en imágenes de plataforma Oracle Linux

Las imágenes de la plataforma Oracle Linux 8 u Oracle Linux 9 proporcionadas con Compute Cloud@Customer no incluyen controladores de GPU. Si crea una instancia de GPU, debe instalar manualmente los controladores de GPU.

Detalles

Si una instalación de Compute Cloud@Customer incluye nodos de cálculo con GPU, puede acceder a ellos seleccionando una unidad dedicada. Las unidades de GPU se pueden seleccionar para las instancias informáticas según una imagen de plataforma de Oracle Linux 8 u Oracle Linux 9. Las versiones de imagen actuales no incluyen controladores de GPU. El sistema operativo de la instancia detecta las GPU asignadas, pero para usarlas, necesita el kit de herramientas CUDA del sitio para desarrolladores de NVIDIA para instalar los controladores necesarios.

Nota

La gran descarga y la instalación del repositorio local necesitan una gran cantidad de espacio en disco. El volumen de inicio predeterminado de 50 GB no es suficiente en Oracle Linux 9 y solo es lo suficientemente grande en Oracle Linux 8. Recomendamos que aumente el tamaño del volumen de inicio a al menos 60 GB y amplíe el sistema de archivos según corresponda.

Solución Alternativa

Después de crear la instancia, conéctese a la instancia e instale CUDA Toolkit. Siga las instrucciones de su versión de Oracle Linux.

Instalación de controladores de GPU en una instancia de Oracle Linux 9
  1. Desde la línea de comandos de la instancia, descargue e instale el rpm del kit de herramientas CUDA para su sistema operativo.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Active el repositorio de yum de Oracle Linux 9 EPEL. Instale el paquete dkms.

    $ sudo yum-config-manager --enable ol9_developer_EPEL
    $ sudo dnf install dkms
  3. Instale los controladores de GPU.

    $ sudo dnf install cuda-12-8
  4. Verifique la instalación con la interfaz de gestión del sistema NVIDIA.

    $ nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+
Instalación de controladores de GPU en una instancia de Oracle Linux 8
  1. Desde la línea de comandos de la instancia, descargue e instale el rpm del kit de herramientas CUDA para su sistema operativo.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Active el repositorio de yum de Oracle Linux 8 EPEL. Instale el paquete dkms.

    $ sudo yum-config-manager --enable ol8_developer_EPEL
    $ sudo dnf install dkms
  3. Instale los controladores de GPU.

    $ sudo dnf install cuda-12-8
  4. Instale el módulo de núcleo de NVIDIA.

    $ sudo scl enable gcc-toolset-13 bash
    # dkms install nvidia-open -v 570.86.10

    Si aparece este error make mientras se crea el módulo de núcleo, puede ignorarlo sin problemas.

    Cleaning build area...(bad exit status: 2)
    Failed command:
    make -C /lib/modules/5.15.0-206.153.7.el8uek.x86_64/build M=/var/lib/dkms/nvidia-open/570.86.10/build clean
  5. Verifique la instalación con la interfaz de gestión del sistema NVIDIA.

    # nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+