Drivers de GPU Não Incluídos nas Imagens da Plataforma Oracle Linux

As imagens da plataforma Oracle Linux 8 ou Oracle Linux 9 fornecidas com o Compute Cloud@Customer não incluem drivers de GPU. Se você criar uma instância de GPU, deverá instalar manualmente os drivers de GPU.

Detalhes

Se uma instalação do Compute Cloud@Customer incluir nós de computação com GPUs, você poderá acessá-los selecionando uma forma dedicada. As formas de GPU podem ser selecionadas para instâncias de computação com base em uma imagem da plataforma Oracle Linux 8 ou Oracle Linux 9. As versões atuais da imagem não incluem drivers de GPU. O sistema operacional da instância detecta as GPUs alocadas, mas para usá-las, você precisa do Kit de Ferramentas CUDA do site de desenvolvedor NVIDIA para instalar OS drivers necessários.

Observação

O grande download e a instalação do repositório local precisam de uma grande quantidade de espaço em disco. O volume de inicialização padrão de 50 GB é insuficiente no Oracle Linux 9 e só é grande o suficiente no Oracle Linux 8. Recomendamos aumentar o tamanho do volume de inicialização para pelo menos 60 GB e estender o sistema de arquivos de acordo.

Solução

Após criar a instância, faça log-in na instância e instale o Kit de Ferramentas CUDA. Siga as instruções para sua versão do Oracle Linux.

Instalando Drivers de GPU em uma Instância do Oracle Linux 9
  1. Na linha de comando da instância, faça download e instale o rpm do CUDA Toolkit para o seu sistema operacional.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel9-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Ative o repositório yum do Oracle Linux 9 EPEL. Instale o pacote dkms.

    $ sudo yum-config-manager --enable ol9_developer_EPEL
    $ sudo dnf install dkms
  3. Instale os drivers GPU.

    $ sudo dnf install cuda-12-8
  4. Verifique a instalação com a interface de gerenciamento do sistema NVIDIA.

    $ nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+
Instalando Drivers de GPU em uma Instância do Oracle Linux 8
  1. Na linha de comando da instância, faça download e instale o rpm do CUDA Toolkit para o seu sistema operacional.

    $ wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo rpm -i cuda-repo-rhel8-12-8-local-12.8.0_570.86.10-1.x86_64.rpm
    $ sudo dnf clean all
    $ sudo dnf install cuda-toolkit-12-8
  2. Ative o repositório yum do Oracle Linux 8 EPEL. Instale o pacote dkms.

    $ sudo yum-config-manager --enable ol8_developer_EPEL
    $ sudo dnf install dkms
  3. Instale os drivers GPU.

    $ sudo dnf install cuda-12-8
  4. Instale o módulo kernel NVIDIA.

    $ sudo scl enable gcc-toolset-13 bash
    # dkms install nvidia-open -v 570.86.10

    Se esse erro make aparecer enquanto o módulo do kernel for criado, você poderá ignorá-lo com segurança.

    Cleaning build area...(bad exit status: 2)
    Failed command:
    make -C /lib/modules/5.15.0-206.153.7.el8uek.x86_64/build M=/var/lib/dkms/nvidia-open/570.86.10/build clean
  5. Verifique a instalação com a interface de gerenciamento do sistema NVIDIA.

    # nvidia-smi
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA L40S                    Off |   00000000:00:05.0 Off |                    0 |
    | N/A   26C    P8             23W /  350W |       1MiB /  46068MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+