NVIDIA AI Enterprise no OCI Compute

O NVIDIA AI Enterprise (NVAIE) no OCI Compute oferece uma experiência de IA integrada de nível empresarial que minimiza o atrito de implementação, acelera a adoção e simplifica o licenciamento e o faturamento.

Os artefatos NVAIE exigem um conjunto específico de drivers de GPU NVIDIA e bibliotecas CUDA. Para o Oracle Linux, as imagens da plataforma incluem drivers específicos NVAIE. Para o Ubuntu, siga as etapas de instalação fornecidas na documentação para imagens do OCI Ubuntu. Além disso, a OCI fornece um conjunto com curadoria de aproximadamente 90 contêineres NVIDIA de alta prioridade e gráficos Helm para ambientes Oracle. Esses artefatos incluem modelos de código-fonte aberto, contêineres NVIDIA NeMo para cargas de trabalho RAG e agênticas e modelos BioNeMo para assistência médica. Você poderá solicitar artefatos adicionais se seus casos de uso não estiverem no conjunto atual de opções. A OCI garante paridade de versão completa por meio de sincronizações regulares com a NGC da NVIDIA (repositório de contêineres e artefatos da NVIDIA), incluindo todos os metadados, resultados de varredura e detalhes de artefatos.

Usando Imagens NVAIE

O NVIDIA AI Enterprise requer um conjunto específico de drivers de GPU para executar seus contêineres. A OCI suporta sistemas operacionais Ubuntu e Oracle Linux GPU. Drivers específicos de NVAIE incluídos nas imagens base do Oracle Linux.

NVAIE Requisitos do driver

  • Driver NVIDIA versão 560 ou posterior.

    Se você estiver executando em uma GPU de data center, por exemplo, uma NVidia A100, poderá usar o driver NVIDIA versão 470.57 ou posterior, 535.86 ou posterior, ou 550.54 ou posterior.

  • NVIDIA Docker 23.0.1 ou posterior.
  • CUDA 12.6.1 ou mais recente.

Criando uma Instância NVAIE

Para criar uma instância, siga as etapas descritas na etapa Criando uma Instância.

Ao acessar a seção Imagem e Forma, siga estas etapas.

  • Selecione Alterar imagem.
  • Selecione uma imagem do Oracle Linux ou Ubuntu. Escolha Selecionar imagem.
  • Em Forma, selecione Alterar forma.
  • Para Tipo de instância, selecione Máquina bare metal.

    Todas as formas de GPU NVidia disponíveis são exibidas

  • Selecione qualquer forma NVidia disponível com base nas suas necessidades de implantação. Escolha Selecionar forma.
  • Para ativar o NVidia AI Enterprise para essa instância, selecione Ativar NVIDIA AI Enterprise.
  • Selecione Próximo.
  • Continue concluindo as etapas listadas para Criando uma Instância.
  • Selecione Criar para criar a instância.

Criando uma Configuração de Instância NVAIE

Crie uma configuração de instância para definir um modelo de instância que você possa usar para criar mais instâncias. É necessária uma configuração de instância para criar um Pool de Instâncias.

Para criar uma configuração de instância, siga as etapas descritas em Criando uma Configuração de Instância.

Ao acessar a seção Imagem e Forma, siga estas etapas.

  • Selecione Alterar imagem.
  • Selecione uma imagem do Oracle Linux ou Ubuntu. Escolha Selecionar imagem.
  • Em Forma, selecione Alterar forma.
  • Para Tipo de instância, selecione Máquina bare metal.

    Todas as formas de GPU NVidia disponíveis são exibidas

  • Selecione qualquer forma NVidia disponível com base nas suas necessidades de implantação. Escolha Selecionar forma.
  • Para ativar o NVidia AI Enterprise para essa instância, selecione Ativar NVIDIA AI Enterprise.
  • Selecione Próximo.
  • Continue concluindo as etapas listadas para Criando uma Configuração de Instância.
  • Selecione Criar para criar a configuração da instância.

Criando um Pool de Instâncias NVAIE

Para criar um pool de instâncias, siga as etapas descritas em Criando Pools de Instâncias.

Na seção de detalhes básicos, selecione a configuração da instância criada usando uma forma NVidia.

Continue seguindo as etapas em Criando Pools de Instâncias até que o pool de instâncias seja criado.

Usando Componentes NVAIE do Marketplace

Você pode importar contêineres NVAIE e gráficos Helm do Marketplace. Siga estas etapas para navegar até o marketplace.

  • No menu principal, selecione Mercado.
  • Em Marketplace, selecione Todos os aplicativos. A página principal do Marketplace é exibida.
  • Use o filtro Tipo para selecionar imagens de contêiner ou gráficos Helm.
  • Por exemplo, para identificar gráficos NVAIE Helm, você pode digitar uma string como Llama-3.1-8B-Instruct-NIM-microservice para exibir gráficos Llama 3.

Adicionando Componentes NVAIE ao OCIR

O Oracle Cloud Infrastructure Registry (OCIR), também conhecido como Container Registry, é um registro gerenciado pela Oracle que facilita o armazenamento, o compartilhamento e o gerenciamento de imagens de contêiner (como imagens do Docker). Para adicionar um contêiner de marketplace do NVAIE ao seu OCIR, siga estas etapas.

  • No menu principal, selecione Mercado.
  • Em Marketplace, selecione Todos os aplicativos. A página principal do Marketplace é exibida.
  • Use o filtro Tipo para selecionar imagens do Contêiner.
  • Selecione um contêiner.
  • Selecione Exportar Pacote.
  • Preencha as seguintes informações:
    • Compartimento: Selecione um compartimento.
    • Registro do OCI: Selecione um registro existente ou crie um novo. As etapas a seguir são para criar um novo registro.
    • Nome do registro: Informe um nome para seu registro.
    • Acesso: Selecione Privado ou Público.
  • Aceite os termos e condições do contêiner.
  • Selecione Exportar. A instância do OCIR é criada e o componente NVAIE selecionado é copiado.

Implantando uma Imagem NVAIE no Docker

Depois de criar uma imagem de contêiner NVAIE, você poderá implantá-la em uma instância. As etapas a seguir fornecem um exemplo.

  • Extraia a imagem do contêiner do OCIR:
    docker pull {region}.ocir.io/{your_ocir_repo}/nvaie-multi-llm-nim:1.14.0
  • Criar um cache local.
    Observação

    Esta é uma etapa opcional, mas o resultado mantém pesos grandes fora da camada gravável.
    mkdir -p ~/.cache/nim
  • Execute o contêiner.
    docker run -d --gpus all -p 8000:8000 -v ~/.cache/nim:/opt/nim/.cache  {region}.ocir.io/{your_ocir_namespace}/nvaie-multi-llm-nim:1.14.0
  • Faça um teste rápido de fumaça.
    curl http://localhost:8000/v1/models

Acessando Modelos do AI NVidia em Buckets Regionais S3

Durante a execução, o contêiner Multi-NIM requer um modelo para sua inicialização de renderização. Na OCI, esses modelos são armazenados em todas as regiões do OC1 (o realm comercial) nos buckets do S3. O contêiner consome as seguintes variáveis de ambiente:

        -e AWS_ACCESS_KEY_ID="$AWS_ACCESS_KEY_ID" \
        -e AWS_SECRET_ACCESS_KEY="$AWS_SECRET_ACCESS_KEY" \
        -e AWS_REGION="${region}" \
        -e AWS_ENDPOINT_URL="https://bmcinfraorch.compat.objectstorage.${region}.oraclecloud.com/" \
        -e NIM_MODEL_NAME="s3repo://nvaie/meta-llama/Llama-3.1-8B-Instruct"

Autorização

Para acessar o bucket do NVIDIA AI em cada região, você deve estar autorizado com um ID de chave de acesso e uma chave de acesso secreto. Essas chaves precisam ser configuradas em sua tenancy seguindo este guia: Criando uma chave secreta do cliente. Armazene as chaves e os segredos em um Vault ou serviço secreto seguro. Recupere as chaves quando necessário.

Região

As regiões home variam com base na tenancy. Por motivos de desempenho, como prática recomendada, extraia modelos da mesma região em que o contêiner de IA da NVIDIA é executado. Para isso, identifique o identificador da região e defina-o nos parâmetros do ambiente. O guia a seguir descreve as várias regiões e identificadores de região associados: Regiões e identificadores do OCI.

URL do Ponto Final

Depois de identificar sua autorização e região, derive o URL do ponto final (AWS_ENDPOINT_URL). Siga este guia: Pontos Finais Dedicados do Serviço Object Storage.

Os URLs S3 seguem este padrão para compatibilidade com S3: <$namespace>.compat.objectstorage.<$region>.oraclecloud.com.

  • O valor <$namespace> para modelos do Nvidia AI é sempre bmcinfraorch.
  • O valor <$region> é o identificador da região.

Para acessar o bucket em Ashburn com o identificador us-ashburn-1, o URL do ponto final é: https://bmcinfraorch.compat.objectstorage.us-ashburn-1.oraclecloud.com/

Como prática recomendada, crie uma variável de região semelhante ao seguinte exemplo: https://bmcinfraorch.compat.objectstorage.${region}.oraclecloud.com/"

Nomes de Modelo

Os modelos podem ser acessados em cada região por meio de buckets s3. Cada modelo é organizado em uma pasta raiz com o rótulo nvaie.

Por exemplo: s3repo://nvaie/

Para carregar o Llama da Meta instruir o LLM, a variável de ambiente é definida da seguinte forma:
-e NIM_MODEL_NAME="s3repo://nvaie/meta-llama/Llama-3.1-8B-Instruct"

Finalizando

O script docker de exemplo a seguir carrega a versão 1.14.0 do contêiner Multi-Nim e injeta o Llama da Meta instruindo o LLM na região Ashburn.


image='iad.ocir.io/imagegen/nvaie-multi-llm-nim:1.14.0'
region='us-ashburn-1'
docker run \
        --gpus all \
        --ipc=host \
        --ulimit memlock=-1 \
        --ulimit stack=67108864 \
        -p 8000:8000  \
        -e AWS_ACCESS_KEY_ID="$AWS_ACCESS_KEY_ID" \
        -e AWS_SECRET_ACCESS_KEY="$AWS_SECRET_ACCESS_KEY" \
        -e AWS_REGION="${region}" \
        -e AWS_ENDPOINT_URL="https://bmcinfraorch.compat.objectstorage.${region}.oraclecloud.com/" \
        -e NIM_MODEL_NAME="s3repo://nvaie/meta-llama/Llama-3.1-8B-Instruct" \
        $image