Sobre a Implantação de Grandes Modelos de Linguagem no OCI

Implementar um Modelo de Linguagem Grande (LLM) de forma eficiente e em escala é uma tarefa desafiadora e com muitos recursos. O Oracle Cloud Infrastructure (OCI) oferece a GPU AMD Instinct™ MI300X em oferta bare metal que executa o modelo LLama2 70B.
vLLM é uma biblioteca rápida e fácil de usar para inferência e serviço de LLM. O PagedAttention, que é central para o vLLM, aumenta a eficiência do mecanismo de atenção gerenciando-o como memória virtual. Ele melhora a utilização da memória GPU, permite o processamento de sequências mais longas e suporta o trabalho dentro das restrições de recursos de hardware. Além disso, o vLLM permite que o batching contínuo melhore o throughput e reduza a latência.

Nesta solução playbook, você aprende a implementar um LLM usando GPU AMD Instinct™ MI300Xs na OCI.

Workflow da Solução

O Hugging Face é uma plataforma colaborativa e um hub para machine learning que fornece modelos de IA pré-treinados, ferramentas de desenvolvimento e infraestrutura de hospedagem para aplicações de IA, tornando o machine learning avançado acessível a desenvolvedores em todo o mundo.

O diagrama de workflow a seguir mostra como os artefatos de modelo podem ser extraídos da biblioteca de código-fonte aberto GitHub do Hugging Face e armazenados no OCI Object Storage.


As imagens criadas com base no modelo podem ser armazenadas no OCI Registry para gerenciamento de imagem de modelo, controle de versão e gerenciamento de acesso seguro. O cluster aprimorado do Oracle Cloud Infrastructure Kubernetes Engine na instância de GPU OCI com AMD BM pode ser iniciado usando uma CLI ou na console. Por fim, um ponto final de inferência de modelo pode ser servido protegido pela rede ou pela internet.

A seguir, estão listados os componentes de terceiros:

  • GPUs AMD Instinct™

    GPU AMD Instinct™ MI300X com software aberto AMD ROCm™ potencializa instâncias do Supercluster OCI Compute chamadas BM.GPU.MI300X.8. As GPUs AMD Instinct MI300X e o software ROCm alimentam as cargas de trabalho de IA da OCI mais críticas.

    Os recursos de inferência das GPUs AMD Instinct MI300X são adicionados à ampla seleção de instâncias bare metal de alto desempenho da OCI para remover a sobrecarga da computação virtualizada comumente usada para infraestrutura de IA.

  • Pontos Finais de Inferência

    A Inference Endpoints oferece uma solução de produção segura para implementar facilmente qualquer modelo de Transformadores, Transformadores de Sentenças e Difusores do Hub em uma infraestrutura dedicada e de dimensionamento automático gerenciada pela Inference Endpoints.

A seguir, estão listados os componentes do OCI:

  • Região da OCI

    Uma região do OCI é uma área geográfica localizada que contém um ou mais data centers, hospedando domínios de disponibilidade. Regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou mesmo continentes).

  • Rede e sub-rede virtual na nuvem da OCI

    VCN (rede virtual na nuvem) é uma rede personalizável definida por software que você configura em uma região do OCI. Assim como as redes tradicionais do data center, as VCNs dão a você controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos de CIDR (Classless Inter-domain Routing) não sobrepostos que você pode alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Volumes em Blocos do OCI

    Com o Oracle Cloud Infrastructure Block Volumes, você pode criar, anexar, conectar e mover volumes de armazenamento e alterar o desempenho do volume para atender aos seus requisitos de armazenamento, desempenho e aplicativo. Depois de anexar e conectar um volume a uma instância, você pode usar o volume como disco rígido comum. Você também pode desconectar um volume e anexá-lo a outra instância sem perder dados.

  • Mecanismo do Kubernetes do OCI

    O Oracle Cloud Infrastructure Kubernetes Engine (OCI Kubernetes Engine ou OKE) é um serviço totalmente gerenciado, escalável e altamente disponível que você pode usar para implantar seus aplicativos conteinerizados na nuvem. Você especifica os recursos de computação necessários aos seus aplicativos e o OKE os provisiona no OCI em uma tenancy existente. O OKE usa o Kubernetes para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres em clusters de hosts.

  • OCI Object Storage

    O OCI Object Storage oferece acesso a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de banco de dados, dados analíticos e conteúdo avançado como imagens e vídeos. Você pode armazenar dados com segurança diretamente de aplicativos ou de dentro da plataforma de nuvem. Você pode dimensionar o armazenamento sem sofrer qualquer degradação no desempenho ou na confiabilidade de serviço.

    Use armazenamento padrão para armazenamento "quente" que você precisa acessar com rapidez, rapidez e frequência. Use armazenamento de arquivo compactado para armazenamento "frio" que você retém por longos períodos de tempo e acesso raro.

  • OCI Registry

    O Oracle Cloud Infrastructure Registry é um serviço gerenciado pelo sistema Oracle que permite simplificar seu workflow de desenvolvimento para produção. O Registry facilita o armazenamento, o compartilhamento e o gerenciamento de artefatos do desenvolvimento, como imagens Docker.

Antes de Começar

Antes de começar, certifique-se de definir o seguinte:

Sobre Produtos e Funções Obrigatórios

Esta solução requer os seguintes produtos:

  • Oracle Cloud Infrastructure Compute Bare Metal com GPU AMD
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Cloud Infrastructure Block Volumes
  • Oracle Cloud Infrastructure Kubernetes Engine
  • Oracle Cloud Infrastructure Registry

Essas são as funções necessárias para cada produto.

Nome do Serviço: Função Obrigatório para...
Política Oracle Cloud Instance Launch Using Custom Image
  • Permita que o grupo ImageUsers inspecione instance-images no compartimento ABC.
  • Permita que o grupo ImageUsers seja {INSTANCE_IMAGE_READ} no compartimento ABC em que target.image.id=''.
  • Permita que o grupo ImageUsers gerencie instâncias no compartimento ABC.
  • Permita que o grupo ImageUsers leia app-catalog-listing na tenancy.
  • Permita que o grupo ImageUsers use volume-family no compartimento ABC.
  • Permita que o grupo ImageUsers use virtual-network-family no compartimento XYZ.
Política Oracle Cloud Manage Kubernetes Cluster
  • Permita que o grupo <group-name> seja manage cluster-family em <location>.
  • Permita que o grupo acme-dev-team-pool-admins use cluster-node-pools em <location>.
Para criar uma cluster do OKE no OCI, você deve pertencer ao grupo Administrators da tenancy ou pertencer a uma empresa à qual uma política concede a permissão CLUSTER_MANAGE.

Consulte a Configuração da Política para Criação e Implantação de Cluster.

Política Oracle Cloud working with Images from Registry
  • Permita que o grupo acme-pullers leia repositórios na tenancy.
  • Permita que o grupo acme-pushers gerencie repositórios na tenancy.

Consulte Produtos, Soluções e Serviços Oracle para obter o que você precisa.