Implantar o LLM
Em seguida, você pode usar o serviço OCI Block Volumes para armazenar dados, objetos e dados de modelo não estruturados. Siga as instruções para concluir cada tarefa:
- Criar uma Instância
- Criar um Volume em Blocos
- Anexar um Volume em Blocos a uma Instância
- Estabelecer Conexão com um Volume em Blocos
- Criar um Bucket do OCI Object Storage
Isso implantará um modelo do OCI Object Storage em um cluster do OKE em execução no OCI.
Criar um Cluster do OKE
Para criar um cluster OKE, use o seguinte comando:
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
Para usar a opção de console, siga estas etapas:
Servir LLM
llm
e SamplingParams
para inferência off-line com um batch de prompts. Em seguida, você pode carregar e chamar o modelo.
Veja a seguir um exemplo de um modelo 70B do Meta Llama 3 que precisa de várias GPUs para serem executadas com paralelismo de tensor. O vLLM usa o algoritmo de paralelismo de tensor do Megatron-LM e o multiprocessamento do Python para gerenciar o runtime distribuído em nós únicos.