Distribuisci LLM
Quindi puoi utilizzare il servizio Volumi a blocchi OCI per memorizzare dati, oggetti e dati di modelli non strutturati. Seguire le istruzioni per completare ogni attività:
- Creare un'istanza
- Creare un Volume a Blocchi
- Collega un volume a blocchi a un'istanza
- Connettersi a un volume a blocchi
- Crea un bucket di storage degli oggetti OCI
In questo modo verrà distribuito un modello dallo storage degli oggetti OCI a un cluster OKE in esecuzione su OCI.
Creare un cluster OKE
Per creare un cluster OKE, utilizzare il comando seguente:
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
Per utilizzare l'opzione della console, effettuare le operazioni riportate di seguito.
Utilizzare le funzioni vLLM in ROCm
ROCm
, effettuare le operazioni riportate di seguito.
Fornisci LLM
llm
e SamplingParams
per l'inferenza offline con un batch di prompt. È quindi possibile caricare e chiamare il modello.
Di seguito è riportato un esempio di modello 70B Meta Llama 3 che richiede l'esecuzione di più GPU con parallelismo del tensore. vLLM utilizza l'algoritmo di parallelismo del tensore di Megatron-LM e il multiprocessing di Python per gestire il runtime distribuito su singoli nodi.