Desplegar el LLM
A continuación, puede utilizar el servicio OCI Block Volumes para almacenar datos, objetos y datos de modelo no estructurados. Siga las instrucciones para completar cada tarea:
- Creación de una instancia
- Crear un Volumen en Bloque
- Asociar un Volumen en Bloque a una Instancia
- Conexión a un volumen en bloque
- Creación de un cubo de OCI Object Storage
De esta forma, se desplegará un modelo de OCI Object Storage en un cluster de OKE que se ejecute en OCI.
Creación de un clúster de OKE
Para crear un cluster OKE, utilice el siguiente comando:
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
Para utilizar la opción de consola, siga estos pasos:
Utilizar las funciones de vLLM en ROCm
ROCm
:
Servir LLM
llm
y SamplingParams
para la inferencia fuera de línea con un lote de peticiones de datos. A continuación, puede cargar y llamar al modelo.
A continuación se muestra un ejemplo de un modelo 70B de Meta Llama 3 que necesita varias GPU para ejecutarse con paralelismo de tensor. vLLM utiliza el algoritmo de paralelismo de tensor de Megatron-LM y el multiprocesamiento de Python para gestionar el tiempo de ejecución distribuido en nodos únicos.