Déployer le LLM
Vous pouvez ensuite utiliser le service OCI Block Volumes pour stocker des données, des objets et des données de modèle non structurées. Suivez les instructions pour effectuer chaque tâche :
- Création d'une instance
- Création d'un volume de blocs
- Attachement d'un volume de blocs à une instance
- Connexion à un volume de blocs
- Création d'un bucket OCI Object Storage
Un modèle d'OCI Object Storage sera ainsi déployé vers un cluster OKE exécuté sur OCI.
Créer un cluster OKE
Pour créer un cluster OKE, utilisez la commande suivante :
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
Pour utiliser l'option de console, procédez comme suit :
Utiliser les fonctionnalités vLLM dans ROCm
ROCm
, procédez comme suit :
Servir le LLM
llm
et SamplingParams
pour l'inférence hors ligne avec un lot d'invites. Vous pouvez ensuite charger et appeler le modèle.
Voici un exemple de modèle Meta Llama 3 70B qui a besoin de plusieurs GPU pour s'exécuter avec un parallélisme de tenseur. vLLM utilise l'algorithme de parallélisme de tenseur de Megatron-LM et le multitraitement de Python pour gérer l'exécution distribuée sur des noeuds uniques.