Déployer le GML
Vous pouvez ensuite utiliser le service Volumes par blocs pour OCI pour stocker des données, des objets et des données de modèle non structurées. Suivez les instructions pour effectuer chaque tâche :
- Créer une instance
- Créer un volume par blocs
- Attacher un volume par blocs à une instance
- Se connecter à un volume par blocs
- Créer un seau de stockage d'objets OCI
Un modèle du service Stockage d'objets OCI sera déployé dans une grappe OKE s'exécutant sur OCI.
Créer une grappe OKE
Pour créer une grappe OKE, utilisez la commande suivante :
oci ce cluster create --compartment-id ocid1.compartment.oc1..aaaaaaaay______t6q
--kubernetes-version v1.24.1 --name amd-mi300x-ai-cluster --vcn-id
ocid1.vcn.oc1.iad.aaaaaae___yja
Pour utiliser l'option de console, procédez comme suit :
Utiliser les fonctions vLLM dans ROCm
ROCm
:
Servir le GML
llm
et SamplingParams
pour l'inférence hors ligne à l'aide d'un lot d'invites. Vous pouvez ensuite charger et appeler le modèle.
Voici un exemple de modèle Meta Llama 3 70B qui nécessite plusieurs GPU pour s'exécuter avec un parallélisme de tenseur. vLLM utilise l'algorithme de parallélisme de tenseur de Megatron-LM et le multitraitement de Python pour gérer l'exécution distribuée sur des noeuds uniques.