A propos du déploiement de modèles de langage volumineux dans OCI
PagedAttention
, qui est au cœur de vLLM, améliore l'efficacité du mécanisme Attention en le gérant en tant que mémoire virtuelle. Il améliore l'utilisation de la mémoire GPU, permet le traitement de séquences plus longues et prend en charge l'utilisation des contraintes de ressources matérielles. De plus, vLLM permet un traitement par lots continu pour améliorer le débit et réduire la latence.
Dans cette solution playbook, vous apprendrez à déployer un LLM à l'aide de GPU AMD Instinct™ MI300X dans OCI.
Workflow de solution
Hugging Face est une plateforme et un hub collaboratifs pour le machine learning qui fournit des modèles d'IA préentraînés, des outils de développement et une infrastructure d'hébergement pour les applications d'IA, ce qui rend le machine learning avancé accessible aux développeurs du monde entier.
Les images créées à partir du modèle peuvent être stockées dans le registre OCI pour la gestion des images de modèle, le contrôle des versions et la gestion des accès sécurisés. Le cluster amélioré Oracle Cloud Infrastructure Kubernetes Engine dans OCI avec une instance de GPU AMD BM peut être lancé à l'aide d'une interface de ligne de commande ou de la console. Enfin, une adresse d'inférence de modèle peut être servie sécurisée sur le réseau ou Internet.
Les composants tiers sont répertoriés ci-dessous :
- GPU AMD Instinct™
AMD Instinct™ MI300X GPU avec le logiciel ouvert AMD ROCm™ alimente les instances de supercluster OCI Compute appelées BM.GPU.MI300X.8. Les GPU AMD Instinct MI300X et le logiciel ROCm alimentent les workloads d'IA OCI les plus critiques.
Les fonctionnalités d'inférence des GPU AMD Instinct MI300X s'ajoutent à la vaste sélection d'instances Bare Metal hautes performances d'OCI pour éliminer la surcharge du calcul virtualisé couramment utilisé pour l'infrastructure d'IA.
- Adresses d'inférence
Inference Endpoints offre une solution de production sécurisée pour déployer facilement tous les modèles Transformers, Sentence-Transformers et Diffusers à partir du hub sur une infrastructure dédiée et de redimensionnement automatique gérée par Inference Endpoints.
Les composants OCI sont répertoriés ci-dessous :
- Région OCI
Une région OCI est une zone géographique précise qui contient des centres de données, hébergeant des domaines de disponibilité. Les régions sont indépendantes les une des autres et peuvent les séparer d'un pays ou d'un continent à l'autre par de grandes distances.
- Réseau et sous-réseau cloud virtuel OCI
Un réseau cloud virtuel est un réseau personnalisable défini par logiciel que vous configurez dans une région OCI. Comme les Réseaux de centre de données traditionnels, les Réseaux cloud virtuels vous donnent un contrôle sur l'environnement réseau. Un VCN peut comporter plusieurs blocs de routage interdomaine sans classe (CIDR) qui ne se chevauchent pas et que vous pouvez modifier une fois le VCN créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Volumes de blocs OCI
Avec Oracle Cloud Infrastructure Block Volumes, vous pouvez créer, associer, connecter et déplacer des volumes de stockage, et modifier les performances de volume pour répondre aux exigences de stockage, de performances et d'application. Une fois un volume attaché et connecté à une instance, vous pouvez l'utiliser comme un disque dur classique. Vous pouvez également déconnecter un volume et l'attacher à une autre instance sans perdre des données.
- OCI Kubernetes Engine
Oracle Cloud Infrastructure Kubernetes Engine (OCI Kubernetes Engine ou OKE) est un service entièrement géré, évolutif et hautement disponible que vous pouvez utiliser pour déployer vos applications en conteneur vers le cloud. Vous indiquez les ressources de calcul dont vos applications ont besoin, et OKE les provisionne sur OCI dans une location existante. OKE utilise Kubernetes pour automatiser le déploiement, la mise à l'échelle et la gestion des applications en conteneur dans les clusters d'hôtes.
- OCI Object Storage
OCI Object Storage fournit un accès à des quantités importantes de informations structurées et non structurées de tout type de contenu, y compris les sauvegardes de base de donnée, les données analytiques et le contenu enrichi tel que des images et des vidéos. Vous pouvez stocker des données en toute sécurité directement à partir des applications ou de la plate-forme cloud. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité de services.
Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez durant de longues périodes et auquel il est rare d'y accéder.
- OCI Registry
Oracle Cloud Infrastructure Registry est un service géré par Oracle qui vous permet de simplifier votre workflow de développement à production. Registry facilite le stockage, le partage et la gestion d'artefacts de développement tels que les images Docker.
Avant de commencer
- Blog : Le premier LLM offre des résultats d'expérience et de performances avec les GPU AMD Instinct MI300X
- En savoir plus sur vLLM.
- Pour lancer une instance
BM.GPU.MI300X.8
, vérifiez la capacité de calcul dans votre location en exécutant Compute Capacity Create. Suivez les étapes suivantes si vous devez réserver une instanceBM.GPU.MI300X.8
. - Pour lancer une instance de GPU dans un VCN, vous pouvez choisir un VCN existant dans votre location et votre région ou en créer un. Reportez-vous à la documentation Oracle Cloud Infrastructure Networking.
- Si vous voulez utiliser votre propre clé SSH pour vous connecter à l'instance à l'aide de SSH, vous avez besoin d'une clé publique de la paire que vous prévenez d'utiliser. La clé doit être au format
OpenSSH
. Reportez-vous à Gestion de la paire de clés sur une instance Linux. - Pour obtenir l'autorisation de lancement et d'utilisation des instances, reportez-vous à la documentation Stratégie IAM requise pour utiliser l'instance.
A propos des produits requis et des rôles
Cette solution nécessite les produits suivants :
- Oracle Cloud Infrastructure Compute Bare Metal avec un GPU AMD
- Oracle Cloud Infrastructure Object Storage
- Oracle Cloud Infrastructure Block Volumes
- Oracle Cloud Infrastructure Kubernetes Engine
- Oracle Cloud Infrastructure Registry
Ce sont les rôles nécessaires pour chaque produit.
Nom du service : Rôle | Obligatoire pour... |
---|---|
Stratégie Oracle Cloud Instance Launch Using Custom Image
|
|
Stratégie Oracle Cloud Manage Kubernetes Cluster
|
Administrators de la location ou appartenir à une stratégie octroyant le droit d'accès CLUSTER_MANAGE .
Reportez-vous à la section Configuration de stratégies pour la création et la mise en oeuvre de clusters. |
Stratégie Oracle Cloud working with Images from Registry
|
|
Reportez-vous à Produits, solutions et services Oracle pour obtenir ce dont vous avez besoin.