A propos du déploiement de charges de travail d'IA distribuées multicloud à l'aide d'Oracle Interconnect for Google Cloud

La formation de grands modèles de langage (LLM) peut nécessiter une grande quantité de GPU provenant de plusieurs fournisseurs cloud dans une région. Cette solution de conception introduit une approche multicloud pour l'exécution de la formation et de l'inférence LLM sur l'infrastructure d'IA Oracle Cloud Infrastructure (OCI) à la demande en utilisant Oracle Interconnect for Google Cloud avec le front-end de l'application exécuté sur Google Kubernetes Engine (GKE).

OCI AI Cluster offre une plate-forme robuste pour l'entraînement de grands modèles de langage. Ces modèles, capables de générer du texte, de la traduction et du code de qualité humaine, nécessitent une immense puissance de calcul et de grandes quantités de données. OCI AI Cluster fournit l'infrastructure nécessaire avec des ressources de calcul hautes performances et un réseau optimisé pour accélérer la formation LLM. Les clusters d'IA dédiés sont des ressources de calcul que vous pouvez utiliser pour affiner des modèles personnalisés ou pour héberger des adresses pour les modèles de base préentraînés et les modèles personnalisés dans OCI Generative AI. Les clusters sont dédiés à vos modèles et ne sont pas partagés avec les utilisateurs d'autres locations.

A propos de l'IA générative et du moteur Google Kubernetes

Cette solution tire parti de l'infrastructure d'IA d'Oracle Cloud pour l'entraînement de modèles accélérés par GPU tout en utilisant des outils d'orchestration Kubernetes familiers.

L'IA générative est un service OCI entièrement géré qui fournit un ensemble de LLM personnalisables de pointe qui couvrent un large éventail de cas d'utilisation, y compris le chat, la génération de texte, la synthèse et la création d'intégrations de texte. Vous pouvez utiliser le playground de test pour essayer les modèles pré-entraînés prêts à l'emploi ou créer et héberger vos propres modèles personnalisés affinés en fonction de vos propres données sur des clusters d'AI dédiés.

Un cluster GKE se compose d'un plan de contrôle et d'ordinateurs de travail appelés noeuds. Le plan de contrôle et les noeuds constituent le système d'orchestration de cluster Kubernetes. GKE Autopilot gère l'ensemble de l'infrastructure sous-jacente des clusters, y compris le plan de contrôle, les noeuds et tous les composants système. Si vous utilisez le mode GKE Standard, GKE gère le plan de contrôle et les composants système, ainsi que les noeuds.

A propos des avantages de cette architecture

Les principaux avantages de l'utilisation d'OCI AI Cluster pour la formation LLM sont les suivants :

  • Évolutivité : ajustez facilement les ressources de calcul pour répondre aux demandes de formation.
  • Performances : tirez parti des instances de calcul hautes performances accélérées par GPU et du réseau.
  • Rentabilité : optimisez l'utilisation des ressources et ne payez que pour ce que vous utilisez.
  • Sécurité : Exploitez les mesures de sécurité robustes d'Oracle pour protéger les données sensibles.
  • Intégration : intégration transparente avec d'autres services OCI pour la gestion des données et le déploiement de modèles.

En exploitant la puissance d'OCI AI Cluster, les entreprises peuvent développer et déployer des LLM sophistiqués pour stimuler l'innovation et la valeur commerciale.

Comprendre les étapes impliquées dans la formation d'un LLM sur un cluster d'IA OCI

Les étapes nécessaires pour entraîner un LLM sur le cluster d'IA OCI sont les suivantes :

  1. Configurez l'environnement de cluster AI.
  2. Préparer et prétraiter les données de formation.
  3. Sélectionnez et configurez une architecture LLM.
  4. Implémenter le réglage du pipeline de formation et des hyperparamètres.
  5. Evaluer les performances et affiner le modèle.