À propos du déploiement de charges de travail d'IA réparties multinuages à l'aide d'Oracle Interconnect for Google Cloud

La formation de grands modèles linguistiques (LLM) peut nécessiter un grand nombre de processeurs graphiques de plusieurs fournisseurs de services en nuage dans une région. Cette solution de conception présente une approche multinuage pour exécuter la formation LLM et l'inférence sur l'infrastructure d'IA Oracle Cloud Infrastructure (OCI) sur demande à l'aide d'Oracle Interconnect for Google Cloud avec l'application frontale s'exécutant sur Google Kubernetes Engine (GKE).

OCI AI Cluster offre une plate-forme robuste pour la formation des modèles linguistiques volumineux. Ces modèles, capables de générer du texte, de la traduction et du code de qualité humaine, nécessitent une puissance de calcul immense et de vastes quantités de données. OCI AI Cluster fournit l'infrastructure nécessaire avec des ressources de calcul haute performance et un réseau optimisé pour accélérer la formation LLM. Les grappes dédiées à l'IA sont des ressources de calcul que vous pouvez utiliser pour ajuster des modèles personnalisés ou pour héberger des points d'extrémité pour les modèles de base et les modèles personnalisés préentraînés dans l'IA générative OCI. Les grappes sont dédiées à vos modèles et ne sont pas partagées avec les utilisateurs d'autres locations.

À propos de l'IA générative et de Google Kubernetes Engine

Cette solution tire parti de l'infrastructure d'IA d'Oracle Cloud pour la formation de modèles accélérés par GPU tout en utilisant les outils d'orchestration Kubernetes familiers.

L'IA générative est un service OCI entièrement géré qui fournit un jeu de LLM de pointe et personnalisables couvrant un large éventail de cas d'utilisation, notamment le clavardage, la génération de texte, la récapitulation et la création d'intégrations de texte. Vous pouvez utiliser le terrain de jeu pour tester les modèles pré-entraînés prêts à l'emploi ou créer et héberger vos propres modèles personnalisés à réglage fin basés sur vos données sur des clusters d'IA dédiés.

Une grappe GKE se compose d'un plan de contrôle et de machines de travail appelées noeuds. Le plan de contrôle et les noeuds constituent le système d'orchestration des grappes Kubernetes. GKE Autopilot gère l'ensemble de l'infrastructure sous-jacente des grappes, y compris le plan de contrôle, les noeuds et tous les composants du système. Si vous utilisez le mode GKE Standard, GKE gère le plan de contrôle et les composants système, et vous gérez les noeuds.

À propos des avantages de cette architecture

Les principaux avantages de l'utilisation d'OCI AI Cluster pour la formation LLM sont les suivants :

  • Extensibilité : Ajustez facilement les ressources de calcul pour qu'elles correspondent aux exigences d'entraînement.
  • Performance : Tirez parti des instances de réseau haute performance et de calcul accélérées par GPU.
  • Rendement des coûts : Optimisez l'utilisation des ressources et ne payez que pour ce que vous utilisez.
  • Sécurité : Exploitez les mesures de sécurité robustes d'Oracle pour protéger les données sensibles.
  • Intégration : Intégration transparente à d'autres services OCI pour la gestion des données et le déploiement de modèles.

En exploitant la puissance de la grappe d'intelligence artificielle pour OCI, les organisations peuvent développer et déployer des LLM sophistiquées pour stimuler l'innovation et la valeur commerciale.

Comprendre les étapes impliquées dans la formation d'un LLM sur une grappe d'IA OCI

Les étapes nécessaires à l'entraînement d'un LLM sur une grappe d'intelligence artificielle pour OCI sont les suivantes :

  1. Configurer l'environnement de grappe AI.
  2. préparation et prétraitement des données de formation;
  3. Sélectionnez et configurez une architecture LLM.
  4. Mettez en oeuvre le pipeline de formation et le réglage des hyperparamètres.
  5. Évaluer les performances et le réglage fin des modèles.