Modèles pris en charge pour l'importation
Vous pouvez importer des modèles de langage volumineux à code source libre et de tierce partie à partir de seaux de stockage d'objets Hugging Face et OCI dans le service d'intelligence artificielle générative pour OCI. Créez des points d'extrémité pour ces modèles et utilisez-les dans le service d'intelligence artificielle générative pour accélérer les initiatives d'IA.
Architecture de modèle importée par l'intelligence artificielle générative pour OCI
Le service d'intelligence artificielle générative pour OCI utilise Ouvrir le moteur de modèle (OME) pour déployer et gérer les modèles importés. OME sert de couche d'orchestration entre le GPU et l'exécution de l'inférence.
Lorsque vous déployez un modèle importé, OME analyse le modèle et l'apparie à l'environnement d'exécution le plus efficace : vLLM (optimisé pour un débit élevé) et SGLang (optimisé pour un rendement élevé). Les moteurs d'exécution vLLM et SGLang exécutent les modèles sur les GPU.
Certains modèles sont fortement optimisés pour SGLang (tels que les LLM à grande échelle et ceux nécessitant RadixAttention pour la mémoire contextuelle longue), tandis que d'autres ont de meilleurs noyaux communautaires dans vLLM (tels que les LLM à code source libre populaires et les modèles multimodaux).
Bien que vous puissiez importer n'importe quel modèle de clavardage, d'intégration (et de réglage fin) pris en charge par Ouvrir le moteur de modèle (avec vLLM ou SGLang lors de l'exécution), seuls les modèles explicitement répertoriés dans la section Modèles pris en charge sont pris en charge. Les modèles non listés peuvent présenter des problèmes de compatibilité et nous vous recommandons de tester tout modèle non listé avant l'utilisation en production.
Pour le matériel disponible et les étapes de déploiement des modèles importés, voir Gestion des modèles importés.
Modèles pris en charge
- Alibaba Qwen
Fonctions multilingues et multimodales avancées.
- DeepSeek
Optimisé pour le codage, les mathématiques et le raisonnement complexe avec une grande efficacité.
- Google Gemma
Conçu pour répondre à de grands besoins de traitement du langage et une grande polyvalence.
- Meta Llama
Amélioré avec l'attention des interrogations groupées (GQA) pour une performance améliorée.
- Microsoft Phi
Connu pour l'efficacité et la compacité, conçu pour des performances évolutives et flexibles.
- Mistral
Comprend des modèles d'intégration et de clavardage. Le modèle d'intégration est adapté pour une manipulation efficace à long contexte.
- NVIDIA Nemotron
Modèles à poids ouvert avec des données et des recettes d'entraînement publiées, adaptés à la création d'agents d'IA spécialisés.
- OpenAI GptOss
Construit avec une architecture Mixture-of-Experts (MoE) de poids ouvert pour un raisonnement efficace et une manipulation en contexte volumineux.