Modèles pris en charge pour l'importation
Vous pouvez importer des modèles de langage volumineux open source et tiers à partir de Hugging Face et de buckets OCI Object Storage vers OCI Generative AI. Créez des adresses pour ces modèles et utilisez-les dans le service d'IA générative pour accélérer les initiatives d'IA.
Architecture de modèle importée OCI Generative AI
Le service OCI Generative AI utilise Open Model Engine (OME) pour déployer et gérer les modèles importés. OME agit comme la couche d'orchestration entre le GPU et l'exécution de l'inférence.
Lorsque vous déployez un modèle importé, OME analyse le modèle et l'associe à l'exécution la plus efficace : vLLM (optimisé pour le haut débit) et SGLang (optimisé pour les hautes performances). Les moteurs d'exécution vLLM et SGLang exécutent les modèles sur les GPU.
Certains modèles sont fortement optimisés pour SGLang (tels que les LLM à grande échelle et ceux nécessitant RadixAttention pour la mémoire en contexte long), tandis que d'autres ont de meilleurs noyaux communautaires dans vLLM (tels que les LLM open source populaires et les modèles multimodaux).
Bien que vous puissiez importer n'importe quel modèle de discussion, d'intégration (et de réglage fin) pris en charge via Open Model Engine (avec exécution vLLM ou SGLang), seuls les modèles explicitement répertoriés dans la section Modèles pris en charge sont pris en charge. Les modèles non répertoriés peuvent présenter des problèmes de compatibilité et nous vous recommandons de tester tous les modèles non répertoriés avant leur utilisation en production.
Pour connaître le matériel disponible et connaître les étapes de déploiement des modèles importés, reportez-vous à Gestion des modèles importés.
Modèles pris en charge
- Alibaba Qwen
Fonctionnalités multilingues et multimodales avancées.
- DeepSeek
Optimisé pour le codage, les mathématiques et le raisonnement complexe avec une efficacité élevée.
- Google Gemma
Conçu pour répondre à de larges besoins de traitement du langage et à une grande polyvalence.
- Meta Llama
Amélioré avec Grouped Query Attention (GQA) pour des performances améliorées.
- Microsoft Phi
Connu pour son efficacité et sa compacité, conçu pour des performances évolutives et flexibles.
- Mistral
Inclut l'intégration et les modèles de discussion. Le modèle d'intégration est adapté pour une gestion efficace du contexte à long terme.
- NVIDIA Nemotron
Modèles à poids ouvert avec des recettes et des données d'entraînement publiées, adaptés à la création d'agents d'IA spécialisés.
- OpenAI GptOss
Construit avec une architecture mixte d'experts (MoE) de poids ouvert pour un raisonnement efficace et une gestion de grand contexte.