Modèles compatibles pour l'importation
Vous pouvez importer des modèles de langage volumineux open source et tiers à partir de Hugging Face et de buckets OCI Object Storage vers OCI Generative AI. Après avoir importé un modèle, vous pouvez l'héberger sur un cluster d'IA dédié, créer une adresse et l'utiliser dans le service d'IA générative.
Les modèles importés ne nécessitent pas l'engagement d'hébergement minimal de 744 heures par unité qui s'applique lorsque vous hébergez des modèles préentraînés disponibles dans OCI Generative AI sur des clusters d'IA dédiés.
Votre utilisation de ces modèles peut être soumise à des conditions distinctes des fournisseurs tiers applicables, et vous êtes responsable de votre respect de ces conditions. Oracle rejette toutes les garanties, indemnités et responsabilités découlant de ou liées à des LLM open source ou tiers que vous importez.
Architecture de modèle importée OCI Generative AI
Le service OCI Generative AI utilise Open Model Engine (OME) pour déployer et gérer les modèles importés. OME agit comme la couche d'orchestration entre le GPU et l'exécution de l'inférence.
Lorsque vous déployez un modèle importé, OME analyse le modèle et l'associe à l'exécution la plus efficace : vLLM (optimisé pour le haut débit) et SGLang (optimisé pour les hautes performances). Les moteurs d'exécution vLLM et SGLang exécutent les modèles sur les GPU.
Certains modèles sont fortement optimisés pour SGLang (tels que les LLM à grande échelle et ceux nécessitant RadixAttention pour la mémoire en contexte long), tandis que d'autres ont de meilleurs noyaux communautaires dans vLLM (tels que les LLM open source populaires et les modèles multimodaux).
Bien que vous puissiez importer n'importe quel modèle de discussion, d'intégration (et de réglage fin) validé via Open Model Engine (avec exécution vLLM ou SGLang), seuls les modèles explicitement répertoriés dans la section Modèles compatibles ont été évalués par Oracle par rapport aux exécutions de modèle open source et testés sur des configurations GPU prises en charge par Oracle. Nonobstant ce qui précède, Oracle n'est pas responsable des problèmes liés à l'exécution, la disponibilité, le fonctionnement ou la sécurité des Modèles Compatible. Les modèles non répertoriés peuvent présenter des problèmes de compatibilité et nous vous recommandons de tester tous les modèles non répertoriés avant leur utilisation en production.
Pour connaître le matériel disponible et connaître les étapes de déploiement des modèles importés, reportez-vous à Gestion des modèles importés.
Modèles compatibles
- Alibaba Qwen
Fonctionne avec des cas d'utilisation multilingues et multimodaux avancés.
- DeepSeek
Optimisé pour le codage, les mathématiques et le raisonnement complexe.
- Google Gemma
Conçu pour un traitement linguistique étendu et des cas d'utilisation généraux.
- Meta Llama
Modèles avec Grouped Query Attention (GQA) amélioré pour des performances améliorées.
- Microsoft Phi
Modèles compacts et efficaces pour des déploiements évolutifs.
- Mistral
Inclut l'intégration et les modèles de discussion. Le modèle d'intégration est adapté pour une gestion efficace du contexte à long terme.
- NVIDIA Nemotron
Modèles à poids ouvert avec des recettes et des données d'entraînement publiées, adaptés à la création d'agents d'IA spécialisés.
- OpenAI GptOss
Modèles de Mixture-of-Experts (MoE) de poids ouvert pour un raisonnement efficace et une manipulation en grand contexte.