Modèles compatibles pour l'importation

Vous pouvez importer des modèles de langage volumineux à code source libre et de tierce partie à partir de seaux de stockage d'objets Hugging Face et OCI dans le service d'intelligence artificielle générative pour OCI. Après avoir importé un modèle, vous pouvez l'héberger dans une grappe dédiée à l'IA, créer un point d'extrémité et l'utiliser dans le service d'IA générative.

Note

Les modèles importés ne nécessitent pas l'engagement d'hébergement minimal de 744 heures par unité qui s'applique lorsque vous hébergez des modèles préentraînés disponibles dans OCI Generative AI sur des grappes d'IA dédiées.

Votre utilisation de ces modèles peut être assujettie à des conditions distinctes de celles des fournisseurs tiers applicables et vous êtes responsable de votre conformité à ces conditions. Oracle décline toutes les garanties, indemnités et responsabilités découlant de tout LLM à code source libre ou de tiers que vous importez ou qui sont liées à celui-ci.

Architecture de modèle importée par l'intelligence artificielle générative pour OCI

Le service d'intelligence artificielle générative pour OCI utilise Ouvrir le moteur de modèle (OME) pour déployer et gérer les modèles importés. OME sert de couche d'orchestration entre le GPU et l'exécution de l'inférence.

Lorsque vous déployez un modèle importé, OME analyse le modèle et l'apparie à l'environnement d'exécution le plus efficace : vLLM (optimisé pour un débit élevé) et SGLang (optimisé pour un rendement élevé). Les moteurs d'exécution vLLM et SGLang exécutent les modèles sur les GPU.

Certains modèles sont fortement optimisés pour SGLang (tels que les LLM à grande échelle et ceux nécessitant RadixAttention pour la mémoire contextuelle longue), tandis que d'autres ont de meilleurs noyaux communautaires dans vLLM (tels que les LLM à code source libre populaires et les modèles multimodaux).

Important

Bien que vous puissiez importer tout modèle de clavardage, d'intégration (et de réglage fin) validé au moyen du moteur de modèles ouvert (avec l'exécution vLLM ou SGLang), seuls les modèles explicitement répertoriés dans la section Modèles compatibles ont été évalués par Oracle par rapport aux environnements d'exécution de modèles à code source libre et testés sur les configurations GPU prises en charge par Oracle. Nonobstant ce qui précède, Oracle n'est pas responsable des problèmes liés à la performance, la disponibilité, l'exploitation ou la sécurité des modèles compatibles. Les modèles non listés peuvent présenter des problèmes de compatibilité et nous vous recommandons de tester tout modèle non listé avant l'utilisation en production.

Pour le matériel disponible et les étapes de déploiement des modèles importés, voir Gestion des modèles importés.

Modèles compatibles

  • Alibaba Qwen

    Présente des cas d'utilisation multilingue et multimodale avancés.

  • DeepSeek

    Optimisé pour le codage, les mathématiques et le raisonnement complexe.

  • Google Gemma

    Conçu pour un traitement de langage étendu et des cas d'utilisation à usage général.

  • Meta Llama

    Modèles avec fonction GQA (Regrouped Query Attention) améliorée pour une meilleure performance.

  • Microsoft Phi

    Modèles compacts et efficaces pour les déploiements évolutifs.

  • Mistral

    Comprend des modèles d'intégration et de clavardage. Le modèle d'intégration est adapté pour une manipulation efficace à long contexte.

  • NVIDIA Nemotron

    Modèles à poids ouvert avec des données et des recettes d'entraînement publiées, adaptés à la création d'agents d'IA spécialisés.

  • OpenAI GptOss

    Modèles de mélange d'Experts (MoE) à poids ouvert pour un raisonnement efficace et une manipulation à grand contexte.