Limites des modèles dans le service d'intelligence artificielle générative

Vérifiez les exigences de modèle suivantes pour les modèles personnalisés et de base d'intelligence artificielle générative OCI afin de tirer le meilleur parti de vos modèles.

Note

Pour les principales fonctions des modèles de base préentraînés, voir Modèles fondamentaux préentraînés dans l'IA générative.

Mise en correspondance de modèles de base avec des grappes

Pour héberger un modèle préentraîné ou personnalisé du service d'intelligence artificielle générative pour OCI sur une grappe dédiée à l'IA d'hébergement, allez à Modèles fondamentaux préentraînés dans le service d'intelligence artificielle générative. Sélectionnez ensuite le modèle préentraîné ou le modèle de base du modèle personnalisé. Dans la section Grappe dédiée à l'IA pour le modèle de la page, voir la taille des unités et les unités requises pour l'hébergement de ce modèle de base.

Ajout de points d'extrémité à des grappes d'hébergement

Pour héberger un modèle pour l'inférence sur une grappe d'IA dédiée hébergement, vous devez créer un point d'extrémité pour ce modèle. Vous pouvez ensuite ajouter un modèle personnalisé ou un modèle de base préentraîné à ce point d'extrémité.

À propos des alias de point d'extrémité et du service de pile

Une grappe d'intelligence artificielle dédiée pour l'hébergement peut avoir jusqu'à 50 points d'extrémité. Utilisez ces points d'extrémité pour les cas d'utilisation suivants :

Création d'alias de point d'extrémité

Créez des alias avec de nombreux points d'extrémité. Ces 50 points d'extrémité doivent pointer vers le même modèle de base ou vers la même version d'un modèle personnalisé. La création de nombreux points d'extrémité qui pointent vers le même modèle facilite la gestion des points d'extrémité, car vous pouvez les utiliser pour différents utilisateurs ou à des fins différentes.

Service de pile

Héberger plusieurs versions d'un modèle personnalisé sur une grappe. Cela s'applique aux modèles cohere.command et cohere.command-light qui sont ajustés avec la méthode d'entraînement T-Few. L'hébergement de différentes versions d'un modèle affiné peut vous aider à évaluer les modèles personnalisés pour différents cas d'utilisation.

Conseil

Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, vous pouvez augmenter son nombre d'instances.

Développez les sections suivantes pour vérifier les exigences relatives à l'hébergement de modèles sur le même cluster.

Clavardage
Important

Certains modèles de base préentraînés de l'IA générative pour OCI pris en charge pour le mode de service dédié sont maintenant obsolètes et seront mis hors service au plus tôt 6 mois après la publication du 1er modèle de remplacement. Vous pouvez héberger un modèle de base ou ajuster un modèle de base et héberger le modèle ajusté sur une grappe dédiée à l'IA (mode de service dédié) jusqu'à ce que le modèle de base soit abandonné. Pour les dates de mise hors service du mode de service dédié, voir Mise hors service des modèles.

Pour héberger les modèles de clavardage de base préentraînés ou les modèles de clavardage affinés sur un cluster d'IA dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à chaque modèle de base.

Taille de l'unité de grappe d'hébergement Règles de correspondance
Large Generic 2 pour le modèle de base, meta.llama-4-maverick-17b-128e-instruct-fp8

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-4-maverick-17b-128e-instruct-fp8 sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage de précision non disponible pour le modèle meta.llama-4-maverick-17b-128e-instruct-fp8.

Large Generic V2 pour le modèle de base, meta.llama-4-scout-17b-16e-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-4-scout-17b-16e-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage de précision non disponible pour le modèle meta.llama-4-scout-17b-16e-instruct.

LARGE_COHERE_V3 pour le modèle de base, cohere.command-a-03-2025

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-a-03-2025 sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage de précision non disponible pour le modèle cohere.command-a-03-2025.

Small Generic V2 pour le modèle de base, meta.llama-3.2-11b-vision-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3.2-11b-vision-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage de précision non disponible pour le modèle meta.llama-3.2-11b-vision-instruct.

Large Generic pour le modèle de base, meta.llama-3.3-70b-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3.3-70b-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger plusieurs modèles personnalisés sur le même cluster :

  • Réglez un modèle avec la méthode d'entraînement LoRA.
  • Utilisez le modèle meta.llama-3.3-70b-instruct comme base.
  • Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic pour le modèle de base, meta.llama-3.1-70b-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3.1-70b-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger plusieurs modèles personnalisés sur le même cluster :

  • Réglez un modèle avec la méthode d'entraînement LoRA.
  • Utilisez le modèle meta.llama-3.1-70b-instruct comme base.
  • Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic pour le modèle de base, meta.llama-3-70b-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3-70b-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger plusieurs modèles personnalisés sur le même cluster :

  • Réglez un modèle avec la méthode d'entraînement LoRA.
  • Utilisez le modèle meta.llama-3-70b-instruct comme base.
  • Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic V2 pour le modèle de base, meta.llama-3.2-90b-vision-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3.2-90b-vision-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour le modèle meta.llama-3.2-90b-vision-instruct.

Large Generic 2 pour le modèle de base, meta.llama-3.1-405b-instruct

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-3.1-405b-instruct sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour le modèle meta.llama-3.1-405b-instruct.

Small Cohere V2 pour le modèle de base, cohere.command-r-16k (obsolète)

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-r-16k sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger plusieurs modèles personnalisés sur le même cluster :

  • Réglez un modèle avec la méthode d'entraînement T-Few ou Vanilla.
  • Utilisez le modèle cohere.command-r-16k comme base.
  • Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).

Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base cohere.command-r-16k dans la même grappe, car la portion de pile n'est pas prise en charge.

Small Cohere V2 pour le modèle de base, cohere.command-r-08-2024

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-r-08-2024 sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger plusieurs modèles personnalisés sur le même cluster :

  • Réglez un modèle avec la méthode d'entraînement T-Few ou Vanilla.
  • Utilisez le modèle cohere.command-r-08-2024 comme base.
  • Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).

Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base cohere.command-r-16k dans la même grappe, car la portion de pile n'est pas prise en charge.

Large Cohere V2_2 pour le modèle de base, cohere.command-r-plus (obsolète)

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-r-plus sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour le modèle cohere.command-r-plus.

Large Cohere V2_2 pour le modèle de base, cohere.command-r-plus-08-2024

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-r-plus-08-2024 sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour le modèle cohere.command-r-plus-08-2024.

Réaffectation

Pour héberger le modèle de reclassement sur une grappe dédiée à l'IA, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.

Taille de l'unité de grappe d'hébergement Règles de correspondance
RERANK_COHERE

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.rerank.3-5 sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour le modèle Cohere Rerank.

Plongement

Pour héberger les modèles d'intégration sur un cluster d'IA dédié à l'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes.

Taille de l'unité de grappe d'hébergement Règles de correspondance
Embed Cohere

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour l'un des modèles préentraînés Cohere Embed sur le même cluster d'hébergement.

Hébergement de modèles personnalisés

Réglage fin non disponible pour les modèles Cohere Embed.

Génération de texte (obsolète)
Important

  • Non disponible sur demande : Tous les modèles préentraînés de base du service d'intelligence artificielle générative pour OCI pris en charge pour le mode de service sur demande qui utilisent les API de génération de texte et de récapitulation (y compris le terrain de jeu) sont maintenant mis hors service. Nous vous recommandons d'utiliser les modèles de chat à la place.
  • Peut être hébergé sur des grappes : Si vous hébergez une récapitulation ou un modèle de génération tel que cohere.command sur une grappe dédiée à l'IA (mode de service dédié), vous pouvez continuer à utiliser ce modèle jusqu'à ce qu'il soit abandonné. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service.

Pour héberger les modèles de génération de texte sur un cluster AI dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à votre modèle de base.

Taille de l'unité de grappe d'hébergement Règles de correspondance
Small Cohere pour le modèle de base, cohere.command-light

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command-light sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger différents modèles personnalisés sur la même grappe :

  • Réglez tous les modèles avec la méthode d'entraînement T-Few.
  • Utilisez le modèle cohere.command-light comme base.
  • Assurez-vous que tous les modèles de base ont la même version.
  • Créez un point d'extrémité pour chaque modèle sur la même grappe d'hébergement.
Large Cohere pour le modèle de base, cohere.command

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command avec la même version sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger différents modèles personnalisés sur la même grappe :

  • Réglez tous les modèles avec la méthode d'entraînement T-Few.
  • Utilisez le modèle cohere.command comme base.
  • Assurez-vous que tous les modèles de base ont la même version.
  • Ajoutez un point d'extrémité à la grappe d'hébergement pour chaque modèle.
Llama2 70 pour le modèle de base, meta.llama-2-70b-chat

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
  • Créez autant de points d'extrémité que nécessaire pour le modèle meta.llama-2-70b-chat sur la même grappe d'hébergement.
Récapitulation (obsolète)
Important

Le modèle cohere.command pris en charge pour le mode de service sur demande est maintenant mis hors service et ce modèle est obsolète pour le mode de service dédié. Si vous hébergez cohere.command sur une grappe dédiée à l'IA (mode de service dédié) pour la récapitulation, vous pouvez continuer à utiliser cette réplique de modèle hébergé avec l'API de récapitulation et dans le terrain de jeu jusqu'à ce que le modèle cohere.command abandonne le mode de service dédié. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service. Nous vous recommandons d'utiliser plutôt les modèles de clavardage qui offrent les mêmes capacités de regroupement, y compris le contrôle de la longueur et du style du sommaire.

Pour héberger le modèle de récapitulation préentraîné cohere.command sur une grappe d'IA dédiée à l'hébergement, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.

Taille d'unité de la grappe d'hébergement Règles de correspondance
Large Cohere pour le modèle de base, cohere.command

Modèles de base d'hébergement

Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :

  • Créez autant de points d'extrémité que nécessaire pour le modèle cohere.command avec la même version sur la même grappe d'hébergement.

Hébergement de modèles personnalisés

Pour héberger différents modèles personnalisés sur la même grappe :

  • Réglez tous les modèles avec la méthode d'entraînement T-Few.
  • Utilisez le modèle cohere.command comme base.
  • Assurez-vous que tous les modèles de base ont la même version.
  • Ajoutez un point d'extrémité à la grappe d'hébergement pour chaque modèle.

Données d'entraînement

Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :

  • Un maximum d'un jeu de données de réglage de précision est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement à un ratio de 80:20 pour l'entraînement et la validation.
  • Chaque fichier doit comporter au moins 32 exemples de paires invite/achèvement.
  • Le format de fichier est JSONL.
  • Chaque ligne du fichier JSONL a le format suivant :

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • Le fichier doit être stocké dans un seau de stockage d'objets OCI.

En savoir plus sur Exigences en matière de données d'entraînement dans le service d'intelligence artificielle générative.

Données d'entrée pour les intégrations de texte

Les données d'entrée pour la création d'intégrations de texte ont les exigences suivantes :

  • Vous pouvez ajouter des phrases, des phrases ou des paragraphes pour intégrer une phrase à la fois ou en téléchargeant un fichier.
  • Seuls les fichiers portant l'extension .txt sont autorisés.
  • Si vous utilisez un fichier d'entrée, chaque phrase, expression ou paragraphe d'entrée du fichier doit être séparé par un caractère de saut de ligne.
  • Un maximum de 96 entrées sont autorisées pour chaque exécution.
  • Dans la console, chaque entrée doit être inférieure à 512 jetons pour les modèles texte seulement.
  • Si une entrée est trop longue, indiquez s'il faut couper le début ou la fin du texte pour tenir dans la limite du jeton en réglant le paramètre Tronquer à Début ou Fin. Si une entrée dépasse la limite de 512 jetons et que le paramètre Truncate (Tronquer) est réglé à None (Aucun), vous obtenez un message d'erreur.
  • Pour les modèles de texte et d'image, vous pouvez avoir des fichiers et des entrées qui totalisent jusqu'à 128 000 jetons.
  • Pour les modèles d'intégration de texte et d'image, tels que Cohere Embed English Image V3, vous pouvez ajouter du texte ou une seule image. Pour l'image, vous pouvez utiliser l'API. L'entrée d'image n'est pas disponible dans la console. Pour l'API, entrez une image encodée base64 à chaque exécution. Par exemple, une image 512 x 512 est convertie en environ 1 610 jetons.

Découvrez la création d'intégrations de texte dans le service d'intelligence artificielle générative pour OCI.