Limites des modèles dans le service d'intelligence artificielle générative

Vérifiez les exigences de modèle suivantes pour les modèles personnalisés et de base d'intelligence artificielle générative OCI afin de tirer le meilleur parti de vos modèles.

Note

Pour les principales fonctions des modèles de base préentraînés, voir Modèles fondamentaux préentraînés dans l'IA générative.

Mise en correspondance de modèles de base avec des grappes

Pour héberger un modèle préentraîné ou personnalisé du service d'intelligence artificielle générative pour OCI sur une grappe dédiée à l'IA d'hébergement, allez à Modèles fondamentaux préentraînés dans le service d'intelligence artificielle générative. Sélectionnez ensuite le modèle préentraîné ou le modèle de base du modèle personnalisé. Dans la section Grappe dédiée à l'IA pour le modèle de la page, voir la taille des unités et les unités requises pour l'hébergement de ce modèle de base.

Ajout de points d'extrémité à des grappes d'hébergement

Pour héberger un modèle pour l'inférence sur une grappe d'IA dédiée hébergement, vous devez créer un point d'extrémité pour ce modèle. Vous pouvez ensuite ajouter un modèle personnalisé ou un modèle de base préentraîné à ce point d'extrémité.

À propos des alias de point d'extrémité et du service de pile

Une grappe d'intelligence artificielle dédiée pour l'hébergement peut avoir jusqu'à 50 points d'extrémité. Utilisez ces points d'extrémité pour les cas d'utilisation suivants :

Création d'alias de point d'extrémité: Créez des alias avec de nombreux points d'extrémité. Ces 50 points d'extrémité doivent pointer vers le même modèle de base ou vers la même version d'un modèle personnalisé. La création de nombreux points d'extrémité qui pointent vers le même modèle facilite la gestion des points d'extrémité, car vous pouvez les utiliser pour différents utilisateurs ou à des fins différentes.
Service de pile: Héberger plusieurs versions d'un modèle personnalisé sur une grappe. Cela s'applique aux modèles cohere.command et cohere.command-light qui sont ajustés avec la méthode d'entraînement T-Few. L'hébergement de différentes versions d'un modèle affiné peut vous aider à évaluer les modèles personnalisés pour différents cas d'utilisation.

Conseil

Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, vous pouvez augmenter son nombre d'instances.

Développez les sections suivantes pour vérifier les exigences relatives à l'hébergement de modèles sur le même cluster.

Clavardage

Important

Certains modèles de base préentraînés de l'IA générative pour OCI pris en charge pour le mode de service dédié sont maintenant obsolètes et seront mis hors service au plus tôt 6 mois après la publication du 1^er modèle de remplacement. Vous pouvez héberger un modèle de base ou ajuster un modèle de base et héberger le modèle ajusté sur une grappe dédiée à l'IA (mode de service dédié) jusqu'à ce que le modèle de base soit abandonné. Pour les dates de mise hors service du mode de service dédié, voir Mise hors service des modèles.

Pour héberger les modèles de clavardage de base préentraînés ou les modèles de clavardage affinés sur un cluster d'IA dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à chaque modèle de base.


Taille de l'unité de grappe d'hébergement	Règles de correspondance
Large Generic 2 pour le modèle de base, `meta.llama-4-maverick-17b-128e-instruct-fp8`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-4-maverick-17b-128e-instruct-fp8` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle `meta.llama-4-maverick-17b-128e-instruct-fp8`.
Large Generic V2 pour le modèle de base, `meta.llama-4-scout-17b-16e-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-4-scout-17b-16e-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle `meta.llama-4-scout-17b-16e-instruct`.
LARGE_COHERE_V3 pour le modèle de base, `cohere.command-a-03-2025`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-a-03-2025` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle `cohere.command-a-03-2025`.
Small Generic V2 pour le modèle de base, `meta.llama-3.2-11b-vision-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3.2-11b-vision-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle `meta.llama-3.2-11b-vision-instruct`.
Large Generic pour le modèle de base, `meta.llama-3.3-70b-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3.3-70b-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster : Réglez un modèle avec la méthode d'entraînement `LoRA`. Utilisez le modèle `meta.llama-3.3-70b-instruct` comme base. Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic pour le modèle de base, `meta.llama-3.1-70b-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3.1-70b-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster : Réglez un modèle avec la méthode d'entraînement `LoRA`. Utilisez le modèle `meta.llama-3.1-70b-instruct` comme base. Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic pour le modèle de base, `meta.llama-3-70b-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3-70b-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster : Réglez un modèle avec la méthode d'entraînement `LoRA`. Utilisez le modèle `meta.llama-3-70b-instruct` comme base. Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version).
Large Generic V2 pour le modèle de base, `meta.llama-3.2-90b-vision-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3.2-90b-vision-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle `meta.llama-3.2-90b-vision-instruct`.
Large Generic 2 pour le modèle de base, `meta.llama-3.1-405b-instruct`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-3.1-405b-instruct` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle `meta.llama-3.1-405b-instruct`.
Small Cohere V2 pour le modèle de base, `cohere.command-r-16k` (obsolète)	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-r-16k` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster : Réglez un modèle avec la méthode d'entraînement `T-Few` ou `Vanilla`. Utilisez le modèle `cohere.command-r-16k` comme base. Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version). Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base `cohere.command-r-16k` dans la même grappe, car la portion de pile n'est pas prise en charge.
Small Cohere V2 pour le modèle de base, `cohere.command-r-08-2024`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-r-08-2024` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster : Réglez un modèle avec la méthode d'entraînement `T-Few` ou `Vanilla`. Utilisez le modèle `cohere.command-r-08-2024` comme base. Créez autant de points d'extrémité que nécessaire pour le modèle personnalisé (même version). Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base `cohere.command-r-16k` dans la même grappe, car la portion de pile n'est pas prise en charge.
Large Cohere V2_2 pour le modèle de base, `cohere.command-r-plus` (obsolète)	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-r-plus` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle `cohere.command-r-plus`.
Large Cohere V2_2 pour le modèle de base, `cohere.command-r-plus-08-2024`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-r-plus-08-2024` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle `cohere.command-r-plus-08-2024`.

Réaffectation

Pour héberger le modèle de reclassement sur une grappe dédiée à l'IA, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.


Taille de l'unité de grappe d'hébergement	Règles de correspondance
RERANK_COHERE	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.rerank.3-5` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle Cohere Rerank.

Plongement

Pour héberger les modèles d'intégration sur un cluster d'IA dédié à l'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes.


Taille de l'unité de grappe d'hébergement	Règles de correspondance
Embed Cohere	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour l'un des modèles préentraînés Cohere Embed sur le même cluster d'hébergement. Hébergement de modèles personnalisés Réglage fin non disponible pour les modèles Cohere Embed.

Génération de texte (obsolète)

Important

Non disponible sur demande : Tous les modèles préentraînés de base du service d'intelligence artificielle générative pour OCI pris en charge pour le mode de service sur demande qui utilisent les API de génération de texte et de récapitulation (y compris le terrain de jeu) sont maintenant mis hors service. Nous vous recommandons d'utiliser les modèles de chat à la place.
Peut être hébergé sur des grappes : Si vous hébergez une récapitulation ou un modèle de génération tel que cohere.command sur une grappe dédiée à l'IA (mode de service dédié), vous pouvez continuer à utiliser ce modèle jusqu'à ce qu'il soit abandonné. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service.

Pour héberger les modèles de génération de texte sur un cluster AI dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à votre modèle de base.


Taille de l'unité de grappe d'hébergement	Règles de correspondance
Small Cohere pour le modèle de base, `cohere.command-light`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command-light` sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe : Réglez tous les modèles avec la méthode d'entraînement `T-Few`. Utilisez le modèle `cohere.command-light` comme base. Assurez-vous que tous les modèles de base ont la même version. Créez un point d'extrémité pour chaque modèle sur la même grappe d'hébergement.
Large Cohere pour le modèle de base, `cohere.command`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command` avec la même version sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe : Réglez tous les modèles avec la méthode d'entraînement `T-Few`. Utilisez le modèle `cohere.command` comme base. Assurez-vous que tous les modèles de base ont la même version. Ajoutez un point d'extrémité à la grappe d'hébergement pour chaque modèle.
Llama2 70 pour le modèle de base, `meta.llama-2-70b-chat`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `meta.llama-2-70b-chat` sur la même grappe d'hébergement.

Récapitulation (obsolète)

Important

Le modèle cohere.command pris en charge pour le mode de service sur demande est maintenant mis hors service et ce modèle est obsolète pour le mode de service dédié. Si vous hébergez cohere.command sur une grappe dédiée à l'IA (mode de service dédié) pour la récapitulation, vous pouvez continuer à utiliser cette réplique de modèle hébergé avec l'API de récapitulation et dans le terrain de jeu jusqu'à ce que le modèle cohere.command abandonne le mode de service dédié. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service. Nous vous recommandons d'utiliser plutôt les modèles de clavardage qui offrent les mêmes capacités de regroupement, y compris le contrôle de la longueur et du style du sommaire.

Pour héberger le modèle de récapitulation préentraîné cohere.command sur une grappe d'IA dédiée à l'hébergement, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.


Taille d'unité de la grappe d'hébergement	Règles de correspondance
Large Cohere pour le modèle de base, `cohere.command`	Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster : Créez autant de points d'extrémité que nécessaire pour le modèle `cohere.command` avec la même version sur la même grappe d'hébergement. Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe : Réglez tous les modèles avec la méthode d'entraînement `T-Few`. Utilisez le modèle `cohere.command` comme base. Assurez-vous que tous les modèles de base ont la même version. Ajoutez un point d'extrémité à la grappe d'hébergement pour chaque modèle.

Données d'entraînement

Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :

Un maximum d'un jeu de données de réglage de précision est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement à un ratio de 80:20 pour l'entraînement et la validation.
Chaque fichier doit comporter au moins 32 exemples de paires invite/achèvement.
Le format de fichier est JSONL.
Chaque ligne du fichier JSONL a le format suivant :
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
Le fichier doit être stocké dans un seau de stockage d'objets OCI.

En savoir plus sur Exigences en matière de données d'entraînement dans le service d'intelligence artificielle générative.

Données d'entrée pour les intégrations de texte

Les données d'entrée pour la création d'intégrations de texte ont les exigences suivantes :

Vous pouvez ajouter des phrases, des phrases ou des paragraphes pour intégrer une phrase à la fois ou en téléchargeant un fichier.
Seuls les fichiers portant l'extension .txt sont autorisés.
Si vous utilisez un fichier d'entrée, chaque phrase, expression ou paragraphe d'entrée du fichier doit être séparé par un caractère de saut de ligne.
Un maximum de 96 entrées sont autorisées pour chaque exécution.
Dans la console, chaque entrée doit être inférieure à 512 jetons pour les modèles texte seulement.
Si une entrée est trop longue, indiquez s'il faut couper le début ou la fin du texte pour tenir dans la limite du jeton en réglant le paramètre Tronquer à Début ou Fin. Si une entrée dépasse la limite de 512 jetons et que le paramètre Truncate (Tronquer) est réglé à None (Aucun), vous obtenez un message d'erreur.
Pour les modèles de texte et d'image, vous pouvez avoir des fichiers et des entrées qui totalisent jusqu'à 128 000 jetons.
Pour les modèles d'intégration de texte et d'image, tels que Cohere Embed English Image V3, vous pouvez ajouter du texte ou une seule image. Pour l'image, vous pouvez utiliser l'API. L'entrée d'image n'est pas disponible dans la console. Pour l'API, entrez une image encodée base64 à chaque exécution. Par exemple, une image 512 x 512 est convertie en environ 1 610 jetons.

Découvrez la création d'intégrations de texte dans le service d'intelligence artificielle générative pour OCI.