Limites des modèles dans le service d'intelligence artificielle générative
Vérifiez les exigences de modèle suivantes pour les modèles personnalisés et de base d'intelligence artificielle générative OCI afin de tirer le meilleur parti de vos modèles.
Pour les principales fonctions des modèles de base préentraînés, voir Modèles fondamentaux préentraînés dans l'IA générative.
Mise en correspondance de modèles de base avec des grappes
Pour héberger un modèle préentraîné ou personnalisé du service d'intelligence artificielle générative pour OCI sur une grappe dédiée à l'IA d'hébergement, allez à Modèles fondamentaux préentraînés dans le service d'intelligence artificielle générative. Sélectionnez ensuite le modèle préentraîné ou le modèle de base du modèle personnalisé. Dans la section Grappe dédiée à l'IA pour le modèle de la page, voir la taille des unités et les unités requises pour l'hébergement de ce modèle de base.
Ajout de points d'extrémité à des grappes d'hébergement
Pour héberger un modèle pour l'inférence sur une grappe d'IA dédiée hébergement, vous devez créer un point d'extrémité pour ce modèle. Vous pouvez ensuite ajouter un modèle personnalisé ou un modèle de base préentraîné à ce point d'extrémité.
À propos des alias de point d'extrémité et du service de pile
Une grappe d'intelligence artificielle dédiée pour l'hébergement peut avoir jusqu'à 50 points d'extrémité. Utilisez ces points d'extrémité pour les cas d'utilisation suivants :
- Création d'alias de point d'extrémité
-
Créez des alias avec de nombreux points d'extrémité. Ces 50 points d'extrémité doivent pointer vers le même modèle de base ou vers la même version d'un modèle personnalisé. La création de nombreux points d'extrémité qui pointent vers le même modèle facilite la gestion des points d'extrémité, car vous pouvez les utiliser pour différents utilisateurs ou à des fins différentes.
- Service de pile
-
Héberger plusieurs versions d'un modèle personnalisé sur une grappe. Cela s'applique aux modèles
cohere.command
etcohere.command-light
qui sont ajustés avec la méthode d'entraînementT-Few
. L'hébergement de différentes versions d'un modèle affiné peut vous aider à évaluer les modèles personnalisés pour différents cas d'utilisation.
Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, vous pouvez augmenter son nombre d'instances.
Développez les sections suivantes pour vérifier les exigences relatives à l'hébergement de modèles sur le même cluster.
Certains modèles de base préentraînés de l'IA générative pour OCI pris en charge pour le mode de service dédié sont maintenant obsolètes et seront mis hors service au plus tôt 6 mois après la publication du 1er modèle de remplacement. Vous pouvez héberger un modèle de base ou ajuster un modèle de base et héberger le modèle ajusté sur une grappe dédiée à l'IA (mode de service dédié) jusqu'à ce que le modèle de base soit abandonné. Pour les dates de mise hors service du mode de service dédié, voir Mise hors service des modèles.
Pour héberger les modèles de clavardage de base préentraînés ou les modèles de clavardage affinés sur un cluster d'IA dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à chaque modèle de base.
Taille de l'unité de grappe d'hébergement | Règles de correspondance |
---|---|
Large Generic 2 pour le modèle de base, meta.llama-4-maverick-17b-128e-instruct-fp8 |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle |
Large Generic V2 pour le modèle de base, meta.llama-4-scout-17b-16e-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle |
LARGE_COHERE_V3 pour le modèle de base, cohere.command-a-03-2025 |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle |
Small Generic V2 pour le modèle de base, meta.llama-3.2-11b-vision-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage de précision non disponible pour le modèle |
Large Generic pour le modèle de base, meta.llama-3.3-70b-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster :
|
Large Generic pour le modèle de base, meta.llama-3.1-70b-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster :
|
Large Generic pour le modèle de base, meta.llama-3-70b-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster :
|
Large Generic V2 pour le modèle de base, meta.llama-3.2-90b-vision-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle |
Large Generic 2 pour le modèle de base, meta.llama-3.1-405b-instruct |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle |
Small Cohere V2 pour le modèle de base, cohere.command-r-16k (obsolète) |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster :
Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base |
Small Cohere V2 pour le modèle de base, cohere.command-r-08-2024 |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger plusieurs modèles personnalisés sur le même cluster :
Vous ne pouvez pas héberger différentes versions d'un modèle personnalisé entraîné sur le modèle de base |
Large Cohere V2_2 pour le modèle de base, cohere.command-r-plus (obsolète) |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle |
Large Cohere V2_2 pour le modèle de base, cohere.command-r-plus-08-2024 |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle |
Pour héberger le modèle de reclassement sur une grappe dédiée à l'IA, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.
Taille de l'unité de grappe d'hébergement | Règles de correspondance |
---|---|
RERANK_COHERE |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour le modèle Cohere Rerank. |
Pour héberger les modèles d'intégration sur un cluster d'IA dédié à l'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes.
Taille de l'unité de grappe d'hébergement | Règles de correspondance |
---|---|
Embed Cohere |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné au moyen de plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Réglage fin non disponible pour les modèles Cohere Embed. |
- Non disponible sur demande : Tous les modèles préentraînés de base du service d'intelligence artificielle générative pour OCI pris en charge pour le mode de service sur demande qui utilisent les API de génération de texte et de récapitulation (y compris le terrain de jeu) sont maintenant mis hors service. Nous vous recommandons d'utiliser les modèles de chat à la place.
- Peut être hébergé sur des grappes : Si vous hébergez une récapitulation ou un modèle de génération tel que
cohere.command
sur une grappe dédiée à l'IA (mode de service dédié), vous pouvez continuer à utiliser ce modèle jusqu'à ce qu'il soit abandonné. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service.
Pour héberger les modèles de génération de texte sur un cluster AI dédié d'hébergement, utilisez les règles de taille d'unité de cluster et de point d'extrémité suivantes qui correspondent à votre modèle de base.
Taille de l'unité de grappe d'hébergement | Règles de correspondance |
---|---|
Small Cohere pour le modèle de base, cohere.command-light |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe :
|
Large Cohere pour le modèle de base, cohere.command |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe :
|
Llama2 70 pour le modèle de base, meta.llama-2-70b-chat |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
|
Le modèle
cohere.command
pris en charge pour le mode de service sur demande est maintenant mis hors service et ce modèle est obsolète pour le mode de service dédié. Si vous hébergez cohere.command
sur une grappe dédiée à l'IA (mode de service dédié) pour la récapitulation, vous pouvez continuer à utiliser cette réplique de modèle hébergé avec l'API de récapitulation et dans le terrain de jeu jusqu'à ce que le modèle cohere.command
abandonne le mode de service dédié. Ces modèles, lorsqu'ils sont hébergés sur une grappe dédiée à l'IA, sont disponibles uniquement dans le Midwest des États-Unis (Chicago). Voir Mise hors service des modèles pour les dates et les définitions de mise hors service. Nous vous recommandons d'utiliser plutôt les modèles de clavardage qui offrent les mêmes capacités de regroupement, y compris le contrôle de la longueur et du style du sommaire.Pour héberger le modèle de récapitulation préentraîné cohere.command
sur une grappe d'IA dédiée à l'hébergement, utilisez les règles de taille d'unité de grappe et de point d'extrémité suivantes.
Taille d'unité de la grappe d'hébergement | Règles de correspondance |
---|---|
Large Cohere pour le modèle de base, cohere.command |
Modèles de base d'hébergement Pour héberger le même modèle de base préentraîné via plusieurs points d'extrémité sur le même cluster :
Hébergement de modèles personnalisés Pour héberger différents modèles personnalisés sur la même grappe :
|
Données d'entraînement
Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :
- Un maximum d'un jeu de données de réglage de précision est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement à un ratio de 80:20 pour l'entraînement et la validation.
- Chaque fichier doit comporter au moins 32 exemples de paires invite/achèvement.
- Le format de fichier est
JSONL
. - Chaque ligne du fichier
JSONL
a le format suivant :{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Le fichier doit être stocké dans un seau de stockage d'objets OCI.
En savoir plus sur Exigences en matière de données d'entraînement dans le service d'intelligence artificielle générative.
Données d'entrée pour les intégrations de texte
Les données d'entrée pour la création d'intégrations de texte ont les exigences suivantes :
- Vous pouvez ajouter des phrases, des phrases ou des paragraphes pour intégrer une phrase à la fois ou en téléchargeant un fichier.
- Seuls les fichiers portant l'extension
.txt
sont autorisés. - Si vous utilisez un fichier d'entrée, chaque phrase, expression ou paragraphe d'entrée du fichier doit être séparé par un caractère de saut de ligne.
- Un maximum de 96 entrées sont autorisées pour chaque exécution.
- Dans la console, chaque entrée doit être inférieure à 512 jetons pour les modèles texte seulement.
- Si une entrée est trop longue, indiquez s'il faut couper le début ou la fin du texte pour tenir dans la limite du jeton en réglant le paramètre Tronquer à Début ou Fin. Si une entrée dépasse la limite de 512 jetons et que le paramètre Truncate (Tronquer) est réglé à None (Aucun), vous obtenez un message d'erreur.
- Pour les modèles de texte et d'image, vous pouvez avoir des fichiers et des entrées qui totalisent jusqu'à 128 000 jetons.
- Pour les modèles d'intégration de texte et d'image, tels que Cohere Embed English Image V3, vous pouvez ajouter du texte ou une seule image. Pour l'image, vous pouvez utiliser l'API. L'entrée d'image n'est pas disponible dans la console. Pour l'API, entrez une image encodée base64 à chaque exécution. Par exemple, une image 512 x 512 est convertie en environ 1 610 jetons.
Découvrez la création d'intégrations de texte dans le service d'intelligence artificielle générative pour OCI.