Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des intégrations à partir de texte, d'une image ou de texte et d'une image dans les mêmes données utiles d'API. L'entrée d'image est disponible au moyen de l'API uniquement.
Régions pour ce modèle
Pour les régions prises en charge, les types de point d'extrémité (grappes d'IA sur demande ou dédiées) et l'hébergement (IA générative pour OCI ou appels externes) pour ce modèle, voir la page Modèles par région. Pour plus de détails sur les régions, consultez la page Régions du service d'intelligence artificielle générative.
Accéder à ce modèle
Les encres d'API listent les points d'extrémité pour toutes les régions commerciales, souveraines et gouvernementales prises en charge.
Principales fonctions
- Intégrations Matryoshka : Prend en charge les dimensions de sortie 256, 512, 1 024 et 1 536. Cette fonction n'est pas prise en charge dans les modèles Embed 3.
- Limites d'entrée :
- Console : Jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant sous 512 jetons. Cette limite s'applique au mode sur demande.
- Trousse SDK et API : Jusqu'à 128 000 jetons d'entrée au total par exécution.
- Dimensions de sortie :
- Console :1,536
- API : 1 536 par défaut; prend en charge 256, 512, 1 024 et 1 536
- Mode d'entrée :
- API : Prend en charge uniquement le texte, une seule image ou plusieurs entrées de texte avec une image dans les mêmes données utiles.
- Une seule image est autorisée par données utiles.
- L'entrée d'image est disponible au moyen de l'API uniquement.
- Entrée d'image :
- Nécessite une image encodée en base64.
- Une image 512 x 512 concerne environ 1 610 jetons.
- Prise en charge de la langue :
- Texte : Anglais et multilingue
- Image : Anglais seulement
Utiliser le texte et l'image dans l'API EmbedText
Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.
L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Intégrer 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu de texte ou d'image.
Utilisez embedContents lorsque vous voulez envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.
Les autres paramètres de l'API EmbedText restent les mêmes.
L'attribut
embedContents n'est pris en charge que par les modèles Intégration 4. N'utilisez pas embedContents avec les modèles Embed 3.Mode sur demande
Le mode à la demande est payant à l'utilisation et est utile pour l'expérimentation, le travail de démonstration de faisabilité et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :
| Nom de modèle | Nom du modèle OCI | Nom du produit de la page de tarification |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
Modification de la limite de limitation dynamique pour le mode sur demande
OCI Generative AI ajuste dynamiquement la limite de limitation de demande pour chaque location active en fonction de la demande du modèle et de la capacité du système afin d'optimiser l'affectation des ressources et d'assurer un accès équitable. En raison de la limitation dynamique, les limites de débit ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.
Étant donné que les limites de taux peuvent changer, nous recommandons de mettre en œuvre une stratégie d'attente, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie d'attente, telle qu'une stratégie d'attente exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et la performance globales de l'intégration au service.
Grappe d'IA dédiée pour le modèle
Pour utiliser ce modèle avec une grappe dédiée à l'IA, créez un point d'extrémité pour le modèle dans une région prise en charge.
| Modèle de base | Cluster de réglage fin | Grappe d'hébergement | Informations sur la page de tarification | Demander une augmentation de limite de grappe |
|---|---|---|---|---|
|
Non disponible pour le réglage fin |
|
|
|
Si vous n'avez pas assez de capacité d'hébergement, demandez une augmentation pour la limite dedicated-unit-embed-cohere-count.
Règles de point d'extrémité pour les grappes
- Une grappe dédiée à l'IA peut contenir jusqu'à 50 points d'extrémité.
- Utilisez ces points d'extrémité pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas vers les deux types.
- Plusieurs points d'extrémité pour le même modèle permettent de les affecter facilement à différents utilisateurs ou objectifs.
| Taille d'unité de la grappe d'hébergement | Règles de point d'extrémité |
|---|---|
| Embed Cohere |
|
-
Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, augmentez le nombre d'instances en modifiant la grappe dédiée à l'IA. Voir Mise à jour d'une grappe d'intelligence artificielle dédiée.
-
Pour plus de 50 points d'extrémité par grappe, demandez une augmentation de la limite,
endpoint-per-dedicated-unit-count. Voir Création d'une demande d'augmentation de limite et Limites de service pour l'intelligence artificielle générative.
Tests de performance des grappes
Consultez les points de référence de performance de grappe Cohere Embed 4 pour différents cas d'utilisation.
Dates de version et de mise hors service OCI
Pour connaître les dates de sortie et de mise hors service et les options de modèle de remplacement, consultez les pages suivantes en fonction du mode (sur demande ou dédié) :
Données d'entrée pour les intégrations de texte
Pour les plongements de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou charger un fichier .txt.
Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de nouvelle ligne.
Limites de la console :
- Maximum de 96 entrées de texte par exécution
- Chaque entrée de texte doit être sous 512 jetons
Limites de la trousse SDK et de l'API :
- Jusqu'à 128 000 jetons d'entrée au total par exécution
- Les entrées de texte et d'image comptent ensemble pour la limite totale de jetons d'entrée
- Une seule image est autorisée par données utiles
- L'entrée d'image doit être encodée en base64
Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite du jeton et que truncate est réglé à None, la demande retourne une erreur.
Paramètres de modèle de plongement
Vous pouvez modifier les paramètres suivants lors de l'utilisation de modèles d'intégration.
- Tronquer (
truncate) -
Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.
- Types d'intégration (
embeddingTypes) -
Valeurs prises en charge :
float(Par défaut)int8uint8binaryubinarybase64
- Dimensions de sortie (
outputDimensions) -
Valeurs prises en charge :
25651210241536(par défaut)
Migration de l'intégration 3 vers l'intégration 4
Lors de la migration de l'intégration 3 vers l'intégration 4, nous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.
-
Créer un nouvel index vectoriel
Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.
-
Intégrer de nouveau les données
Traitez de nouveau les documents sources avec
cohere.embed-v4.0et définissezoutputDimensions=1536. Stockez les nouvelles intégrations dans le nouvel index. -
Mettre à jour la logique d'interrogation
Mettez à jour l'application pour utiliser Intégré 4 pour les interrogations de recherche entrantes. Utilisation :input_type="search_query"pour les interrogationsinput_type="search_document"pour les documents stockés
-
Réduire
Une fois le nouvel index entièrement alimenté et testé, mettez à jour l'application pour qu'elle utilise le nouvel index de 1 536 dimensions.