Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des incorporations à partir de texte, d'une image ou d'un texte et d'une image dans la même charge utile d'API. L'entrée d'image est disponible via l'API uniquement.
Régions pour ce modèle
Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.
Accéder à ce modèle
Les encres d'API répertorient les adresses de toutes les régions commerciales, souveraines et gouvernementales prises en charge.
Principales fonctionnalités
- Intégrations Matryoshka : prend en charge les dimensions de sortie de 256, 512, 1 024 et 1 536. Cette fonctionnalité n'est pas prise en charge dans les modèles Embed 3.
- Limites d'entrée :
- Console : jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant placée sous 512 jetons. Cette limite s'applique au mode à la demande.
- SDK et API : jusqu'à 128 000 jetons d'entrée au total par exécution.
- Dimensions de sortie :
- Console:1,536
- API : 1 536 par défaut ; prend en charge 256, 512, 1 024 et 1 536
- Mode d'entrée :
- API : prend en charge le texte uniquement, une image uniquement ou plusieurs entrées de texte avec une image dans la même charge utile.
- Seule une image est autorisée par charge utile.
- L'entrée d'image est disponible via l'API uniquement.
- Entrée d'image :
- Requiert une image encodée en base64.
- Une image 512 x 512 concerne 1 610 jetons.
- La prise en charge linguistique :
- Texte : anglais et multilingue
- Image : anglais uniquement
Utiliser le texte et l'image dans l'API EmbedText
Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.
L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Embed 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu texte ou d'image.
Utilisez embedContents pour envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.
Les autres paramètres de l'API EmbedText restent identiques.
L'attribut
embedContents est pris en charge uniquement par les modèles Embed 4. N'utilisez pas embedContents avec les modèles Embed 3.Mode à la demande
Le mode à la demande est pay-as-you-go et est utile pour l'expérimentation, le travail de preuve de concept et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :
| Nom du modèle | Nom du modèle OCI | Nom du produit de la page de tarification |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
Modification de la limite d'accélération dynamique pour le mode à la demande
OCI Generative AI ajuste dynamiquement la limite d'ajustement des demandes pour chaque location active en fonction de la demande de modèle et de la capacité du système afin d'optimiser l'allocation des ressources et de garantir un accès équitable. En raison de l'ajustement dynamique, les limites de taux ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.
Etant donné que les limites de taux peuvent changer, nous vous recommandons d'implémenter une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de l'intégration au service.
Cluster d'IA dédié pour le modèle
Pour utiliser ce modèle avec un cluster d'IA dédié, créez une adresse pour le modèle dans une région prise en charge.
| Modèle de base | Cluster de réglage fin | Cluster d'hébergement | Informations sur la page de tarification | Demander une augmentation de limite de cluster |
|---|---|---|---|---|
|
Non disponible pour le réglage fin |
|
|
|
Si vous ne disposez pas d'une capacité d'hébergement suffisante, demandez une augmentation pour la limite dedicated-unit-embed-cohere-count.
Règles d'adresse pour les clusters
- Un cluster d'IA dédié peut contenir jusqu'à 50 adresses.
- Utilisez ces adresses pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas les deux types.
- Plusieurs points d'extrémité pour le même modèle facilitent leur affectation à différents utilisateurs ou objectifs.
| Taille de l'unité de cluster d'hébergement | Règles d'adresse |
|---|---|
| Embed Cohere |
|
-
Pour augmenter le volume d'appels pris en charge par un cluster d'hébergement, augmentez le nombre d'instances en modifiant le cluster d'IA dédié. Reportez-vous à Mise à jour d'un cluster d'IA dédié.
-
Pour plus de 50 adresses par cluster, demandez une augmentation de la limite,
endpoint-per-dedicated-unit-count. Reportez-vous à Création d'une demande d'augmentation de limite et à Limites de service pour l'IA générative.
Tests de performances du cluster
Consultez les tests d'évaluation des performances du cluster Cohere Embed 4 pour différents cas d'utilisation.
Dates de publication et de retrait OCI
Pour les dates de déblocage et de sortie et les options de modèle de remplacement, reportez-vous aux pages suivantes en fonction du mode (à la demande ou dédié) :
Données d'entrée pour les incorporations de texte
Pour les incorporations de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou télécharger un fichier .txt.
Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de retour à la ligne.
Limites de la console :
- 96 entrées de texte maximum par exécution
- Chaque entrée de texte doit être sous 512 jetons
Limites de SDK et d'API :
- Jusqu'à 128 000 jetons d'entrée au total par exécution
- Les entrées de texte et d'image sont prises en compte dans la limite totale du jeton d'entrée
- Seule une image est autorisée par charge utile
- L'entrée d'image doit être encodée en base64
Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite de jeton et que truncate est défini sur None, la demande renvoie une erreur.
Paramètres de modèle de plongement
Vous pouvez modifier les paramètres suivants lorsque vous utilisez des modèles d'intégration.
- Truncate (
truncate) -
Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.
- Types d'intégration (
embeddingTypes) -
Valeurs prises en charge :
float(valeur par défaut)int8uint8binaryubinarybase64
- Dimensions de sortie (
outputDimensions) -
Valeurs prises en charge :
25651210241536(valeur par défaut)
Migration de l'intégration 3 vers l'intégration 4
Lors de la migration de l'intégration 3 vers l'intégration 4, nous vous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.
-
Créer un nouvel index vectoriel
Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.
-
Re-intégrer les données
Retraitez les documents source avec
cohere.embed-v4.0et définissezoutputDimensions=1536. Stockez les nouvelles incorporations dans le nouvel index. -
Mettre à jour la logique de requête
Mettez à jour l'application pour qu'elle utilise l'option Intégrer 4 pour les requêtes de recherche entrantes. Utiliser :input_type="search_query"pour les requêtesinput_type="search_document"pour les documents stockés
-
Réduire
Une fois le nouvel index entièrement rempli et testé, mettez à jour l'application pour qu'elle utilise le nouvel index 1 536 dimensions.