Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des intégrations à partir de texte, d'une image ou de texte et d'une image dans les mêmes données utiles d'API. L'entrée d'image est disponible au moyen de l'API uniquement.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types de point d'extrémité (grappes d'IA sur demande ou dédiées) et l'hébergement (IA générative pour OCI ou appels externes) pour ce modèle, voir la page Modèles par région. Pour plus de détails sur les régions, consultez la page Régions du service d'intelligence artificielle générative.

Accéder à ce modèle

Vous pouvez accéder à ce modèle au moyen des éléments suivants :

Note

Les encres d'API listent les points d'extrémité pour toutes les régions commerciales, souveraines et gouvernementales prises en charge.

Principales fonctions

Intégrations Matryoshka : Prend en charge les dimensions de sortie 256, 512, 1 024 et 1 536. Cette fonction n'est pas prise en charge dans les modèles Embed 3.
Limites d'entrée :
- Console : Jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant sous 512 jetons. Cette limite s'applique au mode sur demande.
- Trousse SDK et API : Jusqu'à 128 000 jetons d'entrée au total par exécution.
Dimensions de sortie :
- Console :1,536
- API : 1 536 par défaut; prend en charge 256, 512, 1 024 et 1 536
Mode d'entrée :
- API : Prend en charge uniquement le texte, une seule image ou plusieurs entrées de texte avec une image dans les mêmes données utiles.
- Une seule image est autorisée par données utiles.
- L'entrée d'image est disponible au moyen de l'API uniquement.
Entrée d'image :
- Nécessite une image encodée en base64.
- Une image 512 x 512 concerne environ 1 610 jetons.
Prise en charge de la langue :
- Texte : Anglais et multilingue
- Image : Anglais seulement

Utiliser le texte et l'image dans l'API EmbedText

Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.

L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Intégrer 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu de texte ou d'image.

Utilisez embedContents lorsque vous voulez envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.

Les autres paramètres de l'API EmbedText restent les mêmes.

Important

L'attribut embedContents n'est pris en charge que par les modèles Intégration 4. N'utilisez pas embedContents avec les modèles Embed 3.

Mode sur demande

Le mode à la demande est payant à l'utilisation et est utile pour l'expérimentation, le travail de démonstration de faisabilité et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :


Nom de modèle	Nom du modèle OCI	Nom du produit de la page de tarification
Cohere Cohere Embed 4	`cohere.embed-v4.0`	Embed Cohere

Important

Modification de la limite de limitation dynamique pour le mode sur demande

OCI Generative AI ajuste dynamiquement la limite de limitation de demande pour chaque location active en fonction de la demande du modèle et de la capacité du système afin d'optimiser l'affectation des ressources et d'assurer un accès équitable. En raison de la limitation dynamique, les limites de débit ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

Étant donné que les limites de taux peuvent changer, nous recommandons de mettre en œuvre une stratégie d'attente, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie d'attente, telle qu'une stratégie d'attente exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et la performance globales de l'intégration au service.

Grappe d'IA dédiée pour le modèle

Pour les modèles en mode sur demande, aucune grappe n'est requise. Accédez-les au moyen du terrain de jeu et de l'API de la console. Pour les modèles disponibles en mode dédié, utilisez des points d'extrémité créés sur des grappes d'IA dédiées. En savoir plus sur le mode dédié.

Ce modèle n'est pas disponible pour le réglage fin. Pour les formes d'unité matérielle, les régions disponibles, les limites de service, le nombre d'unités d'IA et l'estimation du coût pour une grappe d'IA dédiée qui héberge ce modèle, voir Formes d'unité matérielle par région.

Formes génériques existantes

Important

Les formes Cohere génériques existantes sont en cours de retrait de l'IA générative. Pendant la période de mise hors service, ces formes restent disponibles dans l'API uniquement. Si vous utilisez l'API, vous pouvez voir à la fois les formes génériques existantes et les nouvelles formes d'unité matérielle jusqu'à ce que les formes génériques existantes soient supprimées du service.

Utilisez cette section uniquement si vous disposez d'une grappe dédiée à l'IA qui utilise une forme Cohere générique existante, ou si vous utilisez l'API pour créer une grappe avec une forme Cohere générique existante pendant la période de mise hors service. Pour les nouvelles grappes dédiées à l'IA, utilisez les formes d'unité matérielle répertoriées dans Formes d'unité matérielle par région.

Pour atteindre un modèle au moyen d'une grappe dédiée à l'IA dans n'importe quelle région répertoriée, vous devez créer un point d'extrémité pour ce modèle sur une grappe dédiée à l'IA. Pour connaître la taille d'unité de grappe correspondant à ce modèle, voir le tableau suivant.


Modèle de base	Cluster de réglage fin	Grappe d'hébergement	Informations sur la page de tarification	Demander une augmentation de limite de grappe
Nom du modèle : Cohere Embed 4 Nom du modèle OCI : `cohere.embed-v4.0`	Non disponible pour le réglage fin	Taille de l'unité : Embed Cohere Unités requises : 1	Nom du produit de la page Tarification : Embed Cohere - Dedicated Pour l'hébergement, Multiplier le prix unitaire : x1	Nom de la limite : `dedicated-unit-embed-cohere-count` Pour l'hébergement, demandez une augmentation de limite de : 1

Règles de point d'extrémité pour les grappes

Une grappe dédiée à l'IA peut contenir jusqu'à 50 points d'extrémité.
Utilisez ces points d'extrémité pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas vers les deux types.
Plusieurs points d'extrémité pour le même modèle permettent de les affecter facilement à différents utilisateurs ou objectifs.

Conseil

Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, augmentez le nombre d'instances en modifiant la grappe dédiée à l'IA. Voir Mise à jour d'une grappe d'intelligence artificielle dédiée.
Pour plus de 50 points d'extrémité par grappe, demandez une augmentation de la limite, endpoint-per-dedicated-unit-count. Voir Création d'une demande d'augmentation de limite et Limites de service pour l'intelligence artificielle générative.

Tests de performance des grappes

Consultez les points de référence de performance de grappe Cohere Embed 4 pour différents cas d'utilisation.

Dates de version et de mise hors service OCI

Pour connaître les dates de sortie et de mise hors service et les options de modèle de remplacement, consultez les pages suivantes en fonction du mode (sur demande ou dédié) :

Données d'entrée pour les intégrations de texte

Pour les plongements de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou charger un fichier .txt.

Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de nouvelle ligne.

Limites de la console :

Maximum de 96 entrées de texte par exécution
Chaque entrée de texte doit être sous 512 jetons

Limites de la trousse SDK et de l'API :

Jusqu'à 128 000 jetons d'entrée au total par exécution
Les entrées de texte et d'image comptent ensemble pour la limite totale de jetons d'entrée
Une seule image est autorisée par données utiles
L'entrée d'image doit être encodée en base64

Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite du jeton et que truncate est réglé à None, la demande retourne une erreur.

Paramètres de modèle de plongement

Vous pouvez modifier les paramètres suivants lors de l'utilisation de modèles d'intégration.

Tronquer (truncate): Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.

Types d'intégration (embeddingTypes)

Valeurs prises en charge :

float (Par défaut)
int8
uint8
binary
ubinary
base64

Dimensions de sortie (outputDimensions)

Valeurs prises en charge :

256
512
1024
1536 (par défaut)

Migration de l'intégration 3 vers l'intégration 4

Lors de la migration de l'intégration 3 vers l'intégration 4, nous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.

Créer un nouvel index vectoriel

Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.
Intégrer de nouveau les données

Traitez de nouveau les documents sources avec cohere.embed-v4.0 et définissez outputDimensions=1536. Stockez les nouvelles intégrations dans le nouvel index.
Mettre à jour la logique d'interrogation
Mettez à jour l'application pour utiliser Intégré 4 pour les interrogations de recherche entrantes. Utilisation :
- input_type="search_query" pour les interrogations
- input_type="search_document" pour les documents stockés
Réduire

Une fois le nouvel index entièrement alimenté et testé, mettez à jour l'application pour qu'elle utilise le nouvel index de 1 536 dimensions.

Documentation sur Oracle Cloud Infrastructure

Cohere Embed 4

Régions pour ce modèle

Accéder à ce modèle

Principales fonctions

Utiliser le texte et l'image dans l'API EmbedText

Mode sur demande

Grappe d'IA dédiée pour le modèle

Formes génériques existantes

Règles de point d'extrémité pour les grappes

Tests de performance des grappes

Dates de version et de mise hors service OCI

Données d'entrée pour les intégrations de texte

Paramètres de modèle de plongement

Migration de l'intégration 3 vers l'intégration 4