Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des incorporations à partir de texte, d'une image ou d'un texte et d'une image dans la même charge utile d'API. L'entrée d'image est disponible via l'API uniquement.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Accéder à ce modèle

Vous pouvez accéder à ce modèle via :

Remarque

Les encres d'API répertorient les adresses de toutes les régions commerciales, souveraines et gouvernementales prises en charge.

Principales fonctionnalités

Intégrations Matryoshka : prend en charge les dimensions de sortie de 256, 512, 1 024 et 1 536. Cette fonctionnalité n'est pas prise en charge dans les modèles Embed 3.
Limites d'entrée :
- Console : jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant placée sous 512 jetons. Cette limite s'applique au mode à la demande.
- SDK et API : jusqu'à 128 000 jetons d'entrée au total par exécution.
Dimensions de sortie :
- Console:1,536
- API : 1 536 par défaut ; prend en charge 256, 512, 1 024 et 1 536
Mode d'entrée :
- API : prend en charge le texte uniquement, une image uniquement ou plusieurs entrées de texte avec une image dans la même charge utile.
- Seule une image est autorisée par charge utile.
- L'entrée d'image est disponible via l'API uniquement.
Entrée d'image :
- Requiert une image encodée en base64.
- Une image 512 x 512 concerne 1 610 jetons.
La prise en charge linguistique :
- Texte : anglais et multilingue
- Image : anglais uniquement

Utiliser le texte et l'image dans l'API EmbedText

Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.

L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Embed 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu texte ou d'image.

Utilisez embedContents pour envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.

Les autres paramètres de l'API EmbedText restent identiques.

Important

L'attribut embedContents est pris en charge uniquement par les modèles Embed 4. N'utilisez pas embedContents avec les modèles Embed 3.

Mode à la demande

Le mode à la demande est pay-as-you-go et est utile pour l'expérimentation, le travail de preuve de concept et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :


Nom du modèle	Nom du modèle OCI	Nom du produit de la page de tarification
Cohere Cohere Embed 4	`cohere.embed-v4.0`	Embed Cohere

Important

Modification de la limite d'accélération dynamique pour le mode à la demande

OCI Generative AI ajuste dynamiquement la limite d'ajustement des demandes pour chaque location active en fonction de la demande de modèle et de la capacité du système afin d'optimiser l'allocation des ressources et de garantir un accès équitable. En raison de l'ajustement dynamique, les limites de taux ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

Etant donné que les limites de taux peuvent changer, nous vous recommandons d'implémenter une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de l'intégration au service.

Cluster d'IA dédié pour le modèle

Pour utiliser ce modèle avec un cluster d'IA dédié, créez une adresse pour le modèle dans une région prise en charge.


Modèle de base	Cluster de réglage fin	Cluster d'hébergement	Informations sur la page de tarification	Demander une augmentation de limite de cluster
Nom du modèle : Cohere Embed 4 Nom du modèle OCI : `cohere.embed-v4.0`	Non disponible pour le réglage fin	Taille d'unité : Embed Cohere Unités obligatoires : 1	Nom du produit de la page de tarification : Embed Cohere - Dedicated Pour l'Hébergement, Multiplier le Prix Unitaire : x1	Nom de la limite : `dedicated-unit-embed-cohere-count` Pour l'hébergement, demandez une augmentation de limite de : 1

Conseil

Si vous ne disposez pas d'une capacité d'hébergement suffisante, demandez une augmentation pour la limite dedicated-unit-embed-cohere-count.

Règles d'adresse pour les clusters

Un cluster d'IA dédié peut contenir jusqu'à 50 adresses.
Utilisez ces adresses pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas les deux types.
Plusieurs points d'extrémité pour le même modèle facilitent leur affectation à différents utilisateurs ou objectifs.


Taille de l'unité de cluster d'hébergement	Règles d'adresse
Embed Cohere	Modèle de base : pour exécuter le modèle ⁇ `cohere.embed-v4.0` ⁇ sur plusieurs adresses, créez autant d'adresses que nécessaire sur un cluster Embed Cohere (taille d'unité). Modèle personnalisé : vous ne pouvez pas affiner ⁇ `cohere.embed-v4.0`, de sorte que vous ne pouvez pas créer et héberger des modèles personnalisés créés à partir de cette base.

Conseil

Pour augmenter le volume d'appels pris en charge par un cluster d'hébergement, augmentez le nombre d'instances en modifiant le cluster d'IA dédié. Reportez-vous à Mise à jour d'un cluster d'IA dédié.
Pour plus de 50 adresses par cluster, demandez une augmentation de la limite, endpoint-per-dedicated-unit-count. Reportez-vous à Création d'une demande d'augmentation de limite et à Limites de service pour l'IA générative.

Tests de performances du cluster

Consultez les tests d'évaluation des performances du cluster Cohere Embed 4 pour différents cas d'utilisation.

Dates de publication et de retrait OCI

Pour les dates de déblocage et de sortie et les options de modèle de remplacement, reportez-vous aux pages suivantes en fonction du mode (à la demande ou dédié) :

Données d'entrée pour les incorporations de texte

Pour les incorporations de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou télécharger un fichier .txt.

Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de retour à la ligne.

Limites de la console :

96 entrées de texte maximum par exécution
Chaque entrée de texte doit être sous 512 jetons

Limites de SDK et d'API :

Jusqu'à 128 000 jetons d'entrée au total par exécution
Les entrées de texte et d'image sont prises en compte dans la limite totale du jeton d'entrée
Seule une image est autorisée par charge utile
L'entrée d'image doit être encodée en base64

Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite de jeton et que truncate est défini sur None, la demande renvoie une erreur.

Paramètres de modèle de plongement

Vous pouvez modifier les paramètres suivants lorsque vous utilisez des modèles d'intégration.

Truncate (truncate): Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.

Types d'intégration (embeddingTypes)

Valeurs prises en charge :

float (valeur par défaut)
int8
uint8
binary
ubinary
base64

Dimensions de sortie (outputDimensions)

Valeurs prises en charge :

256
512
1024
1536 (valeur par défaut)

Migration de l'intégration 3 vers l'intégration 4

Lors de la migration de l'intégration 3 vers l'intégration 4, nous vous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.

Créer un nouvel index vectoriel

Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.
Re-intégrer les données

Retraitez les documents source avec cohere.embed-v4.0 et définissez outputDimensions=1536. Stockez les nouvelles incorporations dans le nouvel index.
Mettre à jour la logique de requête
Mettez à jour l'application pour qu'elle utilise l'option Intégrer 4 pour les requêtes de recherche entrantes. Utiliser :
- input_type="search_query" pour les requêtes
- input_type="search_document" pour les documents stockés
Réduire

Une fois le nouvel index entièrement rempli et testé, mettez à jour l'application pour qu'elle utilise le nouvel index 1 536 dimensions.

Documentation Oracle Cloud Infrastructure

Cohere Embed 4

Régions pour ce modèle

Accéder à ce modèle

Principales fonctionnalités

Utiliser le texte et l'image dans l'API EmbedText

Mode à la demande

Cluster d'IA dédié pour le modèle

Règles d'adresse pour les clusters

Tests de performances du cluster

Dates de publication et de retrait OCI

Données d'entrée pour les incorporations de texte

Paramètres de modèle de plongement

Migration de l'intégration 3 vers l'intégration 4