Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des intégrations à partir de texte, d'une image ou de texte et d'une image dans les mêmes données utiles d'API. L'entrée d'image est disponible au moyen de l'API uniquement.

Principales fonctions

  • Intégrations Matryoshka : Prend en charge les dimensions de sortie 256, 512, 1 024 et 1 536. Cette fonction n'est pas prise en charge dans les modèles Embed 3.
  • Limites d'entrée :
    • Console : Jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant sous 512 jetons. Cette limite s'applique au mode sur demande.
    • Trousse SDK et API : Jusqu'à 128 000 jetons d'entrée au total par exécution.
  • Dimensions de sortie :
    • Console :1,536
    • API : 1 536 par défaut; prend en charge 256, 512, 1 024 et 1 536
  • Mode d'entrée :
    • API : Prend en charge uniquement le texte, une seule image ou plusieurs entrées de texte avec une image dans les mêmes données utiles.
    • Une seule image est autorisée par données utiles.
    • L'entrée d'image est disponible au moyen de l'API uniquement.
  • Entrée d'image :
    • Nécessite une image encodée en base64.
    • Une image 512 x 512 concerne environ 1 610 jetons.
  • Prise en charge de la langue :
    • Texte : Anglais et multilingue
    • Image : Anglais seulement

Utiliser le texte et l'image dans l'API EmbedText

Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.

L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Intégrer 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu de texte ou d'image.

Utilisez embedContents lorsque vous voulez envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.

Les autres paramètres de l'API EmbedText restent les mêmes.

Important

L'attribut embedContents n'est pris en charge que par les modèles Intégration 4. N'utilisez pas embedContents avec les modèles Embed 3.

Mode sur demande

Le mode à la demande est payant à l'utilisation et est utile pour l'expérimentation, le travail de démonstration de faisabilité et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :

Nom de modèle Nom du modèle OCI Nom du produit de la page de tarification
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Important

Modification de la limite de limitation dynamique pour le mode sur demande

OCI Generative AI ajuste dynamiquement la limite de limitation de demande pour chaque location active en fonction de la demande du modèle et de la capacité du système afin d'optimiser l'affectation des ressources et d'assurer un accès équitable. En raison de la limitation dynamique, les limites de débit ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

Étant donné que les limites de taux peuvent changer, nous recommandons de mettre en œuvre une stratégie d'attente, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie d'attente, telle qu'une stratégie d'attente exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et la performance globales de l'intégration au service.

Grappe d'IA dédiée pour le modèle

Pour utiliser ce modèle avec une grappe dédiée à l'IA, créez un point d'extrémité pour le modèle dans une région prise en charge.

Modèle de base Cluster de réglage fin Grappe d'hébergement Informations sur la page de tarification Demander une augmentation de limite de grappe
  • Nom du modèle : Cohere Embed 4
  • Nom du modèle OCI : cohere.embed-v4.0
Non disponible pour le réglage fin
  • Taille de l'unité : Embed Cohere
  • Unités requises : 1
  • Nom du produit de la page Tarification : Embed Cohere - Dedicated
  • Pour l'hébergement, Multiplier le prix unitaire : x1
  • Nom de la limite : dedicated-unit-embed-cohere-count
  • Pour l'hébergement, demandez une augmentation de limite de : 1
Conseil

Si vous n'avez pas assez de capacité d'hébergement, demandez une augmentation pour la limite dedicated-unit-embed-cohere-count.

Règles de point d'extrémité pour les grappes

  • Une grappe dédiée à l'IA peut contenir jusqu'à 50 points d'extrémité.
  • Utilisez ces points d'extrémité pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas vers les deux types.
  • Plusieurs points d'extrémité pour le même modèle permettent de les affecter facilement à différents utilisateurs ou objectifs.
Taille d'unité de la grappe d'hébergement Règles de point d'extrémité
Embed Cohere
  • Modèle de base : Pour exécuter le modèle cohere.embed-v4.0  sur plusieurs points d'extrémité, créez autant de points d'extrémité que nécessaire sur une grappe Embed Cohere (taille de l'unité).
  • Modèle personnalisé : Vous ne pouvez pas affiner le réglage cohere.embed-v4.0, vous ne pouvez donc pas créer et héberger des modèles personnalisés créés à partir de cette base.
Conseil

Tests de performance des grappes

Consultez les points de référence de performance de grappe Cohere Embed 4 pour différents cas d'utilisation.

Données d'entrée pour les intégrations de texte

Pour les plongements de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou charger un fichier .txt.

Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de nouvelle ligne.

Limites de la console :

  • Maximum de 96 entrées de texte par exécution
  • Chaque entrée de texte doit être sous 512 jetons

Limites de la trousse SDK et de l'API :

  • Jusqu'à 128 000 jetons d'entrée au total par exécution
  • Les entrées de texte et d'image comptent ensemble pour la limite totale de jetons d'entrée
  • Une seule image est autorisée par données utiles
  • L'entrée d'image doit être encodée en base64

Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite du jeton et que truncate est réglé à None, la demande retourne une erreur.

Paramètres de modèle de plongement

Vous pouvez modifier les paramètres suivants lors de l'utilisation de modèles d'intégration.

Tronquer (truncate)

Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.

Types d'intégration (embeddingTypes)

Valeurs prises en charge :

  • float (Par défaut)
  • int8
  • uint8
  • binary
  • ubinary
  • base64
Dimensions de sortie (outputDimensions)

Valeurs prises en charge :

  • 256
  • 512
  • 1024
  • 1536 (par défaut)

Migration de l'intégration 3 vers l'intégration 4

Lors de la migration de l'intégration 3 vers l'intégration 4, nous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.

  1. Créer un nouvel index vectoriel

    Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.

  2. Intégrer de nouveau les données

    Traitez de nouveau les documents sources avec cohere.embed-v4.0 et définissez outputDimensions=1536. Stockez les nouvelles intégrations dans le nouvel index.

  3. Mettre à jour la logique d'interrogation

    Mettez à jour l'application pour utiliser Intégré 4 pour les interrogations de recherche entrantes. Utilisation :
    • input_type="search_query" pour les interrogations
    • input_type="search_document" pour les documents stockés
  4. Réduire

    Une fois le nouvel index entièrement alimenté et testé, mettez à jour l'application pour qu'elle utilise le nouvel index de 1 536 dimensions.