Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) est un modèle d'intégration multimodal qui génère des incorporations à partir de texte, d'une image ou d'un texte et d'une image dans la même charge utile d'API. L'entrée d'image est disponible via l'API uniquement.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Principales fonctionnalités

  • Intégrations Matryoshka : prend en charge les dimensions de sortie de 256, 512, 1 024 et 1 536. Cette fonctionnalité n'est pas prise en charge dans les modèles Embed 3.
  • Limites d'entrée :
    • Console : jusqu'à 96 entrées de texte par exécution, chaque entrée de texte étant placée sous 512 jetons. Cette limite s'applique au mode à la demande.
    • SDK et API : jusqu'à 128 000 jetons d'entrée au total par exécution.
  • Dimensions de sortie :
    • Console:1,536
    • API : 1 536 par défaut ; prend en charge 256, 512, 1 024 et 1 536
  • Mode d'entrée :
    • API : prend en charge le texte uniquement, une image uniquement ou plusieurs entrées de texte avec une image dans la même charge utile.
    • Seule une image est autorisée par charge utile.
    • L'entrée d'image est disponible via l'API uniquement.
  • Entrée d'image :
    • Requiert une image encodée en base64.
    • Une image 512 x 512 concerne 1 610 jetons.
  • La prise en charge linguistique :
    • Texte : anglais et multilingue
    • Image : anglais uniquement

Utiliser le texte et l'image dans l'API EmbedText

Pour inclure une image avec du texte, utilisez l'attribut embedContents dans le corps de la demande EmbedTextDetails pour l'API EmbedText.

L'attribut embedContents est un tableau et n'est pris en charge que pour les modèles Embed 4. Chaque élément du tableau est un objet EmbedContent. Un objet EmbedContent peut contenir du contenu texte ou d'image.

Utilisez embedContents pour envoyer du texte et du contenu d'image dans la même demande EmbedText. Vous pouvez inclure plusieurs entrées de texte et une image, jusqu'à la taille d'entrée maximale.

Les autres paramètres de l'API EmbedText restent identiques.

Important

L'attribut embedContents est pris en charge uniquement par les modèles Embed 4. N'utilisez pas embedContents avec les modèles Embed 3.

Mode à la demande

Le mode à la demande est pay-as-you-go et est utile pour l'expérimentation, le travail de preuve de concept et l'évaluation de modèle. Sur la page de tarification, ce modèle est répertorié comme suit :

Nom du modèle Nom du modèle OCI Nom du produit de la page de tarification
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Important

Modification de la limite d'accélération dynamique pour le mode à la demande

OCI Generative AI ajuste dynamiquement la limite d'ajustement des demandes pour chaque location active en fonction de la demande de modèle et de la capacité du système afin d'optimiser l'allocation des ressources et de garantir un accès équitable. En raison de l'ajustement dynamique, les limites de taux ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

Etant donné que les limites de taux peuvent changer, nous vous recommandons d'implémenter une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de l'intégration au service.

Cluster d'IA dédié pour le modèle

Pour utiliser ce modèle avec un cluster d'IA dédié, créez une adresse pour le modèle dans une région prise en charge.

Modèle de base Cluster de réglage fin Cluster d'hébergement Informations sur la page de tarification Demander une augmentation de limite de cluster
  • Nom du modèle : Cohere Embed 4
  • Nom du modèle OCI : cohere.embed-v4.0
Non disponible pour le réglage fin
  • Taille d'unité : Embed Cohere
  • Unités obligatoires : 1
  • Nom du produit de la page de tarification : Embed Cohere - Dedicated
  • Pour l'Hébergement, Multiplier le Prix Unitaire : x1
  • Nom de la limite : dedicated-unit-embed-cohere-count
  • Pour l'hébergement, demandez une augmentation de limite de : 1
Conseil

Si vous ne disposez pas d'une capacité d'hébergement suffisante, demandez une augmentation pour la limite dedicated-unit-embed-cohere-count.

Règles d'adresse pour les clusters

  • Un cluster d'IA dédié peut contenir jusqu'à 50 adresses.
  • Utilisez ces adresses pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas les deux types.
  • Plusieurs points d'extrémité pour le même modèle facilitent leur affectation à différents utilisateurs ou objectifs.
Taille de l'unité de cluster d'hébergement Règles d'adresse
Embed Cohere
  • Modèle de base : pour exécuter le modèle ⁇ cohere.embed-v4.0 ⁇ sur plusieurs adresses, créez autant d'adresses que nécessaire sur un cluster Embed Cohere (taille d'unité).
  • Modèle personnalisé : vous ne pouvez pas affiner ⁇ cohere.embed-v4.0, de sorte que vous ne pouvez pas créer et héberger des modèles personnalisés créés à partir de cette base.
Conseil

Tests de performances du cluster

Consultez les tests d'évaluation des performances du cluster Cohere Embed 4 pour différents cas d'utilisation.

Données d'entrée pour les incorporations de texte

Pour les incorporations de texte, vous pouvez ajouter des phrases, des phrases ou des paragraphes. Dans la console, vous pouvez entrer du texte directement ou télécharger un fichier .txt.

Si vous utilisez un fichier d'entrée, séparez chaque phrase, phrase ou paragraphe d'entrée par un caractère de retour à la ligne.

Limites de la console :

  • 96 entrées de texte maximum par exécution
  • Chaque entrée de texte doit être sous 512 jetons

Limites de SDK et d'API :

  • Jusqu'à 128 000 jetons d'entrée au total par exécution
  • Les entrées de texte et d'image sont prises en compte dans la limite totale du jeton d'entrée
  • Seule une image est autorisée par charge utile
  • L'entrée d'image doit être encodée en base64

Si une entrée est trop longue, utilisez le paramètre truncate pour tronquer le début ou la fin de l'entrée. Si l'entrée dépasse la limite de jeton et que truncate est défini sur None, la demande renvoie une erreur.

Paramètres de modèle de plongement

Vous pouvez modifier les paramètres suivants lorsque vous utilisez des modèles d'intégration.

Truncate (truncate)

Tronque les jetons au début ou à la fin lorsque l'entrée dépasse la limite maximale de jetons.

Types d'intégration (embeddingTypes)

Valeurs prises en charge :

  • float (valeur par défaut)
  • int8
  • uint8
  • binary
  • ubinary
  • base64
Dimensions de sortie (outputDimensions)

Valeurs prises en charge :

  • 256
  • 512
  • 1024
  • 1536 (valeur par défaut)

Migration de l'intégration 3 vers l'intégration 4

Lors de la migration de l'intégration 3 vers l'intégration 4, nous vous recommandons de modifier la taille du vecteur de 1 024 à 1 536 dimensions et d'utiliser un nouvel index pour éviter les temps d'arrêt.

  1. Créer un nouvel index vectoriel

    Créez un index ou une collection dans votre base de données vectorielle configurée pour 1 536 dimensions.

  2. Re-intégrer les données

    Retraitez les documents source avec cohere.embed-v4.0 et définissez outputDimensions=1536. Stockez les nouvelles incorporations dans le nouvel index.

  3. Mettre à jour la logique de requête

    Mettez à jour l'application pour qu'elle utilise l'option Intégrer 4 pour les requêtes de recherche entrantes. Utiliser :
    • input_type="search_query" pour les requêtes
    • input_type="search_document" pour les documents stockés
  4. Réduire

    Une fois le nouvel index entièrement rempli et testé, mettez à jour l'application pour qu'elle utilise le nouvel index 1 536 dimensions.