Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) es un modelo de incrustación multimodal que genera incrustaciones a partir de texto, una imagen o texto y una imagen en la misma carga útil de API. La entrada de imagen solo está disponible a través de la API.

Regiones para este modelo

Importante

Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.

Características clave

  • Embebidas de Matryoshka: admite dimensiones de salida de 256, 512, 1,024 y 1,536. Esta función no se admite en los modelos Embed 3.
  • Límites de entrada:
    • Consola: hasta 96 entradas de texto por ejecución, con cada entrada de texto en 512 tokens. Este límite se aplica al modo bajo demanda.
    • SDK y API: hasta 128 000 tokens de entrada en total por ejecución.
  • Dimensiones de salida:
    • Consola:1,536
    • API: 1.536 por defecto; admite 256, 512, 1.024 y 1.536
  • Modo de entrada:
    • API: admite solo texto, solo una imagen o varias entradas de texto con una imagen en la misma carga útil.
    • Solo se permite una imagen por carga útil.
    • La entrada de imagen solo está disponible a través de la API.
  • Entrada de imagen:
    • Requiere una imagen codificada en base64.
    • Una imagen 512 x 512 tiene aproximadamente 1.610 tokens.
  • Compatibilidad con idiomas:
    • Texto: inglés y multilingüe
    • Imagen: solo en inglés

Uso de texto e imagen en la API EmbedText

Para incluir una imagen con texto, utilice el atributo embedContents en el cuerpo de la solicitud EmbedTextDetails para la API EmbedText.

El atributo embedContents es una matriz y solo está soportado para modelos Embeber 4. Cada elemento de la matriz es un objeto EmbedContent. Un objeto EmbedContent puede contener contenido de texto o de imagen.

Utilice embedContents cuando desee enviar contenido de texto e imagen en la misma solicitud de EmbedText. Puede incluir varias entradas de texto y una imagen, hasta el tamaño máximo de entrada.

Los demás parámetros de la API EmbedText siguen siendo los mismos.

Importante

El atributo embedContents solo está soportado por los modelos Embeber 4. No utilice embedContents con los modelos Embed 3.

Modo bajo demanda

El modo bajo demanda es de pago por consumo y es útil para la experimentación, el trabajo de prueba de concepto y la evaluación de modelos. En la página de precios, este modelo se muestra como:

Nombre de modelo Nombre de modelo de OCI Nombre de producto de página de asignación de precios
Cohere: Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Importante

Cambio de límite de limitación dinámica para el modo bajo demanda

OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo. Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.

Consejo

Debido a que los límites de tarifas pueden cambiar, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden llevar a más rechazos con el tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de la integración en el servicio.

Cluster de IA dedicado para el modelo

Para utilizar este modelo con un cluster de IA dedicado, cree un punto final para el modelo en una región soportada.

Modelo base Cluster de Ajuste Cluster de alojamiento Información de página de asignación de precios Aumento de límite de cluster de solicitud
  • Nombre de modelo: Cohere Embed 4
  • Nombre del modelo de OCI: cohere.embed-v4.0
No disponible para ajuste
  • Tamaño de unidad: Embed Cohere
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Embed Cohere - Dedicated
  • Por Hosting, Multiplicar el Precio Unitario: x1
  • Nombre de límite: dedicated-unit-embed-cohere-count
  • Para el alojamiento, solicite un aumento del límite en: 1
Consejo

Si no tiene suficiente capacidad de alojamiento, solicite un aumento para el límite dedicated-unit-embed-cohere-count.

Reglas de punto final para clusters

  • Un cluster de AI dedicado puede contener hasta 50 puntos finales.
  • Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
  • Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.
Tamaño de unidad de cluster de alojamiento Reglas de punto final
Embed Cohere
  • Modelo base: para ejecutar el ⁇ cohere.embed-v4.0 ⁇ modelo en varios puntos finales, cree tantos puntos finales como necesite en un cluster Embed Cohere (tamaño de unidad).
  • Modelo personalizado: no puede ajustar cohere.embed-v4.0, por lo que no puede crear ni alojar modelos personalizados creados a partir de esa base.
Consejo

Referencias de rendimiento de cluster

Revise las referencias de rendimiento del cluster de Cohere Embed 4 para diferentes casos de uso.

Datos de entrada para incrustaciones de texto

Para incrustaciones de texto, puede agregar oraciones, frases o párrafos. En la consola, puede introducir texto directamente o cargar un archivo .txt.

Si utiliza un archivo de entrada, separe cada frase, frase o párrafo de entrada con un carácter de nueva línea.

Límites de consola:

  • Máximo de 96 entradas de texto por ejecución
  • Cada entrada de texto debe estar en 512 tokens

Límites de SDK y API:

  • Hasta 128 000 tokens de entrada en total por ejecución
  • Las entradas de texto e imagen cuentan juntas para el límite total de tokens de entrada
  • Solo se permite una imagen por carga útil
  • La entrada de imagen debe estar codificada en base64

Si una entrada es demasiado larga, utilice el parámetro truncate para truncar el inicio o el final de la entrada. Si la entrada supera el límite de token y truncate se define en None, la solicitud devuelve un error.

Incrustación de parámetros de modelos

Puede cambiar los siguientes parámetros al utilizar modelos de incrustación.

Truncar (truncate)

Trunca los tokens al inicio o al final cuando la entrada supera el límite máximo de tokens.

Tipos de embebido (embeddingTypes)

Valores soportados:

  • float (valor por defecto)
  • int8
  • uint8
  • binary
  • ubinary
  • base64
Dimensiones de salida (outputDimensions)

Valores soportados:

  • 256
  • 512
  • 1024
  • 1536 (valor por defecto)

Migración de Embed 3 a Embed 4

Al migrar de Embed 3 a Embed 4, se recomienda cambiar el tamaño del vector de 1.024 a 1.536 dimensiones y utilizar un nuevo índice para ayudar a evitar el tiempo de inactividad.

  1. Crear un nuevo índice vectorial

    Cree un nuevo índice o recopilación en la base de datos vectorial configurada para 1.536 dimensiones.

  2. Volver a incorporar los datos

    Vuelva a procesar los documentos de origen con cohere.embed-v4.0 y defina outputDimensions=1536. Almacene las nuevas incrustaciones en el nuevo índice.

  3. Actualizar lógica de consulta

    Actualice la aplicación para que utilice Incrustar 4 para consultas de búsqueda entrantes. Usar:
    • input_type="search_query" para consultas
    • input_type="search_document" para documentos almacenados
  4. Recortar

    Una vez que el nuevo índice se haya rellenado y probado por completo, actualice la aplicación para que utilice el nuevo índice 1.536 dimensiones.