Cohere Embed 4

cohere.embed-v4.0 es un modelo multimodal que puede crear incrustaciones de texto a partir de entradas de texto o de una imagen. La entrada de imagen no está disponible en la consola y debe utilizar la API. Para API, introduzca una imagen codificada base64 en cada ejecución. Por ejemplo, una imagen de 512 x 512 se convierte en aproximadamente 1.610 tokens.

Regiones para este modelo

Importante

Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.

Acceder a este modelo

Acceda a este modelo a través de la consola, la API y la CLI:

Nota

Los puntos finales de API para todas las regiones comerciales, soberanas y gubernamentales soportadas se muestran en los enlaces API de gestión y API de inferencia. Puede acceder a cada modelo solo a través de sus regiones soportadas.

Características clave

Modo
- Introduzca texto o imagen, pero no ambos.
- Para obtener incrustaciones para una imagen, solo se permite una imagen. No puede combinar texto e imagen para la misma incrustación. Entrada de imagen solo mediante API.
Entrada y salida
- En la consola, cada entrada de texto debe tener menos de 512 tokens y un máximo de 96 entradas por ejecución.
- En el SDK y la API, todas las entradas juntas pueden agregar hasta 128 000 tokens por incrustación por ejecución.
- El modelo genera un vector de 1.536 dimensiones para cada incrustación.
Soporte de Idioma
- Texto: inglés o multilingual.
- Imagen: solo en inglés.

Modo bajo demanda

Consulte la siguiente tabla para ver el nombre del producto bajo demanda de este modelo en la página de precios.


Nombre de modelo	Nombre de modelo de OCI	Nombre de producto de página de asignación de precios
Cohere: Cohere Embed 4	`cohere.embed-v4.0`	Embed Cohere

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:

Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
Baja barrera para empezar a utilizar la IA generativa.
Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).

Importante

Ajuste de límite de limitación dinámica para el modo bajo demanda

OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.

Este ajuste depende de los siguientes factores:

Rendimiento máximo actual soportado por el modelo de destino.
Cualquier capacidad del sistema no utilizada en el momento del ajuste.
El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.

Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.

Consejo

Debido al ajuste de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.

Cluster de IA dedicado para el modelo

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.


Modelo base	Cluster de Ajuste	Cluster de alojamiento	Información de página de asignación de precios	Aumento de límite de cluster de solicitud
Nombre de modelo: Cohere Embed 4 Nombre del modelo de OCI: `cohere.embed-v4.0`	No disponible para ajuste	Tamaño de unidad: Embed Cohere Unidades necesarias: 1	Nombre del Producto de la Página de Precios: Embed Cohere - Dedicated Por Hosting, Multiplicar el Precio Unitario: x1	Nombre de límite: `dedicated-unit-embed-cohere-count` Para el alojamiento, solicite un aumento del límite en: 1

Consejo

Si no tiene suficientes límites de cluster en su arrendamiento para alojar un modelo Embed en un cluster de AI dedicado, solicite que el límite dedicated-unit-embed-cohere-count aumente en 1.

Reglas de punto final para clusters

Un cluster de AI dedicado puede contener hasta 50 puntos finales.
Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.


Tamaño de unidad de cluster de alojamiento	Reglas de punto final
Embed Cohere	Modelo base: para ejecutar el ⁇ `cohere.embed-v4.0` ⁇ modelo en varios puntos finales, cree tantos puntos finales como necesite en un cluster Embed Cohere (tamaño de unidad). Modelo personalizado: no puede ajustar `cohere.embed-v4.0`, por lo que no puede crear ni alojar modelos personalizados creados a partir de esa base.

Consejo

Para aumentar el volumen de llamadas soportado por un cluster de alojamiento, aumente el recuento de instancias editando el cluster de AI dedicado. Consulte Updating a Dedicated AI Cluster.
Para más de 50 puntos finales por cluster, solicite un aumento del límite, endpoint-per-dedicated-unit-count. Consulte Solicitud de un aumento del límite de servicio y Límites de servicio para la IA generativa.

Referencias de rendimiento de cluster

Revise las referencias de rendimiento del cluster de Cohere Embed 4 para diferentes casos de uso.

Fechas de lanzamiento y baja de OCI

Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte las siguientes páginas en función del modo (bajo demanda o dedicado):

Datos de entrada para incrustaciones de texto

Los datos de entrada para crear incrustaciones de texto tienen los siguientes requisitos:

Puede agregar frases, frases o párrafos para incrustar una frase a la vez o cargando un archivo.
Solo se permiten los archivos con extensión .txt.
Si utiliza un archivo de entrada, cada frase, frase o párrafo de entrada del archivo debe estar separado por un carácter de nueva línea.
Se permiten un máximo de 96 entradas para cada ejecución.
En la consola, cada entrada debe tener menos de 512 tokens para los modelos de solo texto.
Si una entrada es demasiado larga, seleccione si desea cortar el inicio o el final del texto para que se ajuste al límite de token mediante la definición del parámetro Truncar en Iniciar o Fin. Si una entrada supera el límite de token 512 y el parámetro Truncar se define en Ninguno, aparece un mensaje de error.
Para los modelos de texto e imagen, puede tener archivos e entradas que suman hasta 128.000 tokens.
Para los modelos de incrustación de texto e imagen, como Cohere Embed English Image V3, puede agregar texto o agregar solo una imagen. Para la imagen, puede utilizar API. La entrada de imagen no está disponible en la consola. Para API, introduzca una imagen codificada base64 en cada ejecución. Por ejemplo, una imagen de 512 x 512 se convierte en aproximadamente 1.610 tokens.

Obtén más información sobre la creación de incrustaciones de texto en OCI Generative AI.

Parámetro de Modelo embebido

Al utilizar los modelos de embebido, puede obtener una salida diferente cambiando el siguiente parámetro.

Truncate: Si se truncan los tokens de inicio o finalización en una frase, cuando esa frase supera el número máximo de tokens permitidos. Por ejemplo, una frase tiene 516 tokens, pero el tamaño máximo de token es 512. Si selecciona truncar el final, los últimos 4 tokens de esa frase se cortan.

Documentación de Oracle Cloud Infrastructure

Cohere Embed 4

Regiones para este modelo

Acceder a este modelo

Características clave

Modo bajo demanda

Cluster de IA dedicado para el modelo

Reglas de punto final para clusters

Referencias de rendimiento de cluster

Fechas de lanzamiento y baja de OCI

Datos de entrada para incrustaciones de texto

Parámetro de Modelo embebido