Cohere Rerank 4

Cohere Rerank 4 es un modelo de rerank disponible en dos variantes, Pro y Fast.

La modificación mejora la relevancia de la búsqueda al reordenar un juego inicial de resultados recuperados. Después de que un paso de recuperación devuelve documentos candidatos, el modelo de nueva clasificación compara la consulta con cada candidato y clasifica los resultados de los más relevantes a los menos relevantes.

Cohere Rerank 4 soporta el aprendizaje multilingüe y el contenido semiestructurado, incluidos JSON, tablas y contenido similar a código.

Novedades de Rerank 4

En comparación con Cohere Rerank 3.5, Rerank 4 agrega una ventana de contexto más grande, mejor calidad de reproducción, soporte de autoaprendizaje y dos variantes optimizadas para diferentes requisitos de carga de trabajo

Ventana de contexto aumentada

Rerank 4 admite una ventana de contexto de 32.000 tokens. La ventana de contexto más amplia mejora el manejo de documentos largos y entradas de candidatos más grandes, lo que es útil para el contenido empresarial denso, como informes, contratos, manuales y documentación técnica.

Mejora de la calidad del reranking

Rerank 4 mejora los pedidos de resultados para las cargas de trabajo de recuperación empresarial. Proporciona una clasificación de mayor relevancia para el negocio, las finanzas, el contenido técnico y otro contenido específico del dominio, lo que puede mejorar los flujos de trabajo de generación aumentados de recuperación posteriores al mostrar un contexto más relevante.

Soporte de autoaprendizaje

Rerank 4 presenta soporte de autoaprendizaje, que ayuda a adaptar el comportamiento de repetición a datos específicos del dominio, terminología y preferencias de relevancia sin necesidad de datos de entrenamiento anotados.

Variantes Pro y Fast

Rerank 4 está disponible en dos variantes:

  • Pro está optimizado para tareas de renovación de mayor precisión y recuperación más complejas.
  • Fast está optimizado para cargas de trabajo de menor latencia y mayor rendimiento.
Soporte de datos multilingüe y semiestructurado

Rerank 4 es compatible con el reranking para contenido en inglés y no en inglés en más de 100 idiomas. También soporta contenido semiestructurado, como JSON, tablas y contenido similar a código.

Regiones para este modelo

Importante

Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.

Variantes de modelo

Cohere Rerank 4 incluye las siguientes variantes de modelos:

Modelo Nombre de modelo de OCI Descripción
Cohere Rerank 4 Pro cohere.rerank-v4.0-pro Modelo de reproducción multilingüe para texto en inglés y no en inglés y datos JSON semiestructurados. Ideal para cargas de trabajo de cambio complejas y centradas en la calidad.
Cohere Rerank 4 Fast cohere.rerank-v4.0-fast Modelo de reproducción multilingüe ligero para texto en inglés y no en inglés y datos JSON semiestructurados. Ideal para cargas de trabajo de menor latencia y mayor rendimiento.

Modo bajo demanda

Algunas variantes de Cohere Rerank 4 están disponibles bajo demanda en las regiones soportadas. El modo bajo demanda no requiere un cluster de IA dedicado.

Consulte Modelos por región para comprobar qué variantes de modelo están disponibles bajo demanda y en qué regiones.

Nombre de modelo Nombre de modelo de OCI Nombre de producto de página de asignación de precios
Cohere Rerank 4 Pro cohere.rerank-v4.0-pro Rerank 4 Pro
Cohere Rerank 4 Fast cohere.rerank-v4.0-fast Rerank 4 Fast

La fijación de precios se basa en 1 000 unidades de búsqueda. Consulte la página de precios.

Obtenga más información sobre el modo bajo demanda.

Cluster de IA dedicado para el modelo

Algunas variantes de Cohere Rerank 4 están disponibles a través de clusters de IA dedicados en regiones soportadas. Estos modelos no están disponibles para el ajuste.

Para el modo dedicado, cree un punto final en un cluster de AI dedicado de alojamiento.

Modelo Tamaño de unidad de hardware Regiones disponibles Aumento de límite de cluster de solicitud
Cohere Rerank 4 Pro (cohere.rerank-v4.0-pro) COHERE_A100_80G_X1
  • Este de EE. UU. (Ashburn)
  • Oeste de EE. UU. (Phoenix)
  • Nombre de límite: dedicated-unit-a100-80g-count
  • Para el alojamiento, solicite un aumento del límite en: 1
Cohere Rerank 4 Pro (cohere.rerank-v4.0-pro) COHERE_H100_X1
  • Este de Brasil (São Paulo)
  • Centro de Alemania (Fráncfort)
  • Sur de India (Hyderabad)
  • Centro de Japón (Osaka)
  • Sur de Reino Unido (Londres)
  • Medio Oeste de EE. UU. (Chicago)
  • Nombre de límite: dedicated-unit-h100-count
  • Para el alojamiento, solicite un aumento del límite en: 1
Cohere Rerank 4 Fast (cohere.rerank-v4.0-fast) COHERE_A100_80G_X1
  • Oeste de EE. UU. (Phoenix)
  • Nombre de límite: dedicated-unit-a100-80g-count
  • Para el alojamiento, solicite un aumento del límite en: 1
Cohere Rerank 4 Fast (cohere.rerank-v4.0-fast) COHERE_H100_X1
  • Este de Brasil (São Paulo)
  • Centro de Alemania (Fráncfort)
  • Sur de India (Hyderabad)
  • Centro de Japón (Osaka)
  • Sur de Reino Unido (Londres)
  • Este de EE. UU. (Ashburn)
  • Medio Oeste de EE. UU. (Chicago)
  • Nombre de límite: dedicated-unit-h100-count
  • Para el alojamiento, solicite un aumento del límite en: 1

Para conocer los precios, consulte el estimador de costos y la página de precios.

Consejo

Si el arrendamiento no tiene límites suficientes para alojar estos modelos en un cluster de AI dedicado, solicite un aumento del límite para la unidad de hardware utilizada en la región de destino. Por ejemplo, para alojar los modelos en el oeste de EE. UU. (Phoenix), solicite un aumento de 1 para dedicated-unit-a100-80g-count.

Acceder a este modelo

Para utilizar un modelo de Cohere Rerank 4, llame a la API de RerankText desde una región soportada.

Punto final
https://inference.generativeai.{region}.oci.oraclecloud.com
Operación de API
POST /20231130/actions/rerankText

En RerankTextDetails, para servingMode, defina el atributo servingType según cómo desee acceder al modelo:

  • Utilice ON_DEMAND para un modelo a demanda en una región soportada.
  • Utilice DEDICATED para un modelo alojado en un punto final de cluster de IA dedicado.

Para obtener información sobre la disponibilidad y la configuración, consulte las secciones anteriores Modo bajo demanda y Cluster de AI dedicado para el modelo.

Parámetros de modelo de nueva clasificación

Para conocer los parámetros del modelo Rerank, consulte la documentación de la API RerankText.