Cohere Command A

A partir de marzo de 2025, la modelo cohere.command-a-03-2025 es la modelo de chat de Cohere más eficiente que sus modelos anteriores de Cohere con un mejor rendimiento que cohere.command-r-08-2024. Este modelo funciona muy bien para tareas empresariales ágentes, y ha mejorado significativamente la eficiencia de los recursos informáticos y tiene una longitud de contexto de 256 000 tokens.

Regiones para este modelo

Importante

Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.

Acceder a este modelo

Puede acceder a este modelo a través de:

Nota

Las tintas de API muestran los puntos finales de todas las regiones comerciales, soberanas y gubernamentales compatibles.

Características clave

Más rendimiento que sus modelos de chat anteriores de Cohere y mejor rendimiento que cohere.command-r-08-2024.
Excels en el uso de herramientas, agentes, generación aumentada de recuperación (RAG) y casos de uso multilingües.
Puede mantener el contexto de su largo historial de conversaciones de 256.000 tokens.
Petición de datos máxima + longitud de respuesta: 256.000 tokens para cada ejecución.
Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución.
Para el modo dedicado, la longitud de la respuesta no está limitada y la longitud del contexto es de 256 000 tokens.

Modo bajo demanda

Consulte la siguiente tabla para ver el nombre del producto bajo demanda de este modelo en la página de precios.


Nombre de modelo	Nombre de modelo de OCI	Nombre de producto de página de asignación de precios
Cohere Command A	`cohere.command-a-03-2025`	Large Cohere

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:

Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
Baja barrera para empezar a utilizar la IA generativa.
Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).

Importante

Cambio de límite de limitación dinámica para el modo bajo demanda

OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.

Este cambio depende de los siguientes factores:

Rendimiento máximo actual soportado por el modelo de destino.
Cualquier capacidad del sistema no utilizada en el momento del cambio.
El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.

Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.

Consejo

Debido al cambio de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de la integración en el servicio.

Cluster de IA dedicado para el modelo

Para los modelos en modo bajo demanda, no se necesitan clusters. Accede a ellos a través de la consola y la API. Para los modelos disponibles en el modo dedicado, utilice puntos finales creados en clusters de IA dedicados. Obtenga información sobre el modo dedicado.

En la siguiente tabla, se muestran los tamaños de las unidades de hardware, las regiones disponibles y los límites de servicio para los clusters de IA dedicados. Este modelo no está disponible para el ajuste.


Tamaño de unidad de hardware	Regiones disponibles	Nombre de límite
Cohere_A100_40G_X4	Emiratos Árabes Unidos oriental (Dubái)	Nombre de límite: `dedicated-unit-a100-40g-count` Solicitar aumento en: 4
Cohere_A100_80G_X2	EU Sovereign Central (Fráncfort) Medio Oeste de EE. UU. (Chicago) Oeste de EE. UU. (Phoenix)	Nombre de límite: `dedicated-unit-a100-80g-count` Solicitar aumento en: 2
Cohere_H100_X2	Este de Brasil (São Paulo) Centro de Alemania (Fráncfort) Sur de India (Hyderabad) Centro de Japón (Osaka) Sur de Reino Unido (Londres) Este de EE. UU. (Ashburn) Medio Oeste de EE. UU. (Chicago)	Nombre de límite: `dedicated-unit-h100-count` Solicitar aumento en: 2
Cohere_H200_X2	Arabia Saudí Central (Riad)	Nombre de límite: `dedicated-unit-h200-count` Solicitar aumento en: 2

Importante

Para conocer los precios del hardware, consulte el estimador de costos.
Si los límites de arrendamiento no son suficientes para alojar este modelo en un cluster de AI dedicado, solicite un aumento para el límite de hardware correspondiente. Por ejemplo, solicite un aumento para el límite dedicated-unit-h100-count en 2. Consulte Creación de una solicitud de aumento de límite.

Unidades genéricas heredadas

Importante

Las unidades Cohere genéricas heredadas se están retirando de la IA generativa. Durante el período de baja, estas unidades permanecen disponibles solo en la API. Si utiliza la API, es posible que vea tanto las unidades genéricas heredadas como las nuevas unidades de hardware hasta que las unidades genéricas heredadas se eliminen del servicio.

Utilice esta sección solo si tiene un cluster de IA dedicado que utiliza una unidad Cohere genérica heredada o si utiliza la API para crear un cluster con una unidad Cohere genérica heredada durante el período de retirada. Para los nuevos clusters de IA dedicados, utilice las unidades de hardware que se muestran en Cluster de IA dedicado para el modelo.

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.


Modelo base	Cluster de Ajuste	Cluster de alojamiento	Información de página de asignación de precios	Aumento de límite de cluster de solicitud
Nombre de modelo: Cohere Command A Nombre del modelo de OCI: `cohere.command-a-03-2025`	No disponible para ajuste	Tamaño de unidad: LARGE_COHERE_V3 Unidades necesarias: 1	Nombre del Producto de la Página de Precios: Large Cohere - Dedicated	Nombre de límite: `dedicated-unit-large-cohere-count` Para el alojamiento, solicite un aumento del límite en: 1
Nombre de modelo: Cohere Command A (solo UAE East (Dubai)) Nombre del modelo de OCI: `cohere.command-a-03-2025`	No disponible para ajuste	Tamaño de unidad: SMALL_COHERE_4 Unidades necesarias: 1	Nombre del Producto de la Página de Precios: Small Cohere - Dedicated Por Hosting, Multiplicar el Precio Unitario: x4	Nombre de límite: `dedicated-unit-small-cohere-count` Para el alojamiento, solicite un aumento del límite en: 4

Consejo

Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo Cohere Command A en un cluster de AI dedicado,
- Para la región UAE East (Dubai), solicite que el límite dedicated-unit-small-cohere-count aumente en 4.
- Para todas las demás regiones, solicite que el límite de dedicated-unit-large-cohere-count aumente en 1.
Consulte Creación de una solicitud de aumento de límite.

Reglas de punto final para clusters

Un cluster de AI dedicado puede contener hasta 50 puntos finales.
Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.

Consejo

Para aumentar el volumen de llamadas soportado por un cluster de alojamiento, aumente el recuento de instancias editando el cluster de AI dedicado. Consulte Updating a Dedicated AI Cluster.
Para más de 50 puntos finales por cluster, solicite un aumento del límite, endpoint-per-dedicated-unit-count. Consulte Creación de una solicitud de aumento del límite y Límites de servicio para la IA generativa.

Referencias de rendimiento de cluster

Revise las referencias de rendimiento del cluster del comando Cohere A para diferentes casos de uso.

Fechas de lanzamiento y baja de OCI

Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte las siguientes páginas en función del modo (bajo demanda o dedicado):

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.

Sustitución de preámbulo

Contexto inicial o mensaje que guía a una modelo de chat. Cuando no asigna un preámbulo a una modelo de chat, se utiliza el preámbulo por defecto para esa modelo. Puede asignar un preámbulo en el parámetro Sustitución de preámbulo para los modelos. El preámbulo predeterminado para la familia Cohere es:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

La sustitución del preámbulo por defecto es opcional. Cuando se especifica, la sustitución del preámbulo reemplaza el preámbulo predeterminado de Cohere. Al agregar un preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación.

Consejo

Para los modelos de chat sin el parámetro sustitución de preámbulo, puede incluir un preámbulo en la conversación de chat y pedir directamente al modelo que responda de una forma determinada.

Modo de seguridad

Agrega una instrucción de seguridad para que el modelo la use al generar respuestas. Las opciones son las siguientes:

Contextual: (por defecto) pone menos restricciones en la salida. Mantiene protecciones básicas con el objetivo de rechazar sugerencias dañinas o ilegales, pero permite contenido obsceno y tóxico, contenido sexualmente explícito y violento, y contenido que contiene información médica, financiera o legal. El modo contextual es adecuado para entretenimiento, uso creativo o académico.
Estricta: tiene como objetivo evitar temas delicados, como actos violentos o sexuales y blasfemias. Este modo tiene como objetivo proporcionar una experiencia más segura al prohibir las respuestas o recomendaciones que considere inapropiadas. El modo estricto es adecuado para uso corporativo, como para comunicaciones corporativas y servicio al cliente.
Desactivado: no se aplica ningún modo de seguridad.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.

p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Valor inicial

Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.

Documentación de Oracle Cloud Infrastructure

Cohere Command A

Regiones para este modelo

Acceder a este modelo

Características clave

Modo bajo demanda

Cluster de IA dedicado para el modelo

Unidades genéricas heredadas

Reglas de punto final para clusters

Referencias de rendimiento de cluster

Fechas de lanzamiento y baja de OCI

Parámetros de Modelo