Cohere Command A Reasoning
Publicado en agosto de 2025, Cohere Command A Reasoning (cohere.command-a-reasoning) es el modelo de lenguaje grande de parámetros de 111 mil millones de Cohere diseñado para el razonamiento empresarial avanzado, flujos de trabajo ágiles y uso de herramientas. Este modelo está diseñado para tareas que requieren procesamiento lógico avanzado, análisis en profundidad y razonamiento de varios pasos, como preguntas y respuestas completas, revisión intrincada de documentos y creación de argumentos estructurados. El modelo es compatible con una ventana de contexto de 256.000 tokens, lo que lo hace ideal para el análisis de datos a gran escala y flujos de trabajo ágentes.
Regiones para este modelo
Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.
Acceder a este modelo
Los puntos finales de API para todas las regiones comerciales, soberanas y gubernamentales soportadas se muestran en los enlaces API de gestión y API de inferencia. Puede acceder a cada modelo solo a través de sus regiones soportadas.
Características clave
- Propósito del modelo: a diferencia de los modelos de uso general, el comando A está diseñado específicamente para escenarios empresariales, priorizando la precisión, el razonamiento y la seguridad. Los casos de consumo principales incluyen:
- Agentes autónomos: gestionan flujos de trabajo complejos, actúan como agentes de investigación e interactúan con entornos.
- RAG avanzada: análisis exhaustivo de documentos, generación de informes financieros y extracción de datos con citas precisas.
- Bots conversacionales de varias vueltas: mantener la coherencia y la consistencia lógica en conversaciones largas y complejas.
- Ventana de contexto: admite una ventana de 256 000 tokens con hasta 32 000 tokens de salida, lo que permite el análisis de documentos extensos y mantiene el contexto de su largo historial de conversaciones de 256 000 tokens. Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución. Para el modo dedicado, la longitud de la respuesta no está limitada y la longitud del contexto es de 256 000 tokens.
- Casos de uso genéticos: sobresale en los agentes ReAct (razonamiento + actuación), dividiendo preguntas complejas de varios pasos en subobjetivos, utilizando herramientas externas, realizando acciones autónomas e interactuando con el entorno para resolver problemas.
- Uso de herramientas y RAG: diseñado para interactuar con API externas y aprovechar diversas herramientas, como motores de búsqueda y bases de datos, con soporte integrado para citas de conexión a tierra.
- Soporte multilingüe: puede razonar de forma nativa en 23 idiomas, incluidos inglés, español, chino, árabe y alemán.
- Arquitectura y eficiencia: utiliza una arquitectura de transformador de cuatro capas con atención híbrida (ventana deslizante + global) para manejar un contexto largo y puede ejecutarse en una o dos GPU.
- Configuración: los usuarios pueden definir presupuestos de razonamiento para equilibrar la latencia, la precisión y el rendimiento.
- Corte de conocimiento: 1 de junio de 2024
Consulte la documentación de Cohere para conocer el modelo de razonamiento Command A y la Guía de razonamiento.
Puntos finales de la API
El modelo Cohere Command A Reasoning solo es compatible con la versión 2 de la API de chat de IA generativa de OCI para los modelos Cohere. Para obtener más información sobre la implantación, consulte la API CohereChatRequestV2 y otros puntos finales relacionados que terminan en V2. Por ejemplo, CohereChatResponseV2.
Cluster de IA dedicado para el modelo
En la lista de regiones anterior, los modelos de regiones que no están marcados con (solo clúster de IA dedicada) tienen opciones de clúster de IA dedicado y bajo demanda. Para el modo bajo demanda, no necesita clusters y puede acceder al modelo en el patio de juegos de la consola o a través de la API.
Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.
| Modelo base | Cluster de Ajuste | Cluster de alojamiento | Información de página de asignación de precios | Aumento de límite de cluster de solicitud |
|---|---|---|---|---|
|
No disponible para ajuste |
|
|
|
|
No disponible para ajuste |
|
|
|
-
Si no tiene suficientes límites de cluster en el arrendamiento para alojar el modelo Cohere Command A Reasoning en un cluster de AI dedicado,
Reglas de punto final para clusters
- Un cluster de AI dedicado puede contener hasta 50 puntos finales.
- Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
- Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.
| Tamaño de unidad de cluster de alojamiento | Reglas de punto final |
|---|---|
| LARGE_COHERE_V2_2 |
|
| SMALL_COHERE_4
(sólo UAE East (Dubai)) |
|
-
Para aumentar el volumen de llamadas soportado por un cluster de alojamiento, aumente el recuento de instancias editando el cluster de AI dedicado. Consulte Updating a Dedicated AI Cluster.
-
Para más de 50 puntos finales por cluster, solicite un aumento del límite,
endpoint-per-dedicated-unit-count. Consulte Solicitud de un aumento del límite de servicio y Límites de servicio para la IA generativa.
Fechas de lanzamiento y baja de OCI
Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte las siguientes páginas en función del modo (bajo demanda o dedicado):
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.
- Sustitución de preámbulo
-
Contexto inicial o mensaje que guía a una modelo de chat. Cuando no asigna un preámbulo a una modelo de chat, se utiliza el preámbulo por defecto para esa modelo. Puede asignar un preámbulo en el parámetro Sustitución de preámbulo para los modelos. El preámbulo predeterminado para la familia Cohere es:
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.La sustitución del preámbulo por defecto es opcional. Cuando se especifica, la sustitución del preámbulo reemplaza el preámbulo predeterminado de Cohere. Al agregar un preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación.
Consejo
Para los modelos de chat sin el parámetro sustitución de preámbulo, puede incluir un preámbulo en la conversación de chat y pedir directamente al modelo que responda de una forma determinada. - Modo de seguridad
- Agrega una instrucción de seguridad para que el modelo la use al generar respuestas. Las opciones son las siguientes:
- Contextual: (por defecto) pone menos restricciones en la salida. Mantiene protecciones básicas con el objetivo de rechazar sugerencias dañinas o ilegales, pero permite contenido obsceno y tóxico, contenido sexualmente explícito y violento, y contenido que contiene información médica, financiera o legal. El modo contextual es adecuado para entretenimiento, uso creativo o académico.
- Estricta: tiene como objetivo evitar temas delicados, como actos violentos o sexuales y blasfemias. Este modo tiene como objetivo proporcionar una experiencia más segura al prohibir las respuestas o recomendaciones que considere inapropiadas. El modo estricto es adecuado para uso corporativo, como para comunicaciones corporativas y servicio al cliente.
- Desactivado: no se aplica ningún modo de seguridad.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida.
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
pun número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definapen 1 para considerar todos los tokens. - k principales
-
Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables
top k. Un valor alto parakgenera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelosCohere Commandy -1 para los modelosMeta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método. - Penalización de frecuencia
-
Una penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.
Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.
- Valor inicial
-
Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.
Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.
Advertencia
Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.
Parámetro de API para razonamiento
- pensamiento
-
Por defecto, la función de razonamiento para el modelo
cohere.command-a-reasoningse activa mediante el parámetrothinking. Consulte CohereThinkingV2.Cuando el parámetro
thinkingestá activado, el modelo funciona mediante problemas complejos paso a paso, desglosando los problemas internamente, antes de proporcionar una respuesta final. Esta función se puede controlar de varias formas:El pensamiento está activado por defecto, pero puede desactivarlo. Cuando se desactiva, el modelo de razonamiento funciona de forma similar a cualquier otro LLM sin el paso de razonamiento interno.
- token_budget
-
Puede especificar un presupuesto de token con el parámetro
token_budgetpara limitar el número de tokens de pensamiento que produce el modelo. Cuando se supera el presupuesto, el modelo continúa inmediatamente con la respuesta final.Al usar presupuestos de pensamiento, Cohere recomienda:
- Usar el pensamiento ilimitado cuando sea posible
- Si utiliza un presupuesto, deje al menos 1000 tokens para la respuesta
- Para un razonamiento máximo, se recomienda un presupuesto de 31.000 tokens
Consulte CohereThinkingContentV2 Reference y CohereThinkingV2 Reference en la documentación de API y Reasoning Guide en la documentación de Cohere.