Cohere Command A Reasoning
Lançado em agosto de 2025, o Cohere Command A Reasoning (cohere.command-a-reasoning-08-2025) é o principal modelo de linguagem de 111 bilhões de parâmetros da Cohere, projetado para raciocínio empresarial avançado, fluxos de trabalho agênticos e uso de ferramentas. Esse modelo foi criado para tarefas que exigem processamento lógico avançado, análise aprofundada e raciocínio em várias etapas, como perguntas e respostas abrangentes, revisão complexa de documentos e criação de argumentos estruturados. O modelo suporta uma janela de contexto de 256.000 tokens, o que o torna ideal para análise de dados em larga escala e fluxos de trabalho agênticos.
Disponível nestas regiões
- Leste do Brasil (São Paulo) (somente cluster de IA dedicado)
- Centro da Alemanha (Frankfurt) (somente cluster de IA dedicado)
- Sul da Índia (Hyderabad) (somente cluster de IA dedicado)
- Centro do Japão (Osaka) (somente cluster de IA dedicado)
- Leste dos EAU (Dubai) (somente cluster de IA dedicado)
- Sul do Reino Unido (Londres) (somente cluster de IA dedicado)
- Leste dos EUA (Ashburn) (somente cluster de IA dedicado)
- Centro-Oeste dos EUA (Chicago) (somente cluster de IA dedicado)
- Oeste dos EUA (Phoenix) (somente cluster de IA dedicado)
Acessar este Modelo
Principais Recursos
- Finalidade do Modelo: Ao contrário dos modelos de uso geral, o Comando A foi criado especificamente para cenários corporativos, priorizando precisão, raciocínio e segurança. Os principais casos de uso incluem:
- Agentes Autônomos: Gerenciar workflows complexos, atuar como agente de pesquisa e interagir com ambientes.
- RAG Avançado: Análise profunda de documentos, geração de relatórios financeiros e extração de dados com citações precisas.
- Chatbots de várias turnos: mantendo a coerência e a consistência lógica em conversas longas e complexas.
- Janela de Contexto: Suporta uma janela de 256.000 tokens com até 32.000 tokens de saída, permitindo a análise de documentos extensivos e mantém o contexto de seu longo histórico de conversas de 256.000 tokens. Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução. Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 256.000 tokens.
- Casos de Uso Ágil: Destaca-se em agentes ReAct (Razão + Ação), dividindo perguntas complexas em várias etapas em subgols, usando ferramentas externas, tomando ações autônomas e interagindo com o ambiente para resolver problemas.
- Uso de Ferramentas e RAG: Projetado para interagir com APIs externas e aproveitar várias ferramentas, como mecanismos de pesquisa e bancos de dados, com suporte integrado para citações de aterramento.
- Suporte multilíngue: pode ser usado nativamente em 23 idiomas, incluindo inglês, espanhol, chinês, árabe e alemão.
- Arquitetura e Eficiência: Usa uma arquitetura de transformador de quatro camadas com atenção híbrida (janela deslizante + global) para lidar com contexto longo e pode ser executada em uma ou duas GPUs.
- Configuração: Os usuários podem definir orçamentos de raciocínio para equilibrar latência, precisão e throughput.
- Knowledge Cutoff: 1º de junho de 2024
Consulte a documentação da Cohere para Command A Reasoning Model e Reasoning Guide.
Cluster de IA Dedicado para o Modelo
Na lista de regiões anterior, os modelos em regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA sob demanda e dedicadas. Para o modo sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API.
Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.
| Modelo Base | Cluster de Ajuste | Cluster de Hosts | Informações da Página de Preços | Aumento do Limite do Cluster de Solicitações |
|---|---|---|---|---|
|
Não disponível para ajuste fino |
|
|
|
|
Não disponível para ajuste fino |
|
|
|
-
Se você não tiver limites de cluster suficientes na tenancy para hospedar o modelo Cohere Command A Reasoning em um cluster de IA dedicado,
Regras de Ponto Final para Clusters
- Um cluster de IA dedicado pode conter até 50 pontos finais.
- Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
- Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
| Tamanho da Unidade do Cluster de Hospedagem | Regras de Ponto Final |
|---|---|
| LARGE_COHERE_V2_2 |
|
| SMALL_COHERE_4
(somente UAE East (Dubai)) |
|
-
Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
-
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite,
endpoint-per-dedicated-unit-count. Consulte Solicitando um Aumento do Limite de Serviço e Limites de Serviço do Serviço Generative AI.
Datas de Liberação e Baixa
| Modelo | Data de Liberação | Data de Aposentadoria Sob Demanda | Data de Baixa do Modo Dedicado |
|---|---|---|---|
cohere.command-a-reasoning-08-2025
|
2026-01-21 | Pelo menos um mês após o lançamento do 1o modelo de substituição. | Pelo menos 6 meses após o lançamento do 1o modelo de substituição. |
Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.
- Substituição de preâmbulo
-
Um contexto inicial ou mensagem de orientação para uma modelo de chat. Quando você não dá um preâmbulo a uma modelo de bate-papo, o preâmbulo padrão para essa modelo é usado. Você pode designar um preâmbulo no parâmetro Substituição de preâmbulo para os modelos. O preâmbulo padrão para a família Cohere é:
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.A substituição do preâmbulo padrão é opcional. Quando especificado, a substituição de preâmbulo substitui o preâmbulo Cohere padrão. Ao adicionar um preâmbulo, para obter melhores resultados, forneça o contexto do modelo, as instruções e um estilo de conversa.
Dica
Para modelos de chat sem o parâmetro de substituição de preâmbulo, você pode incluir um preâmbulo na conversa de chat e solicitar diretamente que o modelo responda de uma determinada maneira. - Modo de Segurança
- Adiciona uma instrução de segurança para o modelo usar ao gerar respostas. As opções são:
- Contextual: (Padrão) Coloca menos restrições na saída. Mantém as principais proteções com o objetivo de rejeitar sugestões prejudiciais ou ilegais, mas permite palavrões e algum conteúdo tóxico, conteúdo sexualmente explícito e violento e conteúdo que contém informações médicas, financeiras ou legais. O modo contextual é adequado para entretenimento, uso criativo ou acadêmico.
- Rigoroso: Tem como objetivo evitar tópicos sensíveis, como atos violentos ou sexuais e palavrões. Este modo visa proporcionar uma experiência mais segura, proibindo respostas ou recomendações que considere inadequadas. O modo estrito é adequado para uso corporativo, como para comunicações corporativas e atendimento ao cliente.
- Desativado: nenhum modo de segurança é aplicado.
- Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída.
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
pum número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definapcomo 1 para considerar todos os tokens. - Top k
-
Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do
top k. Um valor alto parakgera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelosCohere Commande -1 para os modelosMeta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método. - Penalidade de frequência
-
Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.
Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.
- Penalidade de presença
-
Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.
- Pré-implantado
-
Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.
Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.
Advertência
O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.
Parâmetro da API para Raciocínio
- pensando
-
Por padrão, o recurso de raciocínio do modelo
cohere.command-a-reasoning-08-2025é ativado por meio do parâmetrothinking. Consulte CohereThinkingV2Quando o parâmetro
thinkingestá ativado, o modelo funciona por meio de problemas complexos passo a passo, dividindo os problemas internamente, antes de fornecer uma resposta final. Você pode controlar esse recurso de várias maneiras:O pensamento é ativado por padrão, mas você pode desativá-lo. Quando desativado, o modelo de raciocínio funciona de forma semelhante a qualquer outro LLM sem a etapa de raciocínio interno.
- token_budget
-
Você pode especificar um orçamento de token com o parâmetro
token_budgetpara limitar quantos tokens de pensamento o modelo produz. Quando o orçamento é excedido, o modelo prossegue imediatamente com a resposta final.Ao usar orçamentos pensados, a Cohere recomenda:
- Usando pensamento ilimitado quando possível
- Se estiver usando um orçamento, deixe pelo menos 1000 tokens para a resposta
- Para o raciocínio máximo, um orçamento de 31.000 tokens é recomendado
Consulte a Referência CohereThinkingContentV2 e a Referência CohereThinkingV2 na documentação da API e o Guia de Razões na documentação Cohere.