Cohere Command A Reasoning
Rilasciato nell'agosto 2025, Cohere Command A Reasoning (cohere.command-a-reasoning) è il modello di linguaggio di grandi dimensioni con 111 miliardi di parametri di Cohere progettato per il ragionamento aziendale avanzato, i flussi di lavoro lenti e l'uso degli strumenti. Questo modello è progettato per attività che richiedono un'elaborazione logica avanzata, un'analisi approfondita e un ragionamento in più fasi, come domande e risposte complete, una revisione complessa dei documenti e la creazione di argomenti strutturati. Il modello supporta una finestra di contesto di 256.000 token, rendendola ideale per l'analisi dei dati su larga scala e flussi di lavoro agenti.
Aree per questo modello
Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.
Accesso a questo modello
Gli endpoint API per tutte le region commerciali, sovrane e governative supportate sono elencati nei collegamenti API di gestione e API di inferenza. È possibile accedere a ciascun modello solo tramite le aree supportate.
Caratteristiche principali
- Model Purpose: a differenza dei modelli di uso generale, il comando A è progettato appositamente per gli scenari aziendali, dando la priorità a precisione, ragionamento e sicurezza. I casi d'uso principali includono:
- Autonomous Agents: gestione di flussi di lavoro complessi, agendo come agente di ricerca e interagendo con gli ambienti.
- RAG avanzata: analisi approfondita dei documenti, generazione di report finanziari ed estrazione dei dati con citazioni precise.
- Chatbot in più turni: mantenere coerenza e coerenza logica in conversazioni lunghe e complesse.
- Finestra contestuale: supporta una finestra da 256.000 token con un massimo di 32.000 token di output, consentendo l'analisi di documenti estesi e mantiene il contesto dalla lunga cronologia delle conversazioni di 256.000 token. Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione. Per la modalità dedicata, la lunghezza della risposta non è limitata e la lunghezza del contesto è di 256.000 token.
- Casi d'uso identici: eccelle negli agenti ReAct (Reasoning + Acting), dividendo domande complesse e multi-step in obiettivi secondari, utilizzando strumenti esterni, intraprendendo azioni autonome e interagendo con l'ambiente per risolvere i problemi.
- Uso e RAG degli strumenti: progettati per interagire con API esterne e sfruttare vari strumenti come motori di ricerca e database, con supporto integrato per le citazioni di base.
- Supporto multilingue: può ragionare in modo nativo in 23 lingue, tra cui inglese, spagnolo, cinese, arabo e tedesco.
- Architettura ed efficienza: utilizza un'architettura di trasformatori a quattro livelli con attenzione ibrida (finestra scorrevole + globale) per gestire un contesto lungo e può essere eseguita su una o due GPU.
- Configurazione: gli utenti possono impostare budget di ragionamento per bilanciare latenza, precisione e throughput.
- Knowledge Cutoff: 1° giugno 2024
Vedere la documentazione di Cohere per il manuale Command A Reasoning Model e la Guida per i motivi.
Endpoint API
Il modello Cohere Command A Reasoning è compatibile solo con la versione 2 dell'API di chat AI generativa OCI per i modelli Cohere. Per informazioni dettagliate sull'implementazione, vedere l'API CohereChatRequestV2 e altri endpoint correlati che terminano in V2. Ad esempio, CohereChatResponseV2.
Cluster AI dedicato per il modello
Nella lista di aree precedente, i modelli nelle aree che non sono contrassegnate con (solo cluster AI dedicato) dispongono di opzioni cluster AI sia on-demand che dedicate. Per la modalità on-demand, non hai bisogno di cluster e puoi raggiungere il modello nell'area di gioco della console o tramite l'API.
Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.
| Modello base | Cluster di ottimizzazione | Cluster di hosting | Informazioni pagina determinazione prezzi | Richiedi aumento limite cluster |
|---|---|---|---|---|
|
Non disponibile per l'ottimizzazione |
|
|
|
|
Non disponibile per l'ottimizzazione |
|
|
|
-
Se non si dispone di limiti cluster sufficienti nella tenancy per l'hosting del modello Cohere Command A Reasoning in un cluster AI dedicato,
- Per l'area UAE East (Dubai), richiedere un aumento del limite di
dedicated-unit-small-cohere-countdi 4. - Per tutte le altre aree, richiedere un aumento del limite di
dedicated-unit-large-cohere-countdi 2.
- Per l'area UAE East (Dubai), richiedere un aumento del limite di
Regole endpoint per i cluster
- Un cluster AI dedicato può contenere fino a 50 endpoint.
- Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
- Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.
| Dimensione unità cluster di hosting | Regole endpoint |
|---|---|
| LARGE_COHERE_V2_2 |
|
| SMALL_COHERE_4
(solo UAE East (Dubai)) |
|
-
Per aumentare il volume delle chiamate supportato da un cluster di hosting, aumentare il conteggio delle istanze modificando il cluster AI dedicato. Vedere Aggiornamento di un cluster AI dedicato.
-
Per più di 50 endpoint per cluster, richiedere un aumento del limite,
endpoint-per-dedicated-unit-count. Vedere Creazione di una richiesta di aumento del limite e Limiti del servizio per l'intelligenza artificiale generativa.
Date di rilascio e ritiro OCI
Per le date di rilascio e ritiro e le opzioni del modello di sostituzione, vedere le seguenti pagine in base alla modalità (on-demand o dedicata):
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.
- Sostituzione preambolo
-
Contesto iniziale o messaggio guida per un modello di chat. Quando non si assegna un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. È possibile assegnare un preambolo nel parametro Preamble override per i modelli. Il preambolo predefinito per la famiglia Cohere è:
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.L'override del preambolo predefinito è facoltativo. Se specificato, la sostituzione prevedibile sostituisce il preambolo Cohere predefinito. Quando si aggiunge un preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione.
Suggerimento
Per i modelli di chat senza il parametro override prevedibile, è possibile includere un preambolo nella conversazione di chat e chiedere direttamente al modello di rispondere in un determinato modo. - Modalità di sicurezza
- Aggiunge un'istruzione di sicurezza da utilizzare per il modello durante la generazione delle risposte. Di seguito sono riportate le opzioni disponibili.
- Contestuale: (Predefinito) inserisce meno vincoli nell'output. Mantiene le protezioni fondamentali mirando a rifiutare suggerimenti dannosi o illegali, ma consente la profanità e alcuni contenuti tossici, contenuti sessualmente espliciti e violenti e contenuti che contengono informazioni mediche, finanziarie o legali. La modalità contestuale è adatta per l'intrattenimento, la creatività o l'uso accademico.
- Restrittivo: mira a evitare argomenti sensibili, come atti violenti o sessuali e volgarità. Questa modalità mira a fornire un'esperienza più sicura vietando risposte o raccomandazioni che ritiene inappropriate. La modalità rigorosa è adatta per l'uso aziendale, ad esempio per le comunicazioni aziendali e il servizio clienti.
- Non attivo: non viene applicata alcuna modalità di sicurezza.
- Temperatura
-
Livello di casualità utilizzato per generare il testo di output.
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
pun numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarepsu 1 per considerare tutti i token. - Top k
-
Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token
top kcon maggiore probabilità. Un valore elevato perkgenera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelliCohere Commande -1 per i modelliMeta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo. - Penalità di frequenza
-
Penalità assegnata a un token quando tale token appare spesso. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.
Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.
- Penalità di presenza
-
Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.
- Valore iniziale
-
Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.
I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.
Avvertenza
Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.
Parametro API per ragionamento
- pensare
-
Per impostazione predefinita, la funzione di ragionamento per il modello
cohere.command-a-reasoningè abilitata tramite il parametrothinking. Vedere CohereThinkingV2Quando il parametro
thinkingè abilitato, il modello lavora passo dopo passo con problemi complessi, analizzando i problemi internamente, prima di fornire una risposta finale. È possibile controllare questa funzione in diversi modi:Il pensiero è abilitato per impostazione predefinita, ma è possibile disabilitarlo. Se disabilitato, il modello di ragionamento funziona in modo simile a qualsiasi altro LLM senza il passo di ragionamento interno.
- token_budget
-
È possibile specificare un budget di token con il parametro
token_budgetper limitare il numero di token di pensiero prodotti dal modello. Quando il budget viene superato, il modello procede immediatamente con la risposta finale.Quando si utilizzano budget pensanti, Cohere consiglia di:
- Usare il pensiero illimitato quando possibile
- Se si utilizza un budget, lasciare almeno 1000 token per la risposta
- Per il massimo ragionamento, si consiglia un budget di 31.000 token
Vedere CohereThinkingContentV2 Reference e CohereThinkingV2 Reference nella documentazione delle API e Reasoning Guide nella documentazione di Cohere.