Cohere Command A

A partire da marzo 2025, il modello cohere.command-a-03-2025 è il modello di chat Cohere più performante rispetto ai modelli Cohere precedenti con throughput migliore rispetto a cohere.command-r-08-2024. Questo modello offre prestazioni eccellenti per le attività aziendali identiche e ha migliorato notevolmente l'efficienza di computazione e ha una lunghezza del contesto di 256.000 token.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Accedi a questo modello

È possibile accedere a questo modello tramite:

Nota

Gli inchiostri API elencano gli endpoint per tutte le region commerciali, sovrane e governative supportate.

Caratteristiche principali

Più performante rispetto ai modelli di chat Cohere precedenti e un throughput migliore rispetto a cohere.command-r-08-2024.
Eccelle nell'uso degli strumenti, negli agenti, nella retrieval augmented generation (RAG) e nei casi d'uso multilingue.
Può mantenere il contesto dalla sua lunga storia di conversazione di 256.000 token.
Prompt massimo + lunghezza risposta: 256.000 token per ogni esecuzione.
Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione.
Per la modalità dedicata, la lunghezza della risposta non è limitata e la lunghezza del contesto è di 256.000 token.

Modalità su richiesta

Vedere la tabella riportata di seguito per il nome del prodotto su richiesta di questo modello nella pagina relativa alla determinazione prezzi.


Nome modello	Nome modello OCI	Nome prodotto pagina determinazione prezzi
Cohere Command A	`cohere.command-a-03-2025`	Large Cohere

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.

È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).

Importante

Modifica del limite di limitazione dinamica per la modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.

Questa modifica dipende dai fattori indicati di seguito.

Throughput massimo corrente supportato dal modello di destinazione.
Capacità del sistema non utilizzata al momento della modifica.
Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.

Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

A causa della modifica del limite di limitazione dinamica, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, come una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive dell'integrazione nel servizio.

Cluster AI dedicato per il modello

Per i modelli in modalità on-demand, non sono necessari cluster. Accedervi tramite il parco giochi e l'API della console. Per i modelli disponibili in modalità dedicata, utilizzare gli endpoint creati su cluster AI dedicati. Ulteriori informazioni sulla modalità dedicata.

Questo modello non è disponibile per l'ottimizzazione. Per le forme delle unità hardware, le aree disponibili, i limiti del servizio, i conteggi delle unità AI e la stima dei costi per un cluster AI dedicato che ospita questo modello, vedere Forme delle unità hardware per area.

Forme generiche precedenti

Importante

Le forme Cohere generiche precedenti vengono ritirate dall'intelligenza artificiale generativa. Durante il periodo di smobilizzo, queste forme rimangono disponibili solo nell'API. Se si utilizza l'API, potrebbero essere visualizzate sia le forme generiche precedenti che le nuove forme di unità hardware fino a quando le forme generiche precedenti non vengono rimosse dal servizio.

Utilizzare questa sezione solo se si dispone di un cluster AI dedicato che utilizza una forma Cohere generica precedente o se si utilizza l'API per creare un cluster con una forma Cohere generica precedente durante il periodo di smobilizzo. Per i nuovi cluster AI dedicati, utilizzare le forme delle unità hardware elencate in Forme delle unità hardware per area.

Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.


Modello base	Cluster di ottimizzazione	Cluster di hosting	Informazioni pagina determinazione prezzi	Richiedi aumento limite cluster
Nome modello: Cohere Command A Nome modello OCI: `cohere.command-a-03-2025`	Non disponibile per l'ottimizzazione	Dimensione unità: LARGE_COHERE_V3 Unità obbligatorie: 1	Nome prodotto pagina determinazione prezzi: Large Cohere - Dedicated	Nome limite: `dedicated-unit-large-cohere-count` Per l'hosting, richiedere l'aumento del limite entro: 1
Nome modello: Cohere Command A (solo UAE East (Dubai)) Nome modello OCI: `cohere.command-a-03-2025`	Non disponibile per l'ottimizzazione	Dimensione unità: SMALL_COHERE_4 Unità obbligatorie: 1	Nome prodotto pagina determinazione prezzi: Small Cohere - Dedicated Per l'Hosting, Moltiplica il Prezzo Unitario: x4	Nome limite: `dedicated-unit-small-cohere-count` Per l'hosting, richiedere l'aumento del limite entro: 4

Regole endpoint per i cluster

Un cluster AI dedicato può contenere fino a 50 endpoint.
Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.

Suggerimento

Per aumentare il volume delle chiamate supportato da un cluster di hosting, aumentare il conteggio delle istanze modificando il cluster AI dedicato. Vedere Aggiornamento di un cluster AI dedicato.
Per più di 50 endpoint per cluster, richiedere un aumento del limite, endpoint-per-dedicated-unit-count. Vedere Creazione di una richiesta di aumento del limite e Limiti del servizio per l'intelligenza artificiale generativa.

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster Cohere Command A per conoscere i diversi casi d'uso.

Date di rilascio e ritiro OCI

Per le date di rilascio e ritiro e le opzioni del modello di sostituzione, vedere le seguenti pagine in base alla modalità (on-demand o dedicata):

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.

Sostituzione preambolo

Contesto iniziale o messaggio guida per un modello di chat. Quando non si assegna un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. È possibile assegnare un preambolo nel parametro Preamble override per i modelli. Il preambolo predefinito per la famiglia Cohere è:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

L'override del preambolo predefinito è facoltativo. Se specificato, la sostituzione prevedibile sostituisce il preambolo Cohere predefinito. Quando si aggiunge un preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione.

Suggerimento

Per i modelli di chat senza il parametro override prevedibile, è possibile includere un preambolo nella conversazione di chat e chiedere direttamente al modello di rispondere in un determinato modo.

Modalità di sicurezza

Aggiunge un'istruzione di sicurezza da utilizzare per il modello durante la generazione delle risposte. Di seguito sono riportate le opzioni disponibili.

Contestuale: (Predefinito) inserisce meno vincoli nell'output. Mantiene le protezioni fondamentali mirando a rifiutare suggerimenti dannosi o illegali, ma consente la profanità e alcuni contenuti tossici, contenuti sessualmente espliciti e violenti e contenuti che contengono informazioni mediche, finanziarie o legali. La modalità contestuale è adatta per l'intrattenimento, la creatività o l'uso accademico.
Restrittivo: mira a evitare argomenti sensibili, come atti violenti o sessuali e volgarità. Questa modalità mira a fornire un'esperienza più sicura vietando risposte o raccomandazioni che ritiene inappropriate. La modalità rigorosa è adatta per l'uso aziendale, ad esempio per le comunicazioni aziendali e il servizio clienti.
Non attivo: non viene applicata alcuna modalità di sicurezza.

Temperatura

Livello di casualità utilizzato per generare il testo di output.

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Un valore elevato per k genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli Cohere Command e -1 per i modelli Meta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo.

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.

Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.

Valore iniziale

Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.

I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.

Avvertenza

Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.

Documentazione dell'infrastruttura Oracle Cloud

Cohere Command A

Aree per questo modello

Accedi a questo modello

Caratteristiche principali

Modalità su richiesta

Cluster AI dedicato per il modello

Forme generiche precedenti

Regole endpoint per i cluster

Benchmark sulle prestazioni del cluster

Date di rilascio e ritiro OCI

Parametri modello