R comando cohere (obsoleto)
Il modello cohere.command-r-16k
(Command R) è una scelta eccellente per coloro che cercano un'opzione più conveniente e flessibile per le attività linguistiche generali. D'altra parte, Command R+ è progettato per gli utenti esperti che richiedono una comprensione avanzata del linguaggio, una maggiore capacità e risposte più sfumate. La scelta tra i due dipenderebbe dai requisiti specifici e dal budget della tua applicazione.
Disponibile in queste aree
- Brasile (Est) - San Paolo
- Germania (Centro) - Francoforte
- Japan Central (Osaka) (solo cluster AI dedicato)
- Regno Unito (Sud) - Londra
- Stati Uniti (Midwest) - Chicago
Caratteristiche principali
- Per l'inferenza dedicata, creare un cluster AI dedicato e un endpoint e ospitare il modello nel cluster.
- Prompt massimo + lunghezza risposta: 16.000 token per ogni esecuzione.
- Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione.
- Quando si ottimizza questo modello, la lunghezza della risposta del modello è limitata a 4.000 token per ogni esecuzione.
- Ottimizzato per l'interazione conversazionale e le attività di contesto lunghe. Ideale per la generazione di testo, il riepilogo, la traduzione e la classificazione basata su testo.
- È possibile ottimizzare questo modello con il data set.
Command R rispetto a R+
- Dimensione e prestazioni del modello: Command R è un modello di linguaggio su scala ridotta rispetto a Command R+. Sebbene Command R offra risposte di alta qualità, le risposte potrebbero non avere lo stesso livello di sofisticazione e profondità delle risposte Command R+. Command R+ è un modello più grande, con conseguente miglioramento delle prestazioni e una comprensione più sofisticata.
- Casi d'uso: Command R è adatto per varie applicazioni, tra cui la generazione di testo, il riepilogo, la traduzione e la classificazione basata su testo. È la scelta ideale per creare agenti AI conversazionali e applicazioni basate su chat. Command R+, d'altra parte, è progettato per attività linguistiche più complesse che richiedono una comprensione e una sfumatura più profonde, come la generazione di testo, la risposta alle domande, l'analisi delle opinioni e il recupero delle informazioni.
- Capacità e scalabilità: Command R è in grado di gestire un numero moderato di utenti concorrenti rispetto a Command R+. Command R+, tuttavia, è progettato per gestire un volume maggiore di richieste e supportare casi d'uso più complessi, il che potrebbe comportare prezzi più elevati a causa della sua maggiore capacità e prestazioni.
In sintesi, Command R è una scelta eccellente per coloro che cercano un'opzione più conveniente e flessibile per le attività linguistiche generali. D'altra parte, Command R+ è progettato per gli utenti esperti che richiedono una comprensione avanzata del linguaggio, una maggiore capacità e risposte più sfumate. La scelta tra i due dipenderebbe dai requisiti specifici e dal budget della tua applicazione.
Cluster AI dedicato per il modello
Nella lista di aree precedente, i modelli nelle aree che non sono contrassegnate con (solo cluster AI dedicato) dispongono di opzioni cluster AI sia on-demand che dedicate. Per l'opzione on-demand, non hai bisogno di cluster e puoi raggiungere il modello nell'area di gioco della console o tramite l'API.
Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.
Modello base | Cluster di ottimizzazione | Cluster di hosting | Informazioni pagina determinazione prezzi | Richiedi aumento limite cluster |
---|---|---|---|---|
|
|
|
|
|
-
Se non si dispone di limiti di cluster sufficienti nella tenancy per l'hosting del modello Cohere Command R (non più valido) in un cluster AI dedicato, richiedere il limite
dedicated-unit-small-cohere-count
da aumentare di 1. -
Per perfezionare un modello Cohere Command R (deprecato), è necessario richiedere
dedicated-unit-small-cohere-count
per aumentarne di 8. - Esaminare i benchmark delle prestazioni del cluster Cohere Command R per conoscere i diversi casi d'uso.
Date rilascio e smobilizzo
Modello | Data di rilascio | Data smobilizzo su richiesta | Data smobilizzo modalità dedicata |
---|---|---|---|
cohere.command-r-08-2024
|
2.024-6-4 | 2.025-1-16 | 2.025-8-7 |
Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.
- Sostituzione preambolo
-
Contesto iniziale o messaggio guida per un modello di chat. Quando non si assegna un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. È possibile assegnare un preambolo nel parametro Preamble override per i modelli. Il preambolo predefinito per la famiglia Cohere è:
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.
L'override del preambolo predefinito è facoltativo. Se specificato, la sostituzione prevedibile sostituisce il preambolo Cohere predefinito. Quando si aggiunge un preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione.
Suggerimento
Per i modelli di chat senza il parametro override prevedibile, è possibile includere un preambolo nella conversazione di chat e chiedere direttamente al modello di rispondere in un determinato modo. - Modalità di sicurezza
- Aggiunge un'istruzione di sicurezza da utilizzare per il modello durante la generazione delle risposte. Di seguito sono riportate le opzioni disponibili.
- Contestuale: (Predefinito) inserisce meno vincoli nell'output. Mantiene le protezioni fondamentali mirando a rifiutare suggerimenti dannosi o illegali, ma consente la profanità e alcuni contenuti tossici, contenuti sessualmente espliciti e violenti e contenuti che contengono informazioni mediche, finanziarie o legali. La modalità contestuale è adatta per l'intrattenimento, la creatività o l'uso accademico.
- Restrittivo: mira a evitare argomenti sensibili, come atti violenti o sessuali e volgarità. Questa modalità mira a fornire un'esperienza più sicura vietando risposte o raccomandazioni che ritiene inappropriate. La modalità rigorosa è adatta per l'uso aziendale, ad esempio per le comunicazioni aziendali e il servizio clienti.
- Non attivo: non viene applicata alcuna modalità di sicurezza.
- Temperatura
-
Livello di casualità utilizzato per generare il testo di output.
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
p
un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarep
su 1 per considerare tutti i token. - Top k
-
Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token
top k
con maggiore probabilità. Un valore elevato perk
genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelliCohere Command
e -1 per i modelliMeta Llama
, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo. - Penalità di frequenza
-
Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.
Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.
- Penalità di presenza
-
Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.
- Popola
-
Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.
I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.
Avvertenza
Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.