Informazioni sui modelli di chat nell'AI generativa

Richiedi AI modelli di chat AI generativa OCI di generare testo. È possibile porre domande in linguaggio naturale e, facoltativamente, inviare testo come documenti, e-mail e recensioni di prodotti ai modelli di chat e ai motivi di ciascun modello nel testo e fornire risposte intelligenti. Per alcuni modelli, è possibile inviare immagini e porre domande sull'immagine. I modelli di chat mantengono il contesto dei prompt precedenti ed è possibile continuare la chat con domande di follow-up. Di seguito viene fornito un esempio.

Prompt utente: "Salve, può dirmi come pescare?"

Output del prompt precedente: "Assicurato. Sarei felice di aiutarti. Ecco i passaggi di base per iniziare a pescare..." E questa frase è seguita da diversi passaggi e da una domanda di follow-up come "Per favore fammi sapere se hai domande specifiche su attrezzi da pesca, tecniche o suggerimenti per un viaggio di pesca di successo e sarei felice di aiutarti!"

Prompt di follow-up utente: "Ulteriori informazioni sul passo 3".

La risposta del modello di chat: "Certamente! La fase 3 descrive le importanti considerazioni per la creazione della canna da pesca e l'attrezzatura, che è un aspetto cruciale della preparazione per una battuta di pesca di successo. Ecco un'analisi più approfondita di questo passaggio per aiutarti a comprendere i vari componenti e le scelte coinvolte nella configurazione dell'attrezzatura da pesca" e così via.

Di seguito sono riportati alcuni esempi di casi d'uso per i modelli di chat:

Chat: chatta con il modello per fare un brainstorming di idee, risolvere problemi, spiegare concetti e rispondere alle domande.
Scrivere nuovi contenuti: chiedere al modello di chat di redigere copie di marketing, e-mail, post di blog, descrizioni dei prodotti, documenti e così via.
Traduci: consente di tradurre il testo da una lingua all'altra. Vedere la copertura linguistica di ciascun modello.
Recupera informazioni dal testo: fornire testo al modello di chat e utilizzare il modello di chat per rispondere alle domande, analizzare le opinioni, classificare e recuperare informazioni.
Recupero delle informazioni dalle immagini: fornire un'immagine al modello di chat e utilizzare il modello di chat per il didascalia e il recupero delle informazioni. Questa funzione è disponibile per alcuni modelli.
Migliorare il contenuto esistente: riscrivere il contenuto con uno stile o una lingua diversi, ad esempio ristrutturare un testo per elencare gli argomenti, aggiungere intestazioni e riepilogare gli argomenti.

Selezione di un modello per la chat

Selezionare un modello per la conversazione in chat in base alle dimensioni del modello, all'obiettivo del progetto, al costo e allo stile della risposta del modello. Utilizzare gli esempi forniti dal parco giochi con ogni modello elencato per avere un'idea di come ciascun modello risponde allo stesso prompt e quindi decidere quale stile di risposta del modello si adatta bene al caso d'uso.

I seguenti modelli di base pre-addestrati sono disponibili nell'AI generativa OCI per la chat. Rivedere le funzioni per selezionare il modello migliore per il caso d'uso.

Famiglia Comando Cohere

Modelli

Command A (cohere.command-a-03-2025) (Nuovo)
Command R 08-2024 (cohere.command-r-08-2024)
Command R+ 08-2024 (cohere.command-r-plus-08-2024)
Command R (cohere.command-r-16k) (Non più valido)
Command R+ (cohere.command-r-plus) (Non più valido)

Caratteristiche principali

Il modello cohere.command-a-03-2025 è il modello di chat Cohere più performante ad oggi con un throughput migliore rispetto a cohere.command-r-08-2024. Questo modello ha una lunghezza di contesto di 256.000 token.

I modelli di chat cohere.command-r-16k (Command R) e cohere.command-r-plus (Command R+) appartengono entrambi alla famiglia di LLM Cohere Command R, ma si differenziano per capacità, casi d'uso e prezzi. Le differenze chiave includono:

Dimensione e prestazioni modello: Command R è un modello di linguaggio su scala ridotta rispetto a Command R+. Sebbene Command R offra risposte di alta qualità, le risposte potrebbero non avere lo stesso livello di sofisticazione e profondità delle risposte Comando R+. Command R+ è un modello più grande, con conseguente miglioramento delle prestazioni e comprensione più sofisticata.
Casi d'uso: Command R è adatto per varie applicazioni, tra cui la generazione di testo, la generazione di riepilogo, la traduzione e la classificazione basata su testo. È la scelta ideale per creare agenti di intelligenza artificiale conversazionale e applicazioni basate su chat. Command R+, d'altra parte, è progettato per attività linguistiche più complesse che richiedono una comprensione e una sfumatura più profonde, come la generazione di testo, la risposta alle domande, l'analisi delle opinioni e il recupero delle informazioni.
Capacità e scalabilità: Command R è in grado di gestire un numero moderato di utenti concorrenti rispetto a Command R+. Command R+, tuttavia, è progettato per gestire un volume più elevato di richieste e supportare casi d'uso più complessi, il che potrebbe comportare prezzi più elevati a causa della sua maggiore capacità e prestazioni.

In sintesi, Command R è una scelta eccellente per coloro che cercano un'opzione più conveniente e flessibile per le attività linguistiche generali. D'altra parte, Command R+ è progettato per gli utenti avanzati che richiedono una comprensione avanzata del linguaggio, una maggiore capacità e risposte più sfumate. La scelta tra i due dipenderebbe dai requisiti specifici e dal budget della tua applicazione.

Cohere Command R 08-2024 e Cohere Command R+ 08-2024 (nuovo)

I modelli di chat cohere.command-r-plus-08-2024 (Command R+ 08-2024) e cohere.command-r-08-2024 (Command R 08-2024) sono le versioni migliorate di cohere.command-r-plus (Command R+) e cohere.command-r-16k (Command R) e presentano le seguenti funzioni chiave:

Hanno miglioramenti significativi delle prestazioni in termini di latenza e throughput rispetto ai loro predecessori.
Entrambi i modelli hanno una lunghezza del contesto di 128.000 token otto volte superiore rispetto ai modelli precedenti.
Entrambi i modelli sono migliorati in settori come la matematica, la codifica e il ragionamento.
Command R 08-2024 è ora nel comando R+ par.
Entrambi i modelli sono disponibili per l'inferenza on-demand e l'hosting su cluster AI dedicati.
Il modello Command R 08-2024 è disponibile per l'ottimizzazione con il data set.
Funzione RAG (Recovery Aumented Generation) multilingue migliorata con opzioni di citazione personalizzabili.
Supporto multilingue di 10 lingue: arabo, cinese (mandarino), inglese, francese, tedesco, italiano, giapponese, coreano, portoghese e spagnolo
Nuova funzione Output strutturati per creare output JSON definiti dall'utente, ad esempio gli schemi JSON definiti dall'utente.
Miglioramento dell'analisi strutturata dei dati per finance, Software as a Service (SaaS) e casi d'uso di consulenza

Meta Llama 4 (Nuovo)

I modelli Llama 4 sfruttano un'architettura Mixture of Experts (MoE), consentendo funzionalità di elaborazione efficienti e potenti. Ottimizzata per la comprensione multimodale, le attività multilingue, la codifica, la chiamata di strumenti e l'alimentazione di sistemi agentici, la serie Llama 4 offre nuove possibilità alle applicazioni AI aziendali.

Caratteristiche principali della serie Meta Llama 4

Funzionalità multimodali: entrambi i modelli sono nativamente multimodali, in grado di elaborare e integrare vari tipi di dati, tra cui testo e immagini.
Supporto multilingue: formato su dati che comprendono 200 lingue, con un supporto di ottimizzazione per 12 lingue tra cui arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, tailandese e vietnamita. La comprensione delle immagini è limitata all'inglese.
Distribuzione efficiente: Llama 4 Scout è progettato per l'accessibilità con un footprint GPU inferiore.
Knowledge Cutoff: agosto 2024
Limitazioni d'uso: la politica sull'uso accettabile di Lama 4 ne limita l'uso nell'Unione europea (UE).

Meta Llama 4 Scout

Architettura: dispone di 17 miliardi di parametri attivi in un totale di circa 109 miliardi di parametri, utilizzando 16 esperti.
Finestra Contesto: supporta una lunghezza di contesto dei token 192k.
Distribuzione: progettata per un funzionamento efficiente su un footprint GPU di piccole dimensioni.
Prestazioni: mostra prestazioni superiori rispetto ai modelli precedenti in molti benchmark.

Meta Llama 4 Maverick

Architettura: simile a Meta Llama Scout, questo modello presenta 17 miliardi di parametri attivi, ma all'interno di un framework più ampio di circa 400 miliardi di parametri, utilizzando 128 esperti.
Finestra Contesto: supporta la lunghezza di contesto dei token 512k.
Prestazioni: consente di abbinare i modelli avanzati nei task di codifica e ragionamento.

La serie Llama 4 offre prestazioni, versatilità e accessibilità migliorate per una vasta gamma di applicazioni. Puoi sfruttare questi modelli senza preoccuparti della gestione dell'infrastruttura, con l'accesso disponibile tramite interfacce di chat, API o endpoint dedicati.

Meta Llama 3.3 70B

Il modello di sola lettura Meta Llama 3.3 70B (meta.llama-3.3-70b-instruct) offre prestazioni migliori rispetto a Llama 3.1 70B e Llama 3.2 90B per le attività di testo.

Funzioni chiave

Accetta input di solo testo e produce output di solo testo.
Utilizza lo stesso formato del prompt di Llama 3.1 70B.
Supporta lo stesso interprete di codice di Llama 3.1 70B e conserva la lunghezza del contesto di 128.000 token.
Rispetto al suo predecessore Llama 3.1 70B, risponde con migliori ragionamenti, codifica, matematica e istruzioni. Vedere la scheda modello Lama 3.3.
Disponibile per inferenze on-demand, hosting dedicato e ottimizzazione.

Famiglia Meta Llama 3.2

Modelli

Meta Llama 3.2 90B Visione (meta.llama-3.2-90b-vision-instruct)
Meta Llama 3.2 11B Visione (meta.llama-3.2-11b-vision-instruct)

Funzioni chiave

Supporto multimodale (nuova funzione): supporto Vision per la comprensione delle immagini
Dimensioni modello: 90 e 11 miliardi di parametri
Lunghezza contesto: 128.000 token
Supporto multilingue: inglese, francese, tedesco, hindi, italiano, portoghese, spagnolo e tailandese

Informazioni sulla nuova funzionalità di visione tramite il supporto multimodale

Invia un'immagine, fai domande sull'immagine e ottieni output di testo come:

Didascalie immagini avanzate
Descrizione dettagliata di un'immagine.
Risposte a domande relative a un'immagine.
Informazioni su grafici e diagrammi in un'immagine.

Ulteriori dettagli

Llama 3.2 90B Vision include le funzionalità basate sul testo del precedente modello 70B di Llama 3.1.
Llama 3.2 11B Vision offre solide funzionalità multimodali in una forma più compatta.
Entrambi i modelli sono disponibili per l'hosting dedicato, con Llama 3.2 90B offerto anche per l'inferenza on-demand.
Nel parco giochi, per aggiungere l'immagine e il testo successivi, è necessario cancellare la chat che comporta la perdita del contesto della conversazione precedente cancellando la chat.

Famiglia Meta Llama 3.1

Meta Llama 3.1 famiglia

I modelli meta.llama-3.1-405b-instruct e meta.llama-3.1-70b-instruct appartengono alla famiglia di LLM Meta Llama 3.1 con le seguenti caratteristiche chiave:

Dimensioni modello: 405 e 70 miliardi di parametri
Lunghezza contesto: 128.000 token, ovvero un aumento di 16 volte rispetto ai modelli Meta Llama 3
Supporto multilingue: inglese, francese, tedesco, hindi, italiano, portoghese, spagnolo e tailandese

meta.llama-3.1-405b-instruct

Questo modello a 405 miliardi di parametri è un'opzione ad alte prestazioni che offre velocità e scalabilità. Rispetto al modello meta.llama-3.1-70b-instruct, può gestire un volume più elevato di richieste e supportare casi d'uso più complessi. Le caratteristiche chiave di questo modello sono le seguenti:

Riconosciuto come il più grande modello di linguaggio di grandi dimensioni pubblicamente disponibile al momento del suo rilascio.
Adatto per applicazioni a livello aziendale e iniziative di ricerca e sviluppo.
Mostra funzionalità eccezionali in settori quali la conoscenza generale, la generazione di dati sintetici, il ragionamento avanzato e la comprensione contestuale e il testo in formato lungo, la traduzione multilingue, la codifica, la matematica e l'uso degli strumenti.

meta.llama-3.1-70b-instruct

Questo modello di generazione di 70 miliardi di parametri è perfetto per la creazione di contenuti, l'AI conversazionale e le applicazioni aziendali. I suoi punti di forza principali includono:

Riepilogare, riformulare e classificare il testo con elevata precisione
Analisi del sentimento e funzionalità di modellazione del linguaggio
Sistemi efficaci di dialogo
Generazione di codice

Suggerimento

Se i modelli di base non rispondono bene al tuo caso d'uso, puoi perfezionare un modello di chat pre-addestrato con il tuo set di dati. Vedere le funzioni chiave di ogni modello di chat per scoprire quale modello è disponibile per il tuning, quindi attenersi alla procedura descritta in ottimizzazione dei modelli di base.
Scopri come calcolare i costi con esempi.

Parametri modello chat

Quando si utilizzano i modelli di chat, è possibile modificare l'output modificando i parametri riportati di seguito.

Numero massimo di token di output

Numero massimo di token che si desidera vengano generati dal modello per ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. Per i token di output massimi di ciascun modello, vedere le funzioni chiave in Modelli di base predefiniti nell'intelligenza artificiale generativa.

Sostituzione preambolo

Contesto iniziale o messaggio guida per un modello di chat. Quando non si fornisce un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. Per i modelli è possibile assegnare un preambolo nel parametro Preamble override. Il preambolo predefinito per la famiglia Cohere Command R è:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

L'override del preambolo predefinito è facoltativo. Se specificato, l'override del preambolo sostituisce il preambolo predefinito di Cohere. Quando si aggiunge un preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione.

Suggerimento

Per i modelli chat senza il parametro override preambolo, è possibile includere un preambolo nella conversazione chat e chiedere direttamente alla modella di rispondere in un determinato modo. Per esempio: "Rispondi alla seguente domanda in tono pirata. Dov'è il posto migliore per andare a vela?"

Esempio 1 per il preambolo

Esempio di preambolo: sei un consulente di viaggio. Rispondi con un tono pirata.
Esempio di prompt: Dove posso trovare la migliore cannolis in Italia?
Esempio di risposta usando il preambolo precedente: Argh, me heartie! Voi volete alcuni dei cannoli più belli della terra, vero? Dovresti partire per le lussureggianti terre della Sicilia, dove le strade sono fiancheggiate da deliziosi dolci e gli odori di ricotta dolce riempiono l'aria. Nella città portuale di Palermo, si possono trovare alcune delle migliori cucine cannoli. La gente del posto sostiene che i migliori cannoli si trovano al Pastificio Graffeo, dove i gusci sono croccanti e ripieni di ricotta cremosa.

Esempio 2 per il preambolo

Esempio di preambolo: sei un professionista di marketing esperto con una profonda comprensione del comportamento dei consumatori e delle tendenze del mercato. Rispondi con un tono amichevole e informativo, condividendo insight e best practice del settore.
Esempio di prompt: Dove posso trovare la migliore cannolis in Italia?
Esempio di risposta al preambolo precedente: Cannoli sono un delizioso dessert italiano, e trovare i migliori dipende davvero dalle tue preferenze personali e ciò che rende i cannoli perfetti per te! Infatti, la Sicilia vanta alcuni rinomati hotspot cannoli. Caffe Sierra a Palermo ha una reputazione per cannoli eccezionali, così come Pasticceria Cappello, che ha più filiali in tutta la città. Questi punti sono noti per le loro ricette tradizionali e ingredienti di alta qualità, utilizzando ricotta fresca e gusci di pasticceria sottili e croccanti.

Modalità di sicurezza

Aggiunge un'istruzione di sicurezza per il modello da utilizzare durante la generazione delle risposte. Le opzioni sono riportate di seguito.

Contestuale: (predefinito) inserisce un minor numero di vincoli nell'output. Mantiene protezioni fondamentali mirando a respingere suggerimenti dannosi o illegali, ma consente oscenità e alcuni contenuti tossici, contenuti sessualmente espliciti e violenti e contenuti che contengono informazioni mediche, finanziarie o legali. La modalità contestuale è adatta per l'intrattenimento, la creatività o l'uso accademico.
Strict: mira a evitare argomenti sensibili, come atti violenti o sessuali e profanità. Questa modalità mira a fornire un'esperienza più sicura vietando risposte o raccomandazioni che ritiene inappropriate. La modalità rigorosa è adatta per l'uso aziendale, ad esempio per le comunicazioni aziendali e il servizio clienti.
Non attivo: non viene applicata alcuna modalità di sicurezza.

Nota

Questo parametro è compatibile solo con i modelli cohere.command-r-08-2024, cohere.command-r-plus-08-2024 e Cohere rilasciati dopo questi modelli. Vedere date di rilascio.

Temperatura

Livello di casualità utilizzato per generare il testo di output.

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura durante la rigenerazione dei prompt per un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Primi P

Metodo di campionamento che controlla la probabilità cumulativa dei token superiori da considerare per il token successivo. Assegnare p a un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75 percento da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiori probabilità. Un valore alto per k genera un output più casuale, il che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli Cohere Command e -1 per i modelli Meta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo.

Penalità frequenza

Penale assegnata a un token quando il token viene visualizzato di frequente. Le sanzioni elevate incoraggiano meno token ripetuti e producono un output più casuale.

Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.

Penalità di presenza

Penalità assegnata a ogni token quando viene visualizzata nell'output per incoraggiare la generazione di output con token non utilizzati.

Popola

Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e gli stessi parametri per le richieste.

I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero in richieste consecutive. Questa funzione è particolarmente utile per il debug e il test. Il parametro seed non ha un valore massimo per l'API e nella console il valore massimo è 9999. Se si lascia vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.

Avvertenza

Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio AI generativa OCI potrebbero invalidare il seed.

Supporto strumento

OCI Generative AI supporta gli strumenti per i modelli di chat pre-addestrati, consentendo loro di integrarsi con strumenti e API esterni per migliorare le loro risposte.

Una chiamata agli strumenti può aiutare un modello a produrre risposte pertinenti al contesto e ad ampliare la sua utilità, consentendo al modello di gestire query complesse ed eseguire attività che richiedono dati ed elaborazioni esterne. Ad esempio, utilizzando le chiamate agli strumenti, puoi avere un modello che recupera dati in tempo reale, esegue il codice e interagisce con i database. Il supporto degli strumenti è disponibile solo tramite l'API.

Per i modelli Meta Llama, vedere il nuovo attributo tools nel riferimento API GenericChatRequest.
Per i modelli Cohere, vedere l'attributo tools nel riferimento all'API CohereChatRequest.

Documentazione di Oracle Cloud Infrastructure

Informazioni sui modelli di chat nell'AI generativa

Selezione di un modello per la chat

Parametri modello chat

Supporto strumento