Concetti per l'intelligenza artificiale generativa

Per aiutarti a scoprire l'AI generativa OCI, esamina alcuni concetti e termini relativi al servizio.

Modello AI generativa

Un modello AI addestrato su grandi quantità di dati che prende input che non ha mai visto prima e genera nuovi contenuti.

Generazione RAG (Recrieval-Augmented Generation)

Programma che recupera i dati da determinate origini e aumenta le risposte del modello LLM (Large Language Model) con le informazioni fornite per generare risposte basate su dati.

Prompt e progettazione prompt

Richieste

Stringhe di testo in linguaggio naturale utilizzate per istruire o estrarre informazioni da un modello di lingua di grandi dimensioni. Ad esempio:

Qual è il solstizio d'estate?
Scrivi una poesia sugli alberi che ondeggiano nella brezza.
Riscrivi il testo precedente con un tono più chiaro.

Progettazione prompt

Processo iterativo di creazione di richieste specifiche nel linguaggio naturale per estrarre prompt ottimizzati da un modello di linguaggio di grandi dimensioni (LLM). In base al linguaggio esatto utilizzato, l'ingegnere del prompt può guidare l'LLM per fornire output migliori o diversi.

Riferimento

Capacità di un modello LLM (Large Language Model) di generare una risposta in base alle istruzioni e al contesto forniti dall'utente nel prompt. Un LLM può generare nuovi dati, fare previsioni o trarre conclusioni in base ai suoi modelli appresi e alle relazioni nei dati di formazione, senza essere stato esplicitamente programmato.

L'inferenza è una caratteristica chiave delle attività di elaborazione del linguaggio naturale (NLP, natural language processing) come la risposta alle domande, il riepilogo del testo e la traduzione. È possibile utilizzare i modelli di base nell'AI generativa per l'inferenza.

Streaming

Generazione del contenuto mediante un modello LLM (Large Language Model) in cui l'utente può visualizzare i token generati uno alla volta anziché attendere la generazione di una risposta completa prima di restituire la risposta all'utente.

Integrazione

Rappresentazione numerica che ha la proprietà di preservare il significato di una parte di testo. Questo testo può essere una frase, una frase o uno o più paragrafi. I modelli di incorporamento dell'intelligenza artificiale generativa trasformano ogni frase, frase o paragrafo immesso in un array con 384 o 1024 numeri, a seconda del modello di incorporamento scelto. È possibile utilizzare queste incorporazioni per trovare la somiglianza in frasi simili nel contesto o nella categoria. Gli embeddings sono in genere memorizzati in un database vettoriale. Gli embeddings sono per lo più utilizzati per ricerche semantiche in cui la funzione di ricerca si concentra sul significato del testo che sta cercando piuttosto che trovare risultati basati su parole chiave. Per creare incorporamenti, è possibile inserire frasi in inglese e altre lingue.

Campo di ricerca

Interfaccia nella console di Oracle Cloud per esplorare i modelli pre-addestrati e personalizzati in hosting senza scrivere una singola riga di codice. Utilizzare il parco giochi per testare i casi d'uso e perfezionare prompt e parametri. Quando si è soddisfatti dei risultati, copiare il codice generato o utilizzare l'endpoint del modello per integrare l'intelligenza artificiale generativa nelle applicazioni.

Modalità su richiesta

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.

È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).

Cluster AI dedicati

Risorse di computazione che puoi utilizzare per perfezionare i modelli personalizzati o per ospitare endpoint per i modelli pre-addestrati e personalizzati di base. I cluster sono dedicati ai tuoi modelli e non condivisi con altri clienti.

Modalità dedicata

Ottieni un set dedicato di GPU per i cluster AI dedicati.
È possibile creare modelli personalizzati nei cluster AI dedicati, ottimizzando un sottoinsieme dei modelli di base pre-addestrati nell'intelligenza artificiale generativa elencati per l'ottimizzazione.
È possibile ospitare repliche dei modelli di base e ottimizzati nei cluster AI dedicati.
Si esegue il commit in anticipo di determinate ore di utilizzo dei cluster AI dedicati. Per i prezzi, vedere la pagina dei prezzi.
Disponibile per i modelli pre-addestrati in tutte le aree elencate.
Ottieni prestazioni prevedibili ed è adatto ai carichi di lavoro di produzione.

Suggerimento

La modalità dedicata è un utilizzo single-tenant dei modelli in cui è possibile noleggiare l'hardware per utilizzarlo. Questa modalità offre prestazioni prevedibili ed è consigliata per i carichi di lavoro di produzione. Consulta i benchmark sulle prestazioni del cluster per dimensionare correttamente i cluster dedicati.

Nota

Un modello ospitato in un cluster AI dedicato è disponibile solo nell'area in cui viene distribuito il relativo endpoint. Vedere l'elenco delle aree per ciascun modello.

Modello personalizzato

Modello creato utilizzando un modello pre-addestrato come base e utilizzando il proprio set di dati per perfezionare il modello.

Token

Un token è una parola, una parte di una parola o una punteggiatura. Ad esempio, apple è un token e friendship è due token (friend e ship) e don't è due token (don e t). Quando si esegue un modello nel parco giochi, è possibile impostare il numero massimo di token di output. Stima quattro caratteri per token.

Temperatura

Livello di casualità utilizzato per generare il testo di output. Per generare un output simile per un prompt ogni volta che si esegue tale prompt, utilizzare 0. Per generare un nuovo testo casuale per quel prompt, aumentare la temperatura.

Suggerimento

Iniziare con la temperatura impostata su 0 e aumentare la temperatura quando si rigenerano i prompt per perfezionare l'output. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. Per ottenere lo stesso risultato per le richieste ripetute, utilizzare il parametro seed.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiori probabilità. Un valore più alto per k genera un output più casuale, il che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli command e -1 per i modelli Llama, il che significa che i modelli devono considerare tutti i token e non utilizzare questo metodo.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei token superiori da considerare per il token successivo. Assegnare p a un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75 percento da considerare. Impostare p su 1 per considerare tutti i token.

Penale frequenza

Penale assegnata a un token quando il token viene visualizzato di frequente. Le sanzioni elevate incoraggiano meno token ripetuti e producono un output più casuale.

Penalità di presenza

Penalità assegnata a ogni token quando viene visualizzata nell'output per incoraggiare la generazione di output con token non utilizzati.

Probabilità

Nell'output di un modello LLM (Large Language Model), è probabile che un token segua il token generato corrente. Quando un LLM genera un nuovo token per il testo di output, viene assegnata una probabilità a tutti i token, in cui i token con probabilità più elevate hanno maggiori probabilità di seguire il token corrente. Ad esempio, è più probabile che la parola preferito sia seguita dalla parola cibo o libro anziché dalla parola zebra. La probabilità è definita da un numero compreso tra -15 e 0 e più negativo è il numero, meno è probabile che il token segua il token corrente.

Preambolo

Contesto iniziale o messaggio guida per un modello di chat. Quando non si fornisce un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. Il preambolo predefinito per i modelli cohere.command-r-plus e cohere.command-r-16k è:

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

È facoltativo dare un preambolo. Se si desidera utilizzare il proprio preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione. Di seguito ne vengono riportati alcuni esempi.

Sei un professionista di marketing esperto con una profonda comprensione del comportamento dei consumatori e delle tendenze del mercato. Rispondi con un tono amichevole e informativo, condividendo insight e best practice del settore.
Sei un consulente di viaggio che si concentra su attività divertenti. Rispondi con senso dell'umorismo e un tono pirata.

Nota

È inoltre possibile includere un preambolo in una conversazione in chat e chiedere direttamente alla modella di rispondere in un determinato modo. Ad esempio, "Rispondi alla seguente domanda in un tono di marketing. Dov'è il posto migliore per andare a vela?"

Endpoint del modello

Punto designato in un cluster AI dedicato in cui un modello LLM (Large Language Model) può accettare richieste utente e inviare risposte come il testo generato del modello.

Nell'AI generativa OCI, puoi creare endpoint per modelli pre-addestrati e modelli personalizzati pronti all'uso. Questi endpoint sono elencati nel parco giochi per testare i modelli. È inoltre possibile fare riferimento a tali endpoint nelle applicazioni.

Moderazione dei contenuti

Funzione che rimuove frasi tossiche, violente, abusive, dispregiative, odiose, minacciose, oltraggianti e molestanti da risposte generate in modelli di linguaggio di grandi dimensioni (LLM). Nell'AI generativa OCI, la moderazione dei contenuti è suddivisa nelle quattro categorie seguenti.

Odio e molestie, come attacchi di identità, insulti, minacce di violenza e aggressioni sessuali
Danni autoinflitti, come autolesionismo e promozione del disturbo alimentare
Danni ideologici, come estremismo, terrorismo, criminalità organizzata e disinformazione
Sfruttamento, come truffe e abusi sessuali

Per impostazione predefinita, l'AI generativa OCI non aggiunge un livello di moderazione dei contenuti oltre AI modelli pre-addestrati pronti all'uso. Tuttavia, i modelli pre-addestrati hanno un certo livello di moderazione del contenuto che filtra le risposte di output. Per incorporare la moderazione dei contenuti nei modelli, è necessario abilitare la moderazione dei contenuti quando si crea un endpoint per un modello pre-addestrato o ottimizzato. Vedere Creazione di un endpoint.

Modelli ritirati e non più validi

Pensionamento: Quando un modello viene ritirato, non è più disponibile per l'uso nel servizio AI generativa.
Non più valida: Quando un modello non è più valido, rimane disponibile nel servizio AI generativa, ma avrà un periodo di tempo definito per l'utilizzo prima del suo ritiro.

Per ulteriori informazioni, vedere Ritiro dei modelli.

Documentazione di Oracle Cloud Infrastructure