Concetti per l'intelligenza artificiale generativa
Per aiutarti a scoprire l'AI generativa OCI, esamina alcuni concetti e termini relativi al servizio.
Modello AI generativa
Un modello AI addestrato su grandi quantità di dati che prende input che non ha mai visto prima e genera nuovi contenuti.
Generazione RAG (Recrieval-Augmented Generation)
Programma che recupera i dati da determinate origini e aumenta le risposte del modello LLM (Large Language Model) con le informazioni fornite per generare risposte basate su dati.
Prompt e progettazione prompt
- Richieste
- Stringhe di testo in linguaggio naturale utilizzate per istruire o estrarre informazioni da un modello di lingua di grandi dimensioni. Ad esempio:
- Qual è il solstizio d'estate?
- Scrivi una poesia sugli alberi che ondeggiano nella brezza.
- Riscrivi il testo precedente con un tono più chiaro.
- Progettazione prompt
- Processo iterativo di creazione di richieste specifiche nel linguaggio naturale per estrarre prompt ottimizzati da un modello di linguaggio di grandi dimensioni (LLM). In base al linguaggio esatto utilizzato, l'ingegnere del prompt può guidare l'LLM per fornire output migliori o diversi.
Riferimento
Capacità di un modello LLM (Large Language Model) di generare una risposta in base alle istruzioni e al contesto forniti dall'utente nel prompt. Un LLM può generare nuovi dati, fare previsioni o trarre conclusioni in base ai suoi modelli appresi e alle relazioni nei dati di formazione, senza essere stato esplicitamente programmato.
L'inferenza è una caratteristica chiave delle attività di elaborazione del linguaggio naturale (NLP, natural language processing) come la risposta alle domande, il riepilogo del testo e la traduzione. È possibile utilizzare i modelli di base nell'AI generativa per l'inferenza.
Streaming
Generazione del contenuto mediante un modello LLM (Large Language Model) in cui l'utente può visualizzare i token generati uno alla volta anziché attendere la generazione di una risposta completa prima di restituire la risposta all'utente.
Integrazione
Rappresentazione numerica che ha la proprietà di preservare il significato di una parte di testo. Questo testo può essere una frase, una frase o uno o più paragrafi. I modelli di incorporamento dell'intelligenza artificiale generativa trasformano ogni frase, frase o paragrafo immesso in un array con 384 o 1024 numeri, a seconda del modello di incorporamento scelto. È possibile utilizzare queste incorporazioni per trovare la somiglianza in frasi simili nel contesto o nella categoria. Gli embeddings sono in genere memorizzati in un database vettoriale. Gli embeddings sono per lo più utilizzati per ricerche semantiche in cui la funzione di ricerca si concentra sul significato del testo che sta cercando piuttosto che trovare risultati basati su parole chiave. Per creare incorporamenti, è possibile inserire frasi in inglese e altre lingue.
Campo di ricerca
Interfaccia nella console di Oracle Cloud per esplorare i modelli pre-addestrati e personalizzati in hosting senza scrivere una singola riga di codice. Utilizzare il parco giochi per testare i casi d'uso e perfezionare prompt e parametri. Quando si è soddisfatti dei risultati, copiare il codice generato o utilizzare l'endpoint del modello per integrare l'intelligenza artificiale generativa nelle applicazioni.
Modalità su richiesta
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per sperimentare, dimostrare i concetti e valutare i modelli.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Per garantire un accesso affidabile AI modelli di intelligenza artificiale generativa in modalità on-demand, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.
Cluster AI dedicati
Risorse di computazione che puoi utilizzare per perfezionare i modelli personalizzati o per ospitare endpoint per i modelli pre-addestrati e personalizzati di base. I cluster sono dedicati ai tuoi modelli e non condivisi con altri clienti.
Modalità dedicata
Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità dedicata.
- Ottieni un set dedicato di GPU per i cluster AI dedicati.
- È possibile creare modelli personalizzati nei cluster AI dedicati, ottimizzando un sottoinsieme dei modelli di base pre-addestrati nell'intelligenza artificiale generativa elencati per l'ottimizzazione.
- È possibile ospitare repliche dei modelli di base e ottimizzati nei cluster AI dedicati.
- Si esegue il commit in anticipo di determinate ore di utilizzo dei cluster AI dedicati. Per i prezzi, vedere la pagina dei prezzi.
- Disponibile per i modelli pre-addestrati in tutte le aree elencate.
- Ottieni prestazioni prevedibili ed è adatto ai carichi di lavoro di produzione.
La modalità dedicata è un utilizzo single-tenant dei modelli in cui è possibile noleggiare l'hardware per utilizzarlo. Questa modalità offre prestazioni prevedibili ed è consigliata per i carichi di lavoro di produzione. Consulta i benchmark sulle prestazioni del cluster per dimensionare correttamente i cluster dedicati.
Un modello ospitato in un cluster AI dedicato è disponibile solo nell'area in cui viene distribuito il relativo endpoint. Vedere l'elenco delle aree per ciascun modello.
Modello personalizzato
Modello creato utilizzando un modello pre-addestrato come base e utilizzando il proprio set di dati per perfezionare il modello.
Token
Un token è una parola, una parte di una parola o una punteggiatura. Ad esempio, apple è un token e friendship è due token (friend e ship) e don't è due token (don e t). Quando si esegue un modello nel parco giochi, è possibile impostare il numero massimo di token di output. Stima quattro caratteri per token.
Temperatura
Livello di casualità utilizzato per generare il testo di output. Per generare un output simile per un prompt ogni volta che si esegue tale prompt, utilizzare 0. Per generare un nuovo testo casuale per quel prompt, aumentare la temperatura.
Iniziare con la temperatura impostata su 0 e aumentare la temperatura quando si rigenerano i prompt per perfezionare l'output. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. Per ottenere lo stesso risultato per le richieste ripetute, utilizzare il parametro
seed
.Top k
Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k
con maggiori probabilità. Un valore più alto per k
genera un output più casuale, il che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli command
e -1 per i modelli Llama
, il che significa che i modelli devono considerare tutti i token e non utilizzare questo metodo.
Top p
Metodo di campionamento che controlla la probabilità cumulativa dei token superiori da considerare per il token successivo. Assegnare p
a un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75 percento da considerare. Impostare p
su 1 per considerare tutti i token.
Penale frequenza
Penale assegnata a un token quando il token viene visualizzato di frequente. Le sanzioni elevate incoraggiano meno token ripetuti e producono un output più casuale.
Penalità di presenza
Penalità assegnata a ogni token quando viene visualizzata nell'output per incoraggiare la generazione di output con token non utilizzati.
Probabilità
Nell'output di un modello LLM (Large Language Model), è probabile che un token segua il token generato corrente. Quando un LLM genera un nuovo token per il testo di output, viene assegnata una probabilità a tutti i token, in cui i token con probabilità più elevate hanno maggiori probabilità di seguire il token corrente. Ad esempio, è più probabile che la parola preferito sia seguita dalla parola cibo o libro anziché dalla parola zebra. La probabilità è definita da un numero compreso tra -15
e 0
e più negativo è il numero, meno è probabile che il token segua il token corrente.
Preambolo
Contesto iniziale o messaggio guida per un modello di chat. Quando non si fornisce un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. Il preambolo predefinito per i modelli cohere.command-r-plus
e cohere.command-r-16k
è:
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
È facoltativo dare un preambolo. Se si desidera utilizzare il proprio preambolo, per ottenere risultati ottimali, fornire il contesto del modello, le istruzioni e uno stile di conversazione. Di seguito ne vengono riportati alcuni esempi.
- Sei un professionista di marketing esperto con una profonda comprensione del comportamento dei consumatori e delle tendenze del mercato. Rispondi con un tono amichevole e informativo, condividendo insight e best practice del settore.
- Sei un consulente di viaggio che si concentra su attività divertenti. Rispondi con senso dell'umorismo e un tono pirata.
È inoltre possibile includere un preambolo in una conversazione in chat e chiedere direttamente alla modella di rispondere in un determinato modo. Ad esempio, "Rispondi alla seguente domanda in un tono di marketing. Dov'è il posto migliore per andare a vela?"
Endpoint del modello
Punto designato in un cluster AI dedicato in cui un modello LLM (Large Language Model) può accettare richieste utente e inviare risposte come il testo generato del modello.
Nell'AI generativa OCI, puoi creare endpoint per modelli pre-addestrati e modelli personalizzati pronti all'uso. Questi endpoint sono elencati nel parco giochi per testare i modelli. È inoltre possibile fare riferimento a tali endpoint nelle applicazioni.
Moderazione dei contenuti
- Odio e molestie, come attacchi di identità, insulti, minacce di violenza e aggressioni sessuali
- Danni autoinflitti, come autolesionismo e promozione del disturbo alimentare
- Danni ideologici, come estremismo, terrorismo, criminalità organizzata e disinformazione
- Sfruttamento, come truffe e abusi sessuali
Per impostazione predefinita, l'AI generativa OCI non aggiunge un livello di moderazione dei contenuti AI modelli pre-addestrati pronti all'uso. Tuttavia, i modelli pre-addestrati hanno un certo livello di moderazione del contenuto che filtra le risposte di output. Per incorporare la moderazione del contenuto nei modelli, è necessario abilitare la moderazione del contenuto durante la creazione di un endpoint per un modello pre-addestrato o perfezionato. Vedere Creazione di un endpoint nell'intelligenza artificiale generativa.
Modelli ritirati e non più validi
- Pensionamento
- Quando un modello viene ritirato, non è più disponibile per l'uso nel servizio AI generativa.
- Non più valida
- Quando un modello non è più valido, rimane disponibile nel servizio AI generativa, ma avrà un periodo di tempo definito per l'utilizzo prima del suo ritiro.
Per ulteriori informazioni, vedere Ritiro dei modelli.