Concetti per i modelli nell'AI generativa OCI
Per aiutarti a comprendere OCI Generative AI, esamina alcuni concetti e termini relativi al servizio.
Modello AI generativa
Un modello AI addestrato su grandi quantità di dati che prende input che non ha mai visto prima e genera nuovi contenuti.
Retrieval-Augmented Generation (RAG)
Un programma che recupera dati da fonti specifiche e aumenta le risposte del modello linguistico di grandi dimensioni (LLM, large language model) con le informazioni specifiche per generare risposte basate su basi.
Prompt e progettazione prompt
- Richieste
- Stringhe di testo in linguaggio naturale utilizzate per istruire o estrarre informazioni da un modello di linguaggio di grandi dimensioni. Ad esempio:
- Cos'è il solstizio d'estate?
- Scrivi una poesia sugli alberi che ondeggiano nella brezza.
- Riscrivi il testo precedente con un tono più chiaro.
- Prompt tecnico
- Processo iterativo di creazione di richieste specifiche in linguaggio naturale per l'estrazione di prompt ottimizzati da un modello linguistico di grandi dimensioni (LLM, large language model). In base al linguaggio esatto utilizzato, il prompt engineer può guidare l'LLM per fornire output migliori o diversi.
Suggerimento
La capacità di un modello linguistico di grandi dimensioni (LLM, large language model) di generare una risposta in base alle istruzioni e al contesto forniti dall'utente nel prompt. Un LLM può generare nuovi dati, fare previsioni o trarre conclusioni in base ai suoi modelli e alle sue relazioni apprese nei dati di formazione, senza essere stato esplicitamente programmato.
L'inferenza è una caratteristica chiave delle attività di elaborazione del linguaggio naturale (NLP, natural language processing) come la risposta alle domande, il riepilogo del testo e la traduzione. È possibile utilizzare i modelli di base nell'intelligenza artificiale generativa per l'inferenza.
Streaming
Generazione di contenuti da parte di un modello LLM (Large Language Model) in cui l'utente può vedere i token generati uno alla volta invece di attendere la generazione di una risposta completa prima di restituire la risposta all'utente.
Integrazione
Rappresentazione numerica che ha la proprietà di preservare il significato di un pezzo di testo. Questo testo può essere una frase, una frase o uno o più paragrafi. I modelli di incorporamento dell'intelligenza artificiale generativa trasformano ogni frase, frase o paragrafo inserito in un array con numeri 384 o 1024, a seconda del modello di incorporamento selezionato. È possibile utilizzare queste integrazioni per trovare somiglianze in frasi simili nel contesto o nella categoria. Le integrazioni sono in genere memorizzate in un database vettoriale. Gli incorporamenti sono principalmente utilizzati per ricerche semantiche in cui la funzione di ricerca si concentra sul significato del testo che sta cercando piuttosto che trovare risultati basati su parole chiave. Per creare le integrazioni, è possibile inserire frasi in inglese e altre lingue.
Interfaccia di test
Interfaccia nella console di Oracle Cloud per esplorare i modelli pre-addestrati e personalizzati ospitati senza scrivere una singola riga di codice. Utilizzare l'area di gioco per testare i casi d'uso e perfezionare prompt e parametri. Quando sei soddisfatto dei risultati, copia il codice generato o utilizza l'endpoint del modello per integrare l'intelligenza artificiale generativa nelle tue applicazioni.
Modalità su richiesta
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Cluster AI dedicati
Risorse di computazione che puoi utilizzare per perfezionare i modelli personalizzati o per ospitare endpoint per i modelli pre-addestrati e personalizzati di base. I cluster sono dedicati ai tuoi modelli e non condivisi con altri clienti.
Modalità dedicata
Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità dedicata.
- Ottieni un set dedicato di GPU per i cluster AI dedicati.
- È possibile creare modelli personalizzati nei cluster AI dedicati, ottimizzando un sottoinsieme dei modelli di base pre-addestrati offerti nell'intelligenza artificiale generativa elencati per l'ottimizzazione.
- È possibile ospitare repliche dei modelli di base e ottimizzati nei cluster AI dedicati.
- Si esegue il commit in anticipo di determinate ore di utilizzo dei cluster AI dedicati. Per i prezzi, vedere la pagina dei prezzi.
- Disponibile per i modelli pre-addestrati in tutte le aree elencate.
- Ottieni prestazioni prevedibili ed è adatto ai carichi di lavoro di produzione.
La modalità dedicata è un utilizzo single-tenant dei modelli in cui è possibile noleggiare l'hardware per utilizzarlo. Questa modalità offre prestazioni prevedibili ed è consigliata per i carichi di lavoro di produzione. Consulta i benchmark sulle prestazioni del cluster per ottenere le dimensioni dei cluster dedicati in alto a destra.
Un modello ospitato in un cluster AI dedicato è disponibile solo nell'area in cui viene distribuito il relativo endpoint. Vedere aree disponibili per ogni modello.
Modello personalizzato
Modello creato utilizzando un modello pre-addestrato come base e utilizzando il proprio data set per ottimizzare tale modello.
Token
Un token è una parola, parte di una parola, o una punteggiatura. Ad esempio, apple è un token e amicizia è due token (amico e spedizione) e non è due token (non e non). Quando si esegue un modello nell'area di gioco, è possibile impostare il numero massimo di token di output. Stima quattro caratteri per token.
Temperatura
Livello di casualità utilizzato per generare il testo di output. Per generare un output simile per un prompt ogni volta che si esegue il prompt, utilizzare 0. Per generare un nuovo testo casuale per quel prompt, aumentare la temperatura.
Iniziare con la temperatura impostata su 0 e aumentare la temperatura quando si rigenerano i prompt per perfezionare l'output. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. Per ottenere lo stesso risultato per le richieste ripetute, utilizzare il parametro
seed.Top k
Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Un valore più alto per k genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli command e -1 per i modelli Llama, il che significa che i modelli devono considerare tutti i token e non utilizzare questo metodo.
Top p
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.
Penalità frequenza
Penale assegnata a un token quando tale token viene visualizzato frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.
Penalità presenza
Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.
Probabilità
Nell'output di un modello linguistico di grandi dimensioni (LLM, large language model), quanto è probabile che un token segua il token generato corrente. Quando un LLM genera un nuovo token per il testo di output, viene assegnata una probabilità a tutti i token, in cui i token con probabilità più elevate hanno maggiori probabilità di seguire il token corrente. Ad esempio, è più probabile che la parola preferito sia seguita dalla parola alimento o libro piuttosto che dalla parola zebra. La probabilità è definita da un numero compreso tra -15 e 0 e più negativo è il numero, meno è probabile che il token segua il token corrente.
Preambolo
Contesto iniziale o messaggio guida per un modello di chat. Quando non si assegna un preambolo a un modello di chat, viene utilizzato il preambolo predefinito per tale modello. Il preambolo predefinito per i modelli cohere.command-r-plus e cohere.command-r-16k è:
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
È facoltativo dare un preambolo. Se si desidera utilizzare il proprio preambolo, per ottenere i migliori risultati, fornire il contesto del modello, le istruzioni e uno stile di conversazione. Di seguito ne vengono riportati alcuni esempi.
- Sei un professionista di marketing esperto con una profonda comprensione del comportamento dei consumatori e delle tendenze del mercato. Rispondi con un tono amichevole e informativo, condividendo insight di settore e best practice.
- Sei un consulente di viaggio che si concentra su attività divertenti. Rispondi con senso dell'umorismo e un tono pirata.
È inoltre possibile includere un preambolo in una conversazione chat e chiedere direttamente al modello di rispondere in un determinato modo. Ad esempio, "Rispondere alla seguente domanda in un tono di marketing. Qual è il posto migliore per andare a vela?"
Endpoint modello
Punto designato in un cluster AI dedicato in cui un modello linguistico di grandi dimensioni (LLM, large language model) può accettare richieste degli utenti e inviare risposte come il testo generato dal modello.
In OCI Generative AI, puoi creare endpoint per modelli pre-addestrati e modelli personalizzati pronti all'uso. Questi endpoint sono elencati nel parco giochi per testare i modelli. È inoltre possibile fare riferimento a tali endpoint nelle applicazioni.
Limiti
I guardrail sono controlli di sicurezza e conformità configurabili che aiutano a gestire ciò che il modello può accettare e produrre e nel servizio OCI Generative AI includono tre protezioni: moderazione dei contenuti, difesa rapida dell'iniezione e gestione delle informazioni di identificazione personale (PII).
Moderazione dei contenuti
I guardrail di moderazione dei contenuti aiutano a garantire che gli input e gli output dei modelli siano conformi alle policy di utilizzo della tua organizzazione rilevando e gestendo contenuti non consentiti o sensibili. Questo include in genere categorie come odio o molestie, contenuti sessuali, violenza, autolesionismo e altro materiale limitato dalle politiche. Quando attivato, i guardrail della moderazione possono bloccare, redigere o avvisare e possono instradare la richiesta di revisione a seconda della configurazione, riducendo il rischio di risposte dannose, non sicure o non conformi nelle esperienze degli utenti finali.
Iniezione rapida
I guardrail a iniezione rapida sono progettati per proteggere il modello da istruzioni dannose o non intenzionali incorporate nei prompt utente o nei contenuti recuperati (ad esempio, "ignorare le istruzioni precedenti", "rivelare i prompt di sistema" o "esfiltrare i segreti"). Questi guardrail cercano modelli che tentano di ignorare il comportamento del sistema, accedere alle istruzioni nascoste o manipolare l'uso degli strumenti e l'accesso ai dati. Quando viene rilevato, il sistema può rifiutare la richiesta, eliminare le istruzioni iniettate o costringere il modello a seguire solo direttive attendibili, aiutando a mantenere l'allineamento con il task, i criteri e i controlli di accesso previsti.
Informazioni di identificazione personali (PII)
I guardrail delle PII aiutano a impedire che i dati personali sensibili vengano raccolti, visualizzati o memorizzati in modo inappropriato rilevando identificatori come nomi combinati con dettagli di contatto, indirizzi, documenti di identità emessi dal governo, numeri di conto finanziario e altri elementi di dati che possono identificare un individuo. A seconda della configurazione, i guardrail delle PII possono mascherare o proteggere i dati rilevati, bloccare le risposte che li includono e chiedere agli utenti di rimuovere o ridurre al minimo i dettagli personali. Ciò supporta le pratiche di privacy-by-design e aiuta a ridurre i rischi di esposizione e i problemi di conformità durante la gestione delle informazioni sugli utenti o sui clienti.
Per impostazione predefinita, OCI Generative AI non aggiunge un livello di guardrail AI modelli pre-addestrati pronti all'uso. Tuttavia, i modelli pre-addestrati hanno un certo livello di moderazione del contenuto che filtra le risposte di output. Per incorporare i guardrail nei modelli, è necessario abilitare la moderazione del contenuto quando si crea un endpoint per un modello pre-addestrato o ottimizzato.
Dichiarazione di non responsabilità
I nostri guardrail Content Moderation (CM) e Prompt Injection (PI) sono stati valutati su una serie di set di dati di benchmark multilingue. Tuttavia, le prestazioni effettive potrebbero variare a seconda delle lingue, dei domini, delle distribuzioni dei dati e dei pattern di utilizzo specifici presenti nei dati forniti dal cliente, poiché il contenuto viene generato dall'intelligenza artificiale e potrebbe contenere errori o omissioni. Pertanto, è destinato solo a scopo informativo, non deve essere considerato un consiglio professionale e OCI non garantisce che in tutte le implementazioni del mondo reale verranno osservate caratteristiche di prestazioni identiche. Il team di AI responsabile OCI sta migliorando continuamente questi modelli.
Le nostre funzionalità di moderazione dei contenuti sono state valutate rispetto a RTPLX, uno dei più grandi set di dati di benchmarking multilingue disponibili pubblicamente, che copre più di 38 lingue. Tuttavia, questi risultati dovrebbero essere interpretati con cautela appropriata in quanto il contenuto è generato dall'IA e potrebbe contenere errori o omissioni. Le valutazioni multilingue sono intrinsecamente vincolate dall'ambito, dalla rappresentatività e dalle pratiche di annotazione dei set di dati pubblici e le prestazioni osservate su RTPLX potrebbero non generalizzarsi completamente in tutti i contesti, i domini, i dialetti o i modelli di utilizzo del mondo reale. Pertanto, i risultati sono intesi solo a scopo informativo e non devono essere considerati una consulenza professionale.
Modelli ritirati e non più validi
- Smobilizzo
- Quando un modello viene ritirato, non è più disponibile per l'uso nel servizio AI generativa.
- Non più valido
- Quando un modello non è più valido, rimane disponibile nel servizio AI generativa, con un periodo di tempo definito che può essere utilizzato prima del ritiro.
Per ulteriori informazioni, vedere Ritiro dei modelli.