Limitazioni dei modelli nell'AI generativa
Esamina i seguenti requisiti dei modelli per i modelli personalizzati e di base dell'AI generativa OCI per ottenere il massimo dai tuoi modelli.
Per le funzioni chiave dei modelli di base pre-addestrati, vedere Modelli di base pre-addestrati nell'intelligenza artificiale generativa.
Corrispondenza dei modelli di base ai cluster
Per ospitare un modello OCI Generative AI pre-addestrato o personalizzato su un cluster AI dedicato hosting, vai a Modelli di base pre-addestrati nell'AI generativa. Quindi, selezionare il modello pre-addestrato o il modello di base del modello personalizzato. Nella sezione Cluster AI dedicato per il modello della pagina, vedere le dimensioni dell'unità e le unità necessarie per l'hosting del modello di base.
Aggiunta di endpoint ai cluster di hosting
Per ospitare un modello per l'inferenza in un cluster AI dedicato di hosting, è necessario creare un endpoint per tale modello. È quindi possibile aggiungere un modello personalizzato o un modello di base pre-addestrato a tale endpoint.
Informazioni su alias endpoint e servizio stack
Un cluster AI dedicato di hosting può avere fino a 50 endpoint. Utilizzare questi endpoint per i seguenti casi d'uso:
- Creazione degli alias degli endpoint
-
Creare alias con molti endpoint. Questi 50 endpoint devono puntare allo stesso modello di base o alla stessa versione di un modello personalizzato. La creazione di molti endpoint che puntano allo stesso modello semplifica la gestione degli endpoint, poiché è possibile utilizzare gli endpoint per utenti diversi o per scopi diversi.
- Servizio in pila
-
Ospita diverse versioni di un modello personalizzato in un cluster. Ciò vale per i modelli
cohere.command
ecohere.command-light
ottimizzati con il metodo di formazioneT-Few
. L'hosting di varie versioni di un modello ottimizzato può aiutarti a valutare i modelli personalizzati per diversi casi d'uso.
Per aumentare il volume delle chiamate supportato da un cluster di hosting, è possibile aumentarne il conteggio delle istanze.
Espandere le sezioni seguenti per esaminare i requisiti per l'hosting dei modelli nello stesso cluster.
Alcuni modelli di base pre-addestrati di base di AI generativa OCI supportati per la modalità di servizio dedicata sono ora non più validi e verranno ritirati non prima di 6 mesi dopo il rilascio del 1o modello di sostituzione. È possibile ospitare un modello di base o ottimizzare un modello di base e ospitare il modello ottimizzato in un cluster AI dedicato (modalità di servizio dedicata) fino a quando il modello di base non viene ritirato. Per le date di ritiro della modalità di servizio dedicata, vedere Ritiro dei modelli.
Per ospitare i modelli di chat di base pre-addestrati o i modelli di chat ottimizzati in un cluster AI dedicato all'hosting, utilizzare le seguenti regole di dimensione e endpoint dell'unità cluster che corrispondono a ciascun modello di base.
Dimensione unità cluster di hosting | Regole di corrispondenza |
---|---|
Large Generic 2 per il modello di base, meta.llama-4-maverick-17b-128e-instruct-fp8 |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
Large Generic V2 per il modello di base, meta.llama-4-scout-17b-16e-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
LARGE_COHERE_V3 per il modello di base, cohere.command-a-03-2025 |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
Small Generic V2 per il modello di base, meta.llama-3.2-11b-vision-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
Large Generic per il modello di base, meta.llama-3.3-70b-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Per ospitare più modelli personalizzati nello stesso cluster:
|
Large Generic per il modello di base, meta.llama-3.1-70b-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Per ospitare più modelli personalizzati nello stesso cluster:
|
Large Generic per il modello di base, meta.llama-3-70b-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Per ospitare più modelli personalizzati nello stesso cluster:
|
Large Generic V2 per il modello di base, meta.llama-3.2-90b-vision-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Fine tuning non disponibile per il modello |
Large Generic 2 per il modello di base, meta.llama-3.1-405b-instruct |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Ottimizzazione non disponibile per il modello |
Small Cohere V2 per il modello di base, cohere.command-r-16k (obsoleto) |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Per ospitare più modelli personalizzati nello stesso cluster:
Non è possibile ospitare versioni diverse di un modello personalizzato addestrato sul modello di base |
Small Cohere V2 per il modello di base, cohere.command-r-08-2024 |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati di hosting Per ospitare più modelli personalizzati nello stesso cluster:
Non è possibile ospitare versioni diverse di un modello personalizzato addestrato sul modello di base |
Large Cohere V2_2 per il modello di base, cohere.command-r-plus (obsoleto) |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
Large Cohere V2_2 per il modello di base, cohere.command-r-plus-08-2024 |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting modelli personalizzati Ottimizzazione non disponibile per il modello |
Per l'hosting del modello di riassegnazione in un cluster AI dedicato all'hosting, utilizzare le seguenti regole di dimensione e endpoint delle unità cluster.
Dimensione unità cluster di hosting | Regole di corrispondenza |
---|---|
RERANK_COHERE |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Modelli personalizzati hosting Ottimizzazione non disponibile per il modello Cohere Rerank. |
Per ospitare i modelli di incorporamento in un cluster AI dedicato all'hosting, utilizzare le regole di dimensione ed endpoint dell'unità cluster riportate di seguito.
Dimensione unità cluster di hosting | Regole di corrispondenza |
---|---|
Embed Cohere |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato tramite più endpoint nello stesso cluster:
Hosting di modelli personalizzati Fine-tuning non disponibile per i modelli Cohere Embed. |
- Non disponibile on-demand: tutti i modelli pre-addestrati di base dell'AI generativa OCI supportati per la modalità di servizio su richiesta che utilizzano le API di generazione testo e riepilogo (incluso il parco giochi) sono ora ritirati. Si consiglia di utilizzare i modelli di chat.
- Possono essere ospitati nei cluster: se si ospita un modello di generazione di riepilogo o un modello di generazione come
cohere.command
in un cluster AI dedicato (modalità di servizio dedicata), è possibile continuare a utilizzare tale modello fino a quando non viene ritirato. Questi modelli, se ospitati su un cluster AI dedicato, sono disponibili solo nel Midwest degli Stati Uniti (Chicago). Vedere Ritiro dei modelli per le date e le definizioni di smobilizzo.
Per ospitare i modelli di generazione del testo in un cluster AI dedicato all'hosting, utilizzare le seguenti regole di dimensione e endpoint dell'unità cluster corrispondenti al modello di base.
Dimensione unità cluster di hosting | Regole di corrispondenza |
---|---|
Small Cohere per il modello di base, cohere.command-light |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato attraverso diversi endpoint sullo stesso cluster, effettuare le operazioni riportate di seguito.
Hosting di modelli personalizzati Per ospitare modelli personalizzati diversi nello stesso cluster:
|
Large Cohere per il modello di base, cohere.command |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato attraverso diversi endpoint sullo stesso cluster, effettuare le operazioni riportate di seguito.
Hosting di modelli personalizzati Per ospitare modelli personalizzati diversi nello stesso cluster:
|
Llama2 70 per il modello di base, meta.llama-2-70b-chat |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato attraverso diversi endpoint sullo stesso cluster, effettuare le operazioni riportate di seguito.
|
Il modello
cohere.command
supportato per la modalità di servizio su richiesta è ora ritirato e questo modello non è più valido per la modalità di servizio dedicata. Se si sta ospitando cohere.command
in un cluster AI dedicato (modalità di servizio dedicata) per il riepilogo, è possibile continuare a utilizzare questa replica modello hosted con l'API di riepilogo e nell'area di gioco fino a quando il modello cohere.command
non ritira per la modalità di servizio dedicata. Questi modelli, se ospitati su un cluster AI dedicato, sono disponibili solo nel Midwest degli Stati Uniti (Chicago). Vedere Ritiro dei modelli per le date e le definizioni di smobilizzo. Si consiglia di utilizzare invece i modelli di chat che offrono le stesse funzionalità di riepilogo, incluso il controllo della lunghezza e dello stile del riepilogo.Per ospitare il modello di generazione del sintetico cohere.command
pre-addestrato in un cluster AI dedicato di hosting, utilizzare le regole di dimensione e endpoint dell'unità cluster riportate di seguito.
Dimensione unità cluster di hosting | Regole di corrispondenza |
---|---|
Large Cohere per il modello di base, cohere.command |
Modelli base hosting Per ospitare lo stesso modello di base pre-addestrato attraverso diversi endpoint sullo stesso cluster, effettuare le operazioni riportate di seguito.
Hosting di modelli personalizzati Per ospitare modelli personalizzati diversi nello stesso cluster:
|
Dati formazione
I set di dati per la formazione di modelli personalizzati hanno i seguenti requisiti:
- È consentito un massimo di un set di dati di fine tuning per modello personalizzato. Questo set di dati viene suddiviso in modo casuale in un rapporto di 80:20 per l'addestramento e la convalida.
- Ogni file deve avere almeno 32 esempi di coppie prompt/completamento.
- Il formato del file è
JSONL
. - Ogni riga del file
JSONL
ha il seguente formato:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Il file deve essere memorizzato in un bucket di storage degli oggetti OCI.
Scopri di più sui requisiti di dati per la formazione nell'AI generativa.
Dati di input per incorporazione testo
I dati di input per la creazione di incorporazioni di testo hanno i seguenti requisiti:
- È possibile aggiungere frasi, frasi o paragrafi per incorporare una frase alla volta o caricando un file.
- Sono consentiti solo file con l'estensione
.txt
. - Se si utilizza un file di input, ogni frase, frase o paragrafo di input nel file deve essere separato da un carattere di nuova riga.
- Per ogni esecuzione sono consentiti al massimo 96 input.
- Nella console, ogni input deve essere inferiore a 512 token per i modelli di solo testo.
- Se un input è troppo lungo, selezionare se interrompere l'inizio o la fine del testo per rientrare nel limite del token impostando il parametro Truncate su Start o End. Se un input supera il limite di 512 token e il parametro Truncate è impostato su Nessuno, viene visualizzato un messaggio di errore.
- Per i modelli di testo e immagine, è possibile disporre di file e input che sommano tutti fino a 128.000 token.
- Per i modelli incorporati di testo e immagine, ad esempio Cohere Embed English Image V3, è possibile aggiungere testo o aggiungere solo un'immagine. Per l'immagine, è possibile utilizzare l'API. Input immagine non disponibile nella console. Per l'API, inserire un'immagine con codifica base64 in ogni esecuzione. Ad esempio, un'immagine 512 x 512 viene convertita in circa 1.610 token.
Informazioni sulla creazione di incorporazioni di testo nell'AI generativa OCI.