Scegliere un metodo di ottimizzazione nell'AI generativa

Quando crei un modello personalizzato, l'AI generativa OCI ottimizza i modelli di base pre-addestrati utilizzando un metodo che corrisponde al modello di base.

Importante

Alcuni modelli di base pre-addestrati di base di AI generativa OCI supportati per la modalità di servizio dedicata sono ora non più validi e verranno ritirati non prima di 6 mesi dopo il rilascio del 1o modello di sostituzione. È possibile ospitare un modello di base o ottimizzare un modello di base e ospitare il modello ottimizzato in un cluster AI dedicato (modalità di servizio dedicata) fino a quando il modello di base non viene ritirato. Per le date di ritiro della modalità di servizio dedicata, vedere Ritiro dei modelli.

La tabella riportata di seguito elenca il metodo utilizzato dall'intelligenza artificiale generativa per addestrare ogni tipo di modello di base.

Modelli base pre-addestrati Metodo di formazione
  • meta.llama-3.3-70b-instruct (Nuovo)
  • meta.llama-3.1-70b-instruct
  • meta.llama-3-70b-instruct (obsoleto)
  • LoRA
  • cohere.command-r-08-2024
  • cohere.command-r-16k (obsoleto)
  • T-Few
  • LoRA
  • T-Few
  • Vanilla
Nota

Per informazioni sugli iperparametri utilizzati per ciascun metodo di formazione, vedere Hyperparameters for Fine-Tuning a Model in Generative AI.

Scelta tra T-Few e Vanilla

Per i modelli cohere.command e cohere.command-light, OCI Generative AI prevede due metodi di formazione: T-Few e Vanilla. Per selezionare il metodo di formazione migliore per i casi d'uso, attenersi alle linee guida riportate di seguito.

Funzione Opzioni e suggerimenti
Metodi di formazione per cohere.command e cohere.command-light
  • T-Few
  • Vanilla
Dimensione data set
  • Utilizzare T-Few per set di dati di piccole dimensioni (almeno alcune migliaia di campioni)
  • Utilizzare Vanilla per set di dati di grandi dimensioni (da centomila campioni a milioni di campioni)

L'uso di set di dati di piccole dimensioni per il metodo Vanilla può causare l'overfitting. L'overfitting si verifica quando il modello addestrato dà ottimi risultati per i dati di addestramento, ma non può generalizzare gli output per i dati invisibili.

Complessità
  • Utilizzare T-Few per il formato riportato di seguito o per le istruzioni riportate di seguito.
  • Utilizzare Vanilla per migliorare la comprensione semantica complessa, ad esempio per migliorare la comprensione dei casi medici da parte di un modello.
Carrello
  • Utilizzare T-Few se si prevede di ospitare diversi modelli ottimizzati nello stesso cluster AI dedicato di hosting. Se tutti i modelli vengono addestrati sullo stesso modello di base, è possibile ospitarli nello stesso cluster. Questa funzione di servizio in pila consente di risparmiare sui costi e offre buone prestazioni se il traffico utente verso ogni modello ottimizzato T-Few è relativamente basso. Vedere Aggiunta di endpoint ai cluster di hosting.
  • Ogni modello ottimizzato con il metodo Vanilla richiede un proprio cluster AI dedicato all'hosting.