Informazioni sul ritiro del modello

OCI Generative AI ritira i suoi modelli linguistici di grandi dimensioni (LLM, large language model) in base al tipo e alla modalità di servizio di ciascun modello. Gli LLM servono le richieste degli utenti in modalità on-demand o dedicata. Esaminare le sezioni seguenti per informazioni su ciascuna modalità di servizio e su come ricevere una notifica prima che un modello venga ritirato.

Modalità su richiesta

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.
  • È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.

  • Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
  • Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
  • Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Importante

Adeguamento limite limitazione dinamica per modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.

Questo adeguamento dipende dai seguenti fattori:

  • Throughput massimo corrente supportato dal modello di destinazione.
  • Capacità del sistema non utilizzata al momento della regolazione.
  • Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.

Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

A causa dell'adeguamento dinamico del limite di limitazione, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.

Smobilizzo per modalità su richiesta

Quando un modello viene ritirato in modalità su richiesta, non è più disponibile per l'uso nell'area di gioco del servizio AI generativa o tramite l'API di inferenza AI generativa.

Non più valido per la modalità su richiesta

Quando un modello non è più valido in modalità su richiesta, rimane disponibile nel servizio di intelligenza artificiale generativa, ma dispone di un periodo di tempo definito in cui può essere utilizzato prima del ritiro. Questo periodo di tempo è più lungo per la modalità dedicata.

Per i modelli di AI generativa OCI, consulta le date di ritiro del modello (modalità su richiesta).

Modalità dedicata

  • Ottieni un set dedicato di GPU per i cluster AI dedicati.
  • È possibile creare modelli personalizzati nei cluster AI dedicati, ottimizzando un sottoinsieme dei modelli di base pre-addestrati nell'intelligenza artificiale generativa elencati per l'ottimizzazione.
  • È possibile ospitare repliche dei modelli di base e ottimizzati nei cluster AI dedicati.
  • Si esegue il commit in anticipo di determinate ore di utilizzo dei cluster AI dedicati. Per i prezzi, vedere la pagina dei prezzi.
  • Disponibile per i modelli pre-addestrati in tutte le aree elencate.
  • Ottieni prestazioni prevedibili ed è adatto ai carichi di lavoro di produzione.
Smobilizzo per modalità dedicata

Quando un modello viene ritirato in modalità dedicata, non è più possibile creare un cluster AI dedicato per il modello ritirato, ma un cluster AI dedicato attivo che esegue un modello ritirato continua a essere eseguito. Un modello personalizzato, che sta eseguendo un modello ritirato, continua a essere disponibile anche per i cluster AI dedicati attivi e puoi continuare a creare nuovi cluster AI dedicati con un modello personalizzato creato su un modello ritirato. Tuttavia, Oracle offre un supporto limitato per questi scenari e la progettazione Oracle potrebbe richiedere di eseguire l'aggiornamento a un modello supportato per risolvere i problemi relativi al modello.

Per richiedere che un modello rimanga in vita più a lungo della data di ritiro in modalità dedicata, creare un ticket di supporto.

Non più valida per la modalità dedicata

Quando un modello non è più valido nella modalità dedicata, rimane disponibile nel servizio AI generativa, ma ha un periodo di tempo definito per poter essere utilizzato prima del ritiro. Il tempo di deprecazione della modalità dedicata è più lungo del tempo di deprecazione su richiesta dello stesso modello.

Per i modelli di AI generativa OCI, consulta le date di ritiro dei modelli (modalità dedicata).

Recupero delle notifiche per le date di ritiro

È possibile eseguire la sottoscrizione al servizio Notifiche OCI per ricevere una notifica relativa alle date di ritiro del modello. Quando ti iscrivi, ricevi messaggi di deprecazione e ritiro del modello con la seguente cadenza:

  • Modalità su richiesta: 30 e 14 giorni prima della data di smobilizzo del modello. (2 notifiche)
  • Modalità dedicata: 180, 90, 60, 30 e 14 giorni prima della data di ritiro del modello. (5 notifiche)

Apprendere come sottoscrivere gli annunci OCI per ricevere notifiche. Quando crei l'annuncio, per il servizio, seleziona Oracle Cloud Infrastructure Generative AI Service.