Modalità on-demand e dedicate per i modelli di AI generativa OCI

OCI Generative AI offre due modalità di servizio dei modelli: on-demand e dedicato. Rivedere questi argomenti per selezionare la modalità più adatta al proprio caso d'uso.

Dopo aver esaminato questa pagina, per le modalità disponibili per ciascun modello, vedere Modelli AI generativi per area e per i prezzi, vedere la pagina dei prezzi.

Modalità su richiesta

La modalità su richiesta consente di utilizzare modelli di base pre-addestrati supportati senza creare un cluster AI dedicato.

Funzioni chiave:

Pay as you go per ogni chiamata di inferenza, indipendentemente dal fatto che si utilizzi il campo di gioco o l'API.
Inizia a utilizzare l'intelligenza artificiale generativa senza eseguire il provisioning della capacità dedicata.
Adatto per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati nelle aree in cui il modello non è elencato come solo cluster AI dedicato.

Modifica del limite di limitazione dinamica per la modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.

Questa modifica dipende dai fattori indicati di seguito.

Throughput massimo corrente supportato dal modello di destinazione.
Capacità del sistema non utilizzata al momento della modifica.
Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.

Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

A causa della modifica del limite di limitazione dinamica, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, come una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive dell'integrazione nel servizio.

Non più valido per la modalità su richiesta

Quando un modello viene ritirato in modalità su richiesta, non è più disponibile per l'uso nell'area di gioco del servizio AI generativa o tramite l'API di inferenza AI generativa.

Quando un modello non è più valido in modalità su richiesta, rimane disponibile nel servizio di intelligenza artificiale generativa, ma dispone di un periodo di tempo definito in cui può essere utilizzato prima del ritiro. Questo periodo di tempo è più lungo per la modalità dedicata.

Per i modelli di AI generativa OCI, consulta le date di ritiro del modello (modalità su richiesta).

Modalità dedicata

In modalità dedicata, ottieni una capacità GPU dedicata per l'hosting e il perfezionamento dei modelli nell'AI generativa OCI. I cluster AI dedicati forniscono prestazioni prevedibili e sono adatti per i carichi di lavoro di produzione.

È possibile utilizzare cluster AI dedicati per:

Ottimizza i modelli pre-addestrati OCI Generative AI supportati.
Ospita modelli pre-addestrati di OCI Generative AI.
Ospita modelli personalizzati creati ottimizzando i modelli pre-addestrati supportati.
Host modelli importati compatibili con l'AI generativa OCI.

Per accedere a un modello in modalità dedicata, creare un endpoint per il modello in un cluster AI dedicato.

La modalità dedicata è disponibile per i modelli supportati nelle aree elencate per ciascun modello.

Impegno per cluster AI dedicati

Per i modelli pre-addestrati e ottimizzati di OCI Generative AI, i cluster AI dedicati richiedono un impegno di utilizzo.

Cluster di hosting: impegno minimo di 744 ore-unità per cluster di hosting.
Cluster di ottimizzazione: impegno minimo di 1 unità di ora per ogni job di ottimizzazione. A seconda del modello, l'ottimizzazione potrebbe richiedere almeno 2 unità.

Nota

I modelli importati non richiedono l'impegno di hosting di 744 ore per unità. Se crei un cluster AI dedicato per ospitare un modello importato, puoi ospitare il modello senza impegnarti all'impegno di hosting minimo che si applica AI modelli pre-addestrati e ottimizzati di OCI Generative AI.

Smobilizzo per modalità dedicata

Quando un modello viene ritirato in modalità dedicata, non è più possibile creare un cluster AI dedicato per il modello ritirato, ma un cluster AI dedicato attivo che esegue un modello ritirato continua a essere eseguito. Un modello personalizzato, che sta eseguendo un modello ritirato, continua a essere disponibile anche per i cluster AI dedicati attivi e puoi continuare a creare nuovi cluster AI dedicati con un modello personalizzato creato su un modello ritirato. Tuttavia, Oracle offre un supporto limitato per questi scenari e la progettazione Oracle potrebbe richiedere di eseguire l'aggiornamento a un modello supportato per risolvere i problemi relativi al modello.

Per richiedere che un modello rimanga in vita più a lungo della data di ritiro in modalità dedicata, creare un ticket di supporto.

Per i modelli di AI generativa OCI, consulta le date di ritiro dei modelli (modalità dedicata).

Non più valida per la modalità dedicata

Quando un modello non è più valido nella modalità dedicata, rimane disponibile nel servizio AI generativa, ma ha un periodo di tempo definito per poter essere utilizzato prima del ritiro. Il tempo di deprecazione della modalità dedicata è più lungo del tempo di deprecazione su richiesta dello stesso modello.

Documentazione dell'infrastruttura Oracle Cloud