Modalità on-demand e dedicate per i modelli di AI generativa OCI
OCI Generative AI offre il suo modello in due tipi di modalità di servizio: on-demand e dedicata. Esaminare gli argomenti riportati di seguito per determinare la modalità più adatta ai casi d'uso.
Modalità su richiesta
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Modifica del limite di limitazione dinamica per la modalità su richiesta
OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.
Questa modifica dipende dai fattori indicati di seguito.
- Throughput massimo corrente supportato dal modello di destinazione.
- Capacità del sistema non utilizzata al momento della modifica.
- Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.
Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.
A causa della modifica del limite di limitazione dinamica, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, come una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive dell'integrazione nel servizio.
- Smobilizzo per modalità su richiesta
-
Quando un modello viene ritirato in modalità su richiesta, non è più disponibile per l'uso nell'area di gioco del servizio AI generativa o tramite l'API di inferenza AI generativa.
- Non più valido per la modalità su richiesta
-
Quando un modello non è più valido in modalità su richiesta, rimane disponibile nel servizio di intelligenza artificiale generativa, ma dispone di un periodo di tempo definito in cui può essere utilizzato prima del ritiro. Questo periodo di tempo è più lungo per la modalità dedicata.
Per i modelli di AI generativa OCI, consulta le date di ritiro del modello (modalità su richiesta).
Modalità dedicata
- Ottieni un set dedicato di GPU per i cluster AI dedicati.
- È possibile creare modelli personalizzati nei cluster AI dedicati, ottimizzando un sottoinsieme dei modelli di base pre-addestrati offerti nell'intelligenza artificiale generativa elencati per l'ottimizzazione.
- È possibile ospitare repliche dei modelli di base e ottimizzati nei cluster AI dedicati.
- Si esegue il commit in anticipo di determinate ore di utilizzo dei cluster AI dedicati. Per i prezzi, vedere la pagina dei prezzi.
- Disponibile per i modelli pre-addestrati in tutte le aree elencate.
- Ottieni prestazioni prevedibili ed è adatto ai carichi di lavoro di produzione.
Per raggiungere un modello tramite la modalità dedicata, è necessario creare un endpoint per tale modello in un cluster AI dedicato.
- Smobilizzo per modalità dedicata
-
Quando un modello viene ritirato in modalità dedicata, non è più possibile creare un cluster AI dedicato per il modello ritirato, ma un cluster AI dedicato attivo che esegue un modello ritirato continua a essere eseguito. Un modello personalizzato, che sta eseguendo un modello ritirato, continua a essere disponibile anche per i cluster AI dedicati attivi e puoi continuare a creare nuovi cluster AI dedicati con un modello personalizzato creato su un modello ritirato. Tuttavia, Oracle offre un supporto limitato per questi scenari e la progettazione Oracle potrebbe richiedere di eseguire l'aggiornamento a un modello supportato per risolvere i problemi relativi al modello.
Per richiedere che un modello rimanga in vita più a lungo della data di ritiro in modalità dedicata, creare un ticket di supporto.
- Non più valida per la modalità dedicata
-
Quando un modello non è più valido nella modalità dedicata, rimane disponibile nel servizio AI generativa, ma ha un periodo di tempo definito per poter essere utilizzato prima del ritiro. Il tempo di deprecazione della modalità dedicata è più lungo del tempo di deprecazione su richiesta dello stesso modello.
Per i modelli di AI generativa OCI, consulta le date di ritiro dei modelli (modalità dedicata).