Modelli compatibili per l'importazione
Puoi importare modelli di linguaggio di grandi dimensioni open source e di terze parti da bucket di storage degli oggetti Hugging Face e OCI in OCI Generative AI. Dopo aver importato un modello, è possibile ospitarlo in un cluster AI dedicato, creare un endpoint e utilizzarlo nel servizio AI generativa.
I modelli importati non richiedono l'impegno di hosting minimo di 744 ore per unità che si applica quando si ospitano modelli pre-addestrati disponibili in OCI Generative AI su cluster AI dedicati.
L'utilizzo di questi modelli può essere soggetto a termini separati dai fornitori di terze parti applicabili e l'utente è responsabile della conformità a tali termini. Oracle declina qualsiasi garanzia, indennizzo e responsabilità derivante da o correlata a LLM open source o di terzi da Voi importati.
Architettura modello importata AI generativa OCI
Il servizio OCI Generative AI utilizza Open Model Engine (OME) per distribuire e gestire i modelli importati. OME funge da livello di orchestrazione tra la GPU e il runtime di inferenza.
Quando si distribuisce un modello importato, OME analizza il modello e lo associa al runtime più efficiente: vLLM (ottimizzato per throughput elevato) e SGLang (ottimizzato per prestazioni elevate). I motori runtime vLLM e SGLang eseguono i modelli sulle GPU.
Alcuni modelli sono fortemente ottimizzati per SGLang (come LLM su larga scala e quelli che richiedono RadixAttention per la memoria con contesto lungo), mentre altri hanno kernel di comunità migliori in vLLM (come i popolari LLM open-source e i modelli multimodali).
Sebbene sia possibile importare qualsiasi modello di chat, incorporamento (e ottimizzato) convalidato tramite Open Model Engine (con runtime vLLM o SGLang), solo i modelli elencati in modo esplicito nella sezione Modelli compatibili sono stati valutati da Oracle rispetto ai runtime dei modelli open source e testati sulle configurazioni GPU supportate da Oracle. In deroga a quanto sopra, Oracle non è responsabile di eventuali problemi relativi a prestazioni, disponibilità, funzionamento o sicurezza dei Modelli Compatibili. I modelli non elencati potrebbero presentare problemi di compatibilità e si consiglia di testare qualsiasi modello non elencato prima dell'uso in produzione.
Per informazioni sull'hardware disponibile e sulla procedura per distribuire i modelli importati, vedere Gestione dei modelli importati.
Modelli compatibili
- Alibaba Qwen
Presenta casi d'uso avanzati multilingue e multimodali.
- DeepSeek
Ottimizzato per la codifica, la matematica e il ragionamento complesso.
- Google Gemma
Progettato per l'elaborazione di un linguaggio ampio e casi d'uso generici.
- Meta Llama
Modelli con GQA (Grouped Query Attention) avanzato per migliorare le prestazioni.
- Microsoft Phi
Modelli compatti ed efficienti per implementazioni scalabili.
- Mistral
Include modelli di incorporamento e chat. Il modello di incorporamento è adatto per una gestione efficiente a lungo termine.
- NVIDIA Nemotron
Modelli a peso aperto con dati e ricette di formazione pubblicati, adatti per la creazione di agenti AI specializzati.
- OpenAI GptOss
Modelli Mixture-of-Experts (MoE) a peso aperto per ragionamenti efficienti e movimentazione di grandi contesti.