Modelli supportati per l'importazione
Puoi importare modelli di linguaggio di grandi dimensioni open source e di terze parti da bucket di storage degli oggetti Hugging Face e OCI in OCI Generative AI. Crea endpoint per tali modelli e utilizzali nel servizio di intelligenza artificiale generativa per accelerare le iniziative di intelligenza artificiale.
Architettura modello importata AI generativa OCI
Il servizio OCI Generative AI utilizza Open Model Engine (OME) per distribuire e gestire i modelli importati. OME funge da livello di orchestrazione tra la GPU e il runtime di inferenza.
Quando si distribuisce un modello importato, OME analizza il modello e lo associa al runtime più efficiente: vLLM (ottimizzato per throughput elevato) e SGLang (ottimizzato per prestazioni elevate). I motori runtime vLLM e SGLang eseguono i modelli sulle GPU.
Alcuni modelli sono fortemente ottimizzati per SGLang (come LLM su larga scala e quelli che richiedono RadixAttention per la memoria con contesto lungo), mentre altri hanno kernel di comunità migliori in vLLM (come i popolari LLM open-source e i modelli multimodali).
Sebbene sia possibile importare qualsiasi modello di chat, incorporamento (e ottimizzato) supportato tramite Open Model Engine (con runtime vLLM o SGLang), sono supportati solo i modelli elencati in modo esplicito nella sezione Modelli supportati. I modelli non elencati potrebbero presentare problemi di compatibilità e si consiglia di testare qualsiasi modello non elencato prima dell'uso in produzione.
Per informazioni sull'hardware disponibile e sulla procedura per distribuire i modelli importati, vedere Gestione dei modelli importati.
Modelli supportati
- Alibaba Qwen
Funzionalità avanzate multilingue e multimodali.
- DeepSeek
Ottimizzato per la codifica, la matematica e il ragionamento complesso con elevata efficienza.
- Google Gemma
Progettato per esigenze di elaborazione del linguaggio estese e alta versatilità.
- Meta Llama
Ottimizzato con GQA (Grouped Query Attention) per migliorare le prestazioni.
- Microsoft Phi
Conosciuto per efficienza e compattezza, progettato per prestazioni scalabili e flessibili.
- Mistral
Include modelli di incorporamento e chat. Il modello di incorporamento è adatto per una gestione efficiente a lungo termine.
- NVIDIA Nemotron
Modelli a peso aperto con dati e ricette di formazione pubblicati, adatti per la creazione di agenti AI specializzati.
- OpenAI GptOss
Costruito con architettura Mixture-of-Experts (MoE) a peso aperto per un ragionamento efficiente e una gestione contestuale di grandi dimensioni.