Modelli supportati per l'importazione

Puoi importare modelli di linguaggio di grandi dimensioni open source e di terze parti da bucket di storage degli oggetti Hugging Face e OCI in OCI Generative AI. Crea endpoint per tali modelli e utilizzali nel servizio di intelligenza artificiale generativa per accelerare le iniziative di intelligenza artificiale.

Architettura modello importata AI generativa OCI

Il servizio OCI Generative AI utilizza Open Model Engine (OME) per distribuire e gestire i modelli importati. OME funge da livello di orchestrazione tra la GPU e il runtime di inferenza.

Quando si distribuisce un modello importato, OME analizza il modello e lo associa al runtime più efficiente: vLLM (ottimizzato per throughput elevato) e SGLang (ottimizzato per prestazioni elevate). I motori runtime vLLM e SGLang eseguono i modelli sulle GPU.

Alcuni modelli sono fortemente ottimizzati per SGLang (come LLM su larga scala e quelli che richiedono RadixAttention per la memoria con contesto lungo), mentre altri hanno kernel di comunità migliori in vLLM (come i popolari LLM open-source e i modelli multimodali).

Importante

Sebbene sia possibile importare qualsiasi modello di chat, incorporamento (e ottimizzato) supportato tramite Open Model Engine (con runtime vLLM o SGLang), sono supportati solo i modelli elencati in modo esplicito nella sezione Modelli supportati. I modelli non elencati potrebbero presentare problemi di compatibilità e si consiglia di testare qualsiasi modello non elencato prima dell'uso in produzione.

Per informazioni sull'hardware disponibile e sulla procedura per distribuire i modelli importati, vedere Gestione dei modelli importati.

Modelli supportati

  • Alibaba Qwen

    Funzionalità avanzate multilingue e multimodali.

  • DeepSeek

    Ottimizzato per la codifica, la matematica e il ragionamento complesso con elevata efficienza.

  • Google Gemma

    Progettato per esigenze di elaborazione del linguaggio estese e alta versatilità.

  • Meta Llama

    Ottimizzato con GQA (Grouped Query Attention) per migliorare le prestazioni.

  • Microsoft Phi

    Conosciuto per efficienza e compattezza, progettato per prestazioni scalabili e flessibili.

  • Mistral

    Include modelli di incorporamento e chat. Il modello di incorporamento è adatto per una gestione efficiente a lungo termine.

  • NVIDIA Nemotron

    Modelli a peso aperto con dati e ricette di formazione pubblicati, adatti per la creazione di agenti AI specializzati.

  • OpenAI GptOss

    Costruito con architettura Mixture-of-Experts (MoE) a peso aperto per un ragionamento efficiente e una gestione contestuale di grandi dimensioni.