Modelli compatibili per l'importazione

Puoi importare modelli di linguaggio di grandi dimensioni open source e di terze parti da bucket di storage degli oggetti Hugging Face e OCI in OCI Generative AI. Dopo aver importato un modello, è possibile ospitarlo in un cluster AI dedicato, creare un endpoint e utilizzarlo nel servizio AI generativa.

Nota

I modelli importati non richiedono l'impegno di hosting minimo di 744 ore per unità che si applica quando si ospitano modelli pre-addestrati disponibili in OCI Generative AI su cluster AI dedicati.

L'utilizzo di questi modelli può essere soggetto a termini separati dai fornitori di terze parti applicabili e l'utente è responsabile della conformità a tali termini. Oracle declina qualsiasi garanzia, indennizzo e responsabilità derivante da o correlata a LLM open source o di terzi da Voi importati.

Architettura modello importata AI generativa OCI

Il servizio OCI Generative AI utilizza Open Model Engine (OME) per distribuire e gestire i modelli importati. OME funge da livello di orchestrazione tra la GPU e il runtime di inferenza.

Quando si distribuisce un modello importato, OME analizza il modello e lo associa al runtime più efficiente: vLLM (ottimizzato per throughput elevato) e SGLang (ottimizzato per prestazioni elevate). I motori runtime vLLM e SGLang eseguono i modelli sulle GPU.

Alcuni modelli sono fortemente ottimizzati per SGLang (come LLM su larga scala e quelli che richiedono RadixAttention per la memoria con contesto lungo), mentre altri hanno kernel di comunità migliori in vLLM (come i popolari LLM open-source e i modelli multimodali).

Importante

Sebbene sia possibile importare qualsiasi modello di chat, incorporamento (e ottimizzato) convalidato tramite Open Model Engine (con runtime vLLM o SGLang), solo i modelli elencati in modo esplicito nella sezione Modelli compatibili sono stati valutati da Oracle rispetto ai runtime dei modelli open source e testati sulle configurazioni GPU supportate da Oracle. In deroga a quanto sopra, Oracle non è responsabile di eventuali problemi relativi a prestazioni, disponibilità, funzionamento o sicurezza dei Modelli Compatibili. I modelli non elencati potrebbero presentare problemi di compatibilità e si consiglia di testare qualsiasi modello non elencato prima dell'uso in produzione.

Per informazioni sull'hardware disponibile e sulla procedura per distribuire i modelli importati, vedere Gestione dei modelli importati.

Modelli compatibili

  • Alibaba Qwen

    Presenta casi d'uso avanzati multilingue e multimodali.

  • DeepSeek

    Ottimizzato per la codifica, la matematica e il ragionamento complesso.

  • Google Gemma

    Progettato per l'elaborazione di un linguaggio ampio e casi d'uso generici.

  • Meta Llama

    Modelli con GQA (Grouped Query Attention) avanzato per migliorare le prestazioni.

  • Microsoft Phi

    Modelli compatti ed efficienti per implementazioni scalabili.

  • Mistral

    Include modelli di incorporamento e chat. Il modello di incorporamento è adatto per una gestione efficiente a lungo termine.

  • NVIDIA Nemotron

    Modelli a peso aperto con dati e ricette di formazione pubblicati, adatti per la creazione di agenti AI specializzati.

  • OpenAI GptOss

    Modelli Mixture-of-Experts (MoE) a peso aperto per ragionamenti efficienti e movimentazione di grandi contesti.