Modelos Suportados para Importação

Você pode importar grandes modelos de linguagem de código aberto e de terceiros de Hugging Face e buckets do OCI Object Storage para a OCI Generative AI. Crie endpoints para esses modelos e use-os no serviço Generative AI para acelerar as iniciativas de IA.

Arquitetura de Modelo Importada da OCI Generative AI

O serviço OCI Generative AI usa o Open Model Engine (OME) para implementar e gerenciar modelos importados. O OME atua como a camada de orquestração entre a GPU e o runtime de inferência.

Quando você implanta um modelo importado, o OME analisa o modelo e o combina com o runtime mais eficiente: vLLM (otimizado para alto throughput) e SGLang (otimizado para alto desempenho). Os mecanismos de runtime vLLM e SGLang executam os modelos nas GPUs.

Alguns modelos são altamente otimizados para SGLang (como LLMs de larga escala e aqueles que exigem RadixAttention para memória de contexto longo), enquanto outros têm melhores kernels da comunidade em vLLM (como LLMs de código aberto populares e modelos multimodais).

Importante

Embora você possa importar qualquer modelo de chat, incorporação (e ajuste fino) suportado por meio do Open Model Engine (com runtime vLLM ou SGLang), somente os modelos listados explicitamente na seção Modelos Suportados são suportados. Modelos não listados podem ter problemas de compatibilidade e recomendamos que você teste qualquer modelo não listado antes do uso da produção.

Para obter o hardware disponível e as etapas sobre como implantar os modelos importados, consulte Gerenciando Modelos Importados.

Modelos Suportados

  • Alibaba Qwen

    Possui recursos multilíngues e multimodais avançados.

  • Google Gemma

    Desenvolvido para necessidades de processamento de linguagem ampla e alta versatilidade.

  • Meta Llama

    Aprimorado com GQA (Agruped Query Attention) para melhorar o desempenho.

  • Microsoft Phi

    Conhecido por eficiência e compacidade, projetado para desempenho escalável e flexível.

  • Mistral

    Inclui modelos de incorporação e chat. O modelo de incorporação é adequado para um manuseio eficiente de longo contexto.

  • OpenAI GptOss

    Construído com arquitetura Mixture-of-Experts (MoE) de peso aberto para raciocínio eficiente e manipulação de grande contexto.