Modelos compatíveis para importação
Você pode importar grandes modelos de linguagem de código aberto e de terceiros de Hugging Face e buckets do OCI Object Storage para a OCI Generative AI. Crie endpoints para esses modelos e use-os no serviço Generative AI para acelerar as iniciativas de IA.
Seu uso desses modelos pode estar sujeito a termos separados dos fornecedores terceirizados aplicáveis, e você é responsável por sua conformidade com tais termos. A Oracle se isenta de todas as garantias, indenizações e responsabilidades decorrentes ou relacionadas a quaisquer LLMs de código aberto ou de terceiros que você importar.
Arquitetura de Modelo Importada da OCI Generative AI
O serviço OCI Generative AI usa o Open Model Engine (OME) para implementar e gerenciar modelos importados. O OME atua como a camada de orquestração entre a GPU e o runtime de inferência.
Quando você implanta um modelo importado, o OME analisa o modelo e o combina com o runtime mais eficiente: vLLM (otimizado para alto throughput) e SGLang (otimizado para alto desempenho). Os mecanismos de runtime vLLM e SGLang executam os modelos nas GPUs.
Alguns modelos são altamente otimizados para SGLang (como LLMs de larga escala e aqueles que exigem RadixAttention para memória de contexto longo), enquanto outros têm melhores kernels da comunidade em vLLM (como LLMs de código aberto populares e modelos multimodais).
Embora você possa importar qualquer modelo de bate-papo, incorporação (e ajustado) validado por meio do Open Model Engine (com runtime vLLM ou SGLang), somente os modelos listados explicitamente na seção Modelos Compatíveis foram avaliados pela Oracle em relação aos tempos de execução do modelo de código-fonte aberto e testados nas configurações de GPU suportadas pela Oracle. Não obstante o precedente, a Oracle não é responsável por nenhum problema relacionado ao desempenho, disponibilidade, operação ou segurança dos Modelos Compatíveis. Modelos não listados podem ter problemas de compatibilidade e recomendamos que você teste qualquer modelo não listado antes do uso da produção.
Para obter o hardware disponível e as etapas sobre como implantar os modelos importados, consulte Gerenciando Modelos Importados.
Modelos compatíveis
- Alibaba Qwen
Possui recursos multilíngues e multimodais avançados.
- DeepSeek
Otimizado para codificação, matemática e raciocínio complexo com alta eficiência.
- Google Gemma
Desenvolvido para necessidades de processamento de linguagem ampla e alta versatilidade.
- Meta Llama
Aprimorado com GQA (Agruped Query Attention) para melhorar o desempenho.
- Microsoft Phi
Conhecido por eficiência e compacidade, projetado para desempenho escalável e flexível.
- Mistral
Inclui modelos de incorporação e chat. O modelo de incorporação é adequado para um manuseio eficiente de longo contexto.
- NVIDIA Nemotron
Modelos de peso aberto com dados e receitas de treinamento publicados, adequados para a criação de agentes de IA especializados.
- OpenAI GptOss
Construído com arquitetura Mixture-of-Experts (MoE) de peso aberto para raciocínio eficiente e manipulação de grande contexto.