Modelos Suportados para Importação

Você pode importar grandes modelos de linguagem de buckets do Hugging Face e do OCI Object Storage para o OCI Generative AI, criar pontos finais para esses modelos e usá-los no serviço Generative AI.

Arquiteturas de Modelo Suportadas

O serviço de IA generativa oferece suporte à importação e implementação dos principais modelos de linguagem de código aberto e de terceiros para acelerar as iniciativas de IA. As seguintes arquiteturas de modelo são suportadas:

Modelos de bate-papo

Os modelos de bate-papo permitem que você faça perguntas e obtenha respostas conversacionais no contexto da IA. Selecione entre as seguintes famílias de modelos para equilibrar velocidade, qualidade e custo para o caso de uso. Selecione cada link para uma lista de modelos suportados com seu ID de modelo, recurso de modelo e formas de unidade de cluster de IA dedicadas recomendadas.

  • Alibaba Qwen 3 e Qwen 2

    Possui recursos multilíngues e multimodais avançados.

  • Google Gemma

    Desenvolvido para necessidades de processamento de linguagem ampla e alta versatilidade.

  • Llama2, Llama3, Llama3.1, Llama3.2, Llama3.3, Llama4

    Uma versão melhorada dos modelos Meta Llama com Grouped Query Attention (GQA).

  • Microsoft Phi

    Conhecido por eficiência e compacidade, projetado para desempenho escalável e flexível.

  • OpenAI GptOss

    Uma arquitetura avançada de transformador de peso aberto com arquitetura Mixture-of-Experts (MoE), otimizada para raciocínio de linguagem eficiente e de alta qualidade e tratamento de grande contexto.

Incorporar Modelo

Um modelo de incorporação transforma dados de entrada (como palavras e imagens) em vetores numéricos que capturam seu significado semântico ou relacionamentos. Isso permite que as máquinas entendam semelhanças, relacionamentos e padrões dentro dos dados de forma mais eficaz. Selecione o link a seguir para o ID do modelo, o recurso do modelo e a forma de unidade de cluster de IA dedicada recomendada.

  • Mistral

    Uma arquitetura de Transformador de alto desempenho e somente decodificador com SWA (Sliding Window Attention) para tratamento eficiente de longo contexto e GQA (Grouped Query Attention) opcional para melhor escalabilidade.