Modelos soportados para importación

Puede importar modelos de lenguaje grandes de cubos de Hugging Face y OCI Object Storage a OCI Generative AI, crear puntos finales para esos modelos y utilizarlos en el servicio Generative AI.

Arquitecturas de modelos soportadas

El servicio de IA generativa admite la importación y el despliegue de los principales modelos de lenguaje de código abierto y de terceros para acelerar las iniciativas de IA. Se admiten las siguientes arquitecturas de modelos:

Modelos de chat

Las modelos de chat te permiten hacer preguntas y obtener respuestas conversacionales en contexto de la IA. Seleccione una de las siguientes familias de modelos para equilibrar velocidad, calidad y costo para el caso de uso. Seleccione cada enlace para obtener una lista de los modelos soportados con su ID de modelo, capacidad de modelo y unidades de cluster de IA dedicadas recomendadas.

  • Alibaba Qwen 3 y Qwen 2

    Cuenta con capacidades multilingües y multimodales avanzadas.

  • Google Gemma

    Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.

  • Llama2, Llama3, Llama3.1, Llama3.2, Llama3.3, Llama4

    Una versión mejorada de los modelos Meta Llama con atención de consulta agrupada (GQA).

  • Microsoft Phi

    Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.

  • OpenAI GptOss

    Una arquitectura de transformador de peso abierto avanzada con arquitectura Mixture-of-Experts (MoE), optimizada para un razonamiento de lenguaje eficiente y de alta calidad y un manejo de contexto grande.

Embeber modelo

Un modelo de incrustación transforma los datos de entrada (como palabras e imágenes) en vectores numéricos que capturan su significado semántico o relaciones. Esto permite a las máquinas comprender de forma más eficaz las similitudes, las relaciones y los patrones dentro de los datos. Seleccione el siguiente enlace para el ID de modelo, la capacidad del modelo y la unidad de unidad de cluster de AI dedicada recomendada.

  • Mistral

    Una arquitectura de transformador de alto rendimiento y solo decodificador con atención de ventana deslizante (SWA) para un manejo eficiente de contexto largo y una atención de consulta agrupada (GQA) opcional para mejorar la escalabilidad.