Modelos soportados para importación
Puede importar modelos de lenguaje grandes de cubos de Hugging Face y OCI Object Storage a OCI Generative AI, crear puntos finales para esos modelos y utilizarlos en el servicio Generative AI.
Arquitecturas de modelos soportadas
El servicio de IA generativa admite la importación y el despliegue de los principales modelos de lenguaje de código abierto y de terceros para acelerar las iniciativas de IA. Se admiten las siguientes arquitecturas de modelos:
Modelos de chat
Las modelos de chat te permiten hacer preguntas y obtener respuestas conversacionales en contexto de la IA. Seleccione una de las siguientes familias de modelos para equilibrar velocidad, calidad y costo para el caso de uso. Seleccione cada enlace para obtener una lista de los modelos soportados con su ID de modelo, capacidad de modelo y unidades de cluster de IA dedicadas recomendadas.
- Alibaba Qwen 3 y Qwen 2
Cuenta con capacidades multilingües y multimodales avanzadas.
- Google Gemma
Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.
- Llama2, Llama3, Llama3.1, Llama3.2, Llama3.3, Llama4
Una versión mejorada de los modelos Meta Llama con atención de consulta agrupada (GQA).
- Microsoft Phi
Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.
- OpenAI GptOss
Una arquitectura de transformador de peso abierto avanzada con arquitectura Mixture-of-Experts (MoE), optimizada para un razonamiento de lenguaje eficiente y de alta calidad y un manejo de contexto grande.
Embeber modelo
Un modelo de incrustación transforma los datos de entrada (como palabras e imágenes) en vectores numéricos que capturan su significado semántico o relaciones. Esto permite a las máquinas comprender de forma más eficaz las similitudes, las relaciones y los patrones dentro de los datos. Seleccione el siguiente enlace para el ID de modelo, la capacidad del modelo y la unidad de unidad de cluster de AI dedicada recomendada.
- Mistral
Una arquitectura de transformador de alto rendimiento y solo decodificador con atención de ventana deslizante (SWA) para un manejo eficiente de contexto largo y una atención de consulta agrupada (GQA) opcional para mejorar la escalabilidad.