Modelos soportados para importación
Puede importar modelos de lenguaje grandes de cubos de Hugging Face y OCI Object Storage a OCI Generative AI, crear puntos finales para esos modelos y utilizarlos en el servicio Generative AI.
Los modelos importados soportan la longitud de contexto nativo especificada por el proveedor del modelo. Sin embargo, la longitud máxima de contexto que puede utilizar también está limitada por la configuración de hardware subyacente en OCI Generative AI. Es posible que necesite aprovisionar recursos de hardware adicionales para aprovechar al máximo la longitud del contexto nativo del modelo.
Arquitecturas de modelos soportadas
El servicio de IA generativa admite la importación y el despliegue de los principales modelos de lenguaje de código abierto y de terceros para acelerar las iniciativas de IA. Se admiten las siguientes arquitecturas de modelos:
Modelos de chat
Las modelos de chat te permiten hacer preguntas y obtener respuestas conversacionales en contexto de la IA. Seleccione una de las siguientes familias de modelos para equilibrar velocidad, calidad y costo para el caso de uso. Seleccione cada enlace para obtener una lista de los modelos soportados con su ID de modelo, capacidad de modelo y unidades de cluster de IA dedicadas recomendadas.
- Alibaba Qwen 3 y Qwen 2
Cuenta con capacidades multilingües y multimodales avanzadas.
- Google Gemma
Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.
- Llama3.3 y Llama4
Una versión mejorada de los modelos Meta Llama con atención de consulta agrupada (GQA).
- Microsoft Phi
Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.
- OpenAI GptOss
Una arquitectura de transformador de peso abierto avanzada con arquitectura Mixture-of-Experts (MoE), optimizada para un razonamiento de lenguaje eficiente y de alta calidad y un manejo de contexto grande.
Embeber modelo
Un modelo de incrustación transforma los datos de entrada (como palabras e imágenes) en vectores numéricos que capturan su significado semántico o relaciones. Esto permite a las máquinas comprender de forma más eficaz las similitudes, las relaciones y los patrones dentro de los datos. Seleccione el siguiente enlace para el ID de modelo, la capacidad del modelo y la unidad de unidad de cluster de AI dedicada recomendada.
- Mistral
Una arquitectura de transformador de alto rendimiento y solo decodificador con atención de ventana deslizante (SWA) para un manejo eficiente de contexto largo y una atención de consulta agrupada (GQA) opcional para mejorar la escalabilidad.