Modelos soportados para importación
Puede importar modelos de lenguaje grandes de código abierto y de terceros desde cubos de Hugging Face y OCI Object Storage a OCI Generative AI. Crea puntos finales para esos modelos y úsalos en el servicio de IA generativa para acelerar las iniciativas de IA.
Arquitectura de modelos importada de OCI Generative AI
El servicio OCI Generative AI utiliza Open Model Engine (OME) para desplegar y gestionar modelos importados. OME actúa como la capa de orquestación entre la GPU y el tiempo de ejecución de inferencia.
Al desplegar un modelo importado, OME analiza el modelo y lo empareja con el tiempo de ejecución más eficaz: vLLM (optimizado para alto rendimiento) y SGLang (optimizado para alto rendimiento). Los motores de tiempo de ejecución vLLM y SGLang ejecutan los modelos en las GPU.
Algunos modelos están muy optimizados para SGLang (como los LLM a gran escala y los que requieren RadixAttention para la memoria de contexto largo), mientras que otros tienen mejores núcleos de comunidad en vLLM (como los populares LLM de código abierto y los modelos multimodales).
Aunque puede importar cualquier modelo de chat, incrustación (y ajuste) soportado mediante Open Model Engine (con tiempo de ejecución vLLM o SGLang), solo se soportan los modelos explícitamente mostrados en la sección Supported Models. Los modelos no listados pueden tener problemas de compatibilidad y le recomendamos que pruebe cualquier modelo no listado antes de su uso en producción.
Para obtener información sobre el hardware disponible y los pasos para desplegar los modelos importados, consulte Gestión de modelos importados.
Modelos soportados
- Alibaba Qwen
Cuenta con capacidades multilingües y multimodales avanzadas.
- DeepSeek
Optimizado para codificación, matemáticas y razonamiento complejo con alta eficiencia.
- Google Gemma
Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.
- Meta Llama
Mejorado con atención de consulta agrupada (GQA) para mejorar el rendimiento.
- Microsoft Phi
Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.
- Mistral
Incluye incrustaciones y modelos de chat. El modelo de incrustación es adecuado para un manejo eficiente de contexto largo.
- NVIDIA Nemotron
Modelos de peso abierto con recetas y datos de entrenamiento publicados, adecuados para crear agentes de IA especializados.
- OpenAI GptOss
Construido con una arquitectura de mezcla de expertos (MoE) de peso abierto para un razonamiento eficiente y un manejo de contexto grande.