Modelos compatibles para importación
Puede importar modelos de lenguaje grandes de código abierto y de terceros desde cubos de Hugging Face y OCI Object Storage a OCI Generative AI. Crea puntos finales para esos modelos y úsalos en el servicio de IA generativa para acelerar las iniciativas de IA.
Su uso de estos modelos puede estar sujeto a condiciones separadas de los proveedores de terceros aplicables, y usted es responsable de su cumplimiento de dichas condiciones. Oracle renuncia a todas las garantías, indemnizaciones y responsabilidades que surjan o estén relacionadas con cualquier LLM de código abierto o de terceros que importe.
Arquitectura de modelos importada de OCI Generative AI
El servicio OCI Generative AI utiliza Open Model Engine (OME) para desplegar y gestionar modelos importados. OME actúa como la capa de orquestación entre la GPU y el tiempo de ejecución de inferencia.
Al desplegar un modelo importado, OME analiza el modelo y lo empareja con el tiempo de ejecución más eficaz: vLLM (optimizado para alto rendimiento) y SGLang (optimizado para alto rendimiento). Los motores de tiempo de ejecución vLLM y SGLang ejecutan los modelos en las GPU.
Algunos modelos están muy optimizados para SGLang (como los LLM a gran escala y los que requieren RadixAttention para la memoria de contexto largo), mientras que otros tienen mejores núcleos de comunidad en vLLM (como los populares LLM de código abierto y los modelos multimodales).
Aunque puede importar cualquier modelo de chat, incrustación (y ajuste) validado mediante Open Model Engine (con tiempo de ejecución vLLM o SGLang), solo se muestran explícitamente los modelos de la sección Compatible Models han sido evaluados por Oracle en tiempos de ejecución de modelos de código abierto y probados en configuraciones de GPU compatibles con Oracle. Independientemente de lo anterior, Oracle no se hace responsable de ningún problema relacionado con el rendimiento, disponibilidad, funcionamiento o seguridad de los Modelos Compatibles. Los modelos no listados pueden tener problemas de compatibilidad y le recomendamos que pruebe cualquier modelo no listado antes de su uso en producción.
Para obtener información sobre el hardware disponible y los pasos para desplegar los modelos importados, consulte Gestión de modelos importados.
Modelos compatibles
- Alibaba Qwen
Cuenta con capacidades multilingües y multimodales avanzadas.
- DeepSeek
Optimizado para codificación, matemáticas y razonamiento complejo con alta eficiencia.
- Google Gemma
Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.
- Meta Llama
Mejorado con atención de consulta agrupada (GQA) para mejorar el rendimiento.
- Microsoft Phi
Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.
- Mistral
Incluye incrustaciones y modelos de chat. El modelo de incrustación es adecuado para un manejo eficiente de contexto largo.
- NVIDIA Nemotron
Modelos de peso abierto con recetas y datos de entrenamiento publicados, adecuados para crear agentes de IA especializados.
- OpenAI GptOss
Construido con una arquitectura de mezcla de expertos (MoE) de peso abierto para un razonamiento eficiente y un manejo de contexto grande.