Modelos compatibles para importación

Puede importar modelos de lenguaje grandes de código abierto y de terceros desde cubos de Hugging Face y OCI Object Storage a OCI Generative AI. Crea puntos finales para esos modelos y úsalos en el servicio de IA generativa para acelerar las iniciativas de IA.

Su uso de estos modelos puede estar sujeto a condiciones separadas de los proveedores de terceros aplicables, y usted es responsable de su cumplimiento de dichas condiciones. Oracle renuncia a todas las garantías, indemnizaciones y responsabilidades que surjan o estén relacionadas con cualquier LLM de código abierto o de terceros que importe.

Arquitectura de modelos importada de OCI Generative AI

El servicio OCI Generative AI utiliza Open Model Engine (OME) para desplegar y gestionar modelos importados. OME actúa como la capa de orquestación entre la GPU y el tiempo de ejecución de inferencia.

Al desplegar un modelo importado, OME analiza el modelo y lo empareja con el tiempo de ejecución más eficaz: vLLM (optimizado para alto rendimiento) y SGLang (optimizado para alto rendimiento). Los motores de tiempo de ejecución vLLM y SGLang ejecutan los modelos en las GPU.

Algunos modelos están muy optimizados para SGLang (como los LLM a gran escala y los que requieren RadixAttention para la memoria de contexto largo), mientras que otros tienen mejores núcleos de comunidad en vLLM (como los populares LLM de código abierto y los modelos multimodales).

Importante

Aunque puede importar cualquier modelo de chat, incrustación (y ajuste) validado mediante Open Model Engine (con tiempo de ejecución vLLM o SGLang), solo se muestran explícitamente los modelos de la sección Compatible Models han sido evaluados por Oracle en tiempos de ejecución de modelos de código abierto y probados en configuraciones de GPU compatibles con Oracle. Independientemente de lo anterior, Oracle no se hace responsable de ningún problema relacionado con el rendimiento, disponibilidad, funcionamiento o seguridad de los Modelos Compatibles. Los modelos no listados pueden tener problemas de compatibilidad y le recomendamos que pruebe cualquier modelo no listado antes de su uso en producción.

Para obtener información sobre el hardware disponible y los pasos para desplegar los modelos importados, consulte Gestión de modelos importados.

Modelos compatibles

  • Alibaba Qwen

    Cuenta con capacidades multilingües y multimodales avanzadas.

  • DeepSeek

    Optimizado para codificación, matemáticas y razonamiento complejo con alta eficiencia.

  • Google Gemma

    Diseñado para amplias necesidades de procesamiento de lenguaje y alta versatilidad.

  • Meta Llama

    Mejorado con atención de consulta agrupada (GQA) para mejorar el rendimiento.

  • Microsoft Phi

    Conocido por su eficiencia y compacidad, diseñado para un rendimiento escalable y flexible.

  • Mistral

    Incluye incrustaciones y modelos de chat. El modelo de incrustación es adecuado para un manejo eficiente de contexto largo.

  • NVIDIA Nemotron

    Modelos de peso abierto con recetas y datos de entrenamiento publicados, adecuados para crear agentes de IA especializados.

  • OpenAI GptOss

    Construido con una arquitectura de mezcla de expertos (MoE) de peso abierto para un razonamiento eficiente y un manejo de contexto grande.