Modelos compatibles para importación

Puede importar modelos de lenguaje grandes de código abierto y de terceros desde cubos de Hugging Face y OCI Object Storage a OCI Generative AI. Después de importar un modelo, puede alojarlo en un cluster de IA dedicado, crear un punto final y utilizarlo en el servicio de IA generativa.

Nota

Los modelos importados no requieren el compromiso de alojamiento mínimo de 744 horas unitarias que se aplica cuando aloja modelos preentrenados disponibles en OCI Generative AI en clusters de IA dedicados.

Su uso de estos modelos puede estar sujeto a condiciones separadas de los proveedores de terceros aplicables, y usted es responsable de su cumplimiento de dichas condiciones. Oracle renuncia a todas las garantías, indemnizaciones y responsabilidades que surjan o estén relacionadas con cualquier LLM de código abierto o de terceros que importe.

Arquitectura de modelos importada de OCI Generative AI

El servicio OCI Generative AI utiliza Open Model Engine (OME) para desplegar y gestionar modelos importados. OME actúa como la capa de orquestación entre la GPU y el tiempo de ejecución de inferencia.

Al desplegar un modelo importado, OME analiza el modelo y lo empareja con el tiempo de ejecución más eficaz: vLLM (optimizado para alto rendimiento) y SGLang (optimizado para alto rendimiento). Los motores de tiempo de ejecución vLLM y SGLang ejecutan los modelos en las GPU.

Algunos modelos están muy optimizados para SGLang (como los LLM a gran escala y los que requieren RadixAttention para la memoria de contexto largo), mientras que otros tienen mejores núcleos de comunidad en vLLM (como los populares LLM de código abierto y los modelos multimodales).

Importante

Aunque puede importar cualquier modelo de chat, incrustación (y ajuste) validado mediante Open Model Engine (con tiempo de ejecución vLLM o SGLang), solo se muestran explícitamente los modelos de la sección Compatible Models han sido evaluados por Oracle en tiempos de ejecución de modelos de código abierto y probados en configuraciones de GPU compatibles con Oracle. Independientemente de lo anterior, Oracle no se hace responsable de ningún problema relacionado con el rendimiento, disponibilidad, funcionamiento o seguridad de los Modelos Compatibles. Los modelos no listados pueden tener problemas de compatibilidad y le recomendamos que pruebe cualquier modelo no listado antes de su uso en producción.

Para obtener información sobre el hardware disponible y los pasos para desplegar los modelos importados, consulte Gestión de modelos importados.

Modelos compatibles

  • Alibaba Qwen

    Cuenta con casos de uso multilingües y multimodales avanzados.

  • DeepSeek

    Optimizado para codificación, matemáticas y razonamiento complejo.

  • Google Gemma

    Diseñado para un procesamiento de lenguaje amplio y casos de uso de uso general.

  • Meta Llama

    Modelos con atención de consulta agrupada (GQA) mejorada para mejorar el rendimiento.

  • Microsoft Phi

    Modelos compactos y eficientes para implementaciones escalables.

  • Mistral

    Incluye incrustaciones y modelos de chat. El modelo de incrustación es adecuado para un manejo eficiente de contexto largo.

  • NVIDIA Nemotron

    Modelos de peso abierto con recetas y datos de entrenamiento publicados, adecuados para crear agentes de IA especializados.

  • OpenAI GptOss

    Modelos de mezcla de expertos (MoE) de peso abierto para un razonamiento eficiente y un manejo de contexto grande.