Modos a demanda y dedicados para modelos de IA generativa de OCI
OCI Generative AI ofrece dos modos de servicio de modelos: a demanda y dedicados. Revise estos temas para seleccionar el modo que mejor se ajuste a su caso de uso.
Después de revisar esta página, para conocer los modos disponibles para cada modelo, consulte Modelos de IA generativa por región y, para conocer los precios, consulte la página de precios.
Modo bajo demanda
El modo bajo demanda te permite utilizar modelos básicos preentrenados compatibles sin crear un cluster de IA dedicado.
Características principales:
- Pay as you go para cada llamada de inferencia, ya sea que utilice el patio de recreo o la API.
- Empiece a utilizar la IA generativa sin aprovisionar capacidad dedicada.
- Adecuado para experimentación, prueba de concepto y evaluación de modelos.
- Disponible para modelos previamente entrenados en regiones en las que el modelo no aparece como solo cluster de IA dedicado.
Cambio de límite de limitación dinámica para el modo bajo demanda
OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.
Este cambio depende de los siguientes factores:
- Rendimiento máximo actual soportado por el modelo de destino.
- Cualquier capacidad del sistema no utilizada en el momento del cambio.
- El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.
Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.
Debido al cambio de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de la integración en el servicio.
Desuso para el modo bajo demanda
Cuando un modelo se retira en el modo bajo demanda, ya no está disponible para su uso en el patio de juegos de servicios de IA generativa o a través de la API de inferencia de IA generativa.
Cuando un modelo está en desuso en el modo bajo demanda, permanece disponible en el servicio de IA generativa, pero tiene una cantidad de tiempo definida que se puede usar antes de que se dé de baja. Esta cantidad de tiempo es más larga para el modo dedicado.
Para los modelos de OCI Generative AI, consulte las fechas de retirada de modelos (modo bajo demanda).
Modo dedicado
En modo dedicado, obtienes capacidad de GPU dedicada para alojar y ajustar modelos en OCI Generative AI. Los clusters de IA dedicados proporcionan un rendimiento predecible y son adecuados para cargas de trabajo de producción.
Puede utilizar clusters de IA dedicados para:
- Ajusta los modelos preentrenados de OCI Generative AI compatibles.
- Aloja modelos preentrenados de OCI Generative AI.
- Aloje modelos personalizados creados mediante el ajuste de modelos preentrenados soportados.
- Aloje modelos importados que sean compatibles con OCI Generative AI.
Para acceder a un modelo en modo dedicado, cree un punto final para el modelo en un cluster de IA dedicado.
El modo dedicado está disponible para los modelos soportados en las regiones que se muestran para cada modelo.
Compromiso para clusters de IA dedicados
Para los modelos preentrenados y ajustados de OCI Generative AI, los clusters de IA dedicados requieren un compromiso de uso.
- Clústeres de alojamiento: compromiso mínimo de 744 horas-unidad por cluster de alojamiento.
- Ajuste de clusters: compromiso mínimo de 1 unidad de hora por trabajo de ajuste. Según el modelo, el ajuste puede requerir al menos 2 unidades.
Los modelos importados no requieren el compromiso de alojamiento de 744 horas unitarias. Si crea un cluster de IA dedicado para alojar un modelo importado, puede alojar el modelo sin comprometerse con el compromiso de alojamiento mínimo que se aplica a los modelos previamente entrenados y ajustados de OCI Generative AI.
Baja para modo dedicado
Cuando se retira un modelo en el modo dedicado, ya no se puede crear un cluster de IA dedicado para el modelo retirado, pero se sigue ejecutando un cluster de IA dedicado activo que ejecuta un modelo retirado. Un modelo personalizado que se está ejecutando en un modelo retirado también sigue estando disponible para clusters de IA dedicados activos y puede seguir creando nuevos clusters de IA dedicados con un modelo personalizado que se creó en un modelo retirado. Sin embargo, Oracle ofrece soporte limitado para estos escenarios, y es posible que la ingeniería de Oracle le pida que actualice a un modelo soportado para resolver problemas relacionados con su modelo.
Para solicitar que un modelo permanezca activo más tiempo que la fecha de jubilación en un modo dedicado, cree un ticket de soporte.
Para los modelos de OCI Generative AI, consulte las fechas de retirada de modelos (modo dedicado).
Desuso para modo dedicado
Cuando un modelo está en desuso en el modo dedicado, permanece disponible en el servicio de IA generativa, pero tiene una cantidad de tiempo definida que se puede usar antes de que se dé de baja. El tiempo de desuso del modo dedicado es más largo que el tiempo de desuso bajo demanda del mismo modelo.