Modelo Mistral compatible

Puede importar modelos de lenguaje grandes de cubos de Hugging Face y OCI Object Storage a OCI Generative AI, crear puntos finales para esos modelos y utilizarlos en el servicio Generative AI.

Estos modelos tienen una arquitectura de transformador de alto rendimiento, solo decodificador, con atención de ventana deslizante (SWA) para un manejo eficiente de contexto largo y atención de consulta agrupada (GQA) opcional para una mayor escalabilidad. Para obtener más información, consulte Mistral en la documentación de Hugging Face.

Mistral

Modelos Mistral compatibles
ID de modelo facial de abrazo Capacidad del modelo Unidad de cluster de IA dedicada recomendada
mistralai/Mixtral-8x7B-Instruct-v0.1 TEXT_TO_TEXT A100_80G_X2
mistralai/Mistral-Nemo-Instruct-2407 TEXT_TO_TEXT A100_80G_X1
mistralai/Mistral-7B-Instruct-v0.3 TEXT_TO_TEXT A100_80G_X1
mistralai/Mistral-7B-Instruct-v0.2 TEXT_TO_TEXT A100_80G_X1
mistralai/Mistral-7B-Instruct-v0.1 TEXT_TO_TEXT A100_80G_X1
intfloat/e5-mistral-7b-instruct INCRUSTAR A10_X1
Importante

  • Si bien puede importar cualquier modelo de chat, incrustación (y ajuste) validado a través de Open Model Engine (con tiempo de ejecución vLLM o SGLang), solo los modelos que aparecen explícitamente en esta página han sido evaluados para esta familia de modelos por Oracle en tiempos de ejecución de modelos de código abierto y probados en configuraciones de GPU compatibles con Oracle. Independientemente de lo anterior, Oracle no se hace responsable de ningún problema relacionado con el rendimiento, disponibilidad, funcionamiento o seguridad de los Modelos Compatibles. Los modelos no listados pueden tener problemas de compatibilidad y le recomendamos que pruebe cualquier modelo no listado antes de su uso en producción. Obtén más información sobre la arquitectura de modelo importada de IA generativa de OCI.

  • Para los modelos importados, puede utilizar la longitud de contexto nativo especificada por el proveedor del modelo. Sin embargo, la longitud máxima efectiva del contexto está limitada por la configuración de hardware subyacente que seleccione para alojar clusters de IA dedicados en OCI Generative AI. Para aprovechar al máximo la longitud del contexto nativo de un modelo, puede que necesite aprovisionar más recursos de hardware.
  • Utilice los modelos ajustados solo si coinciden con la versión del transformador del modelo base compatible y tienen un recuento de parámetros dentro del ±10% del original.
  • Para obtener información sobre el hardware disponible y los pasos para desplegar los modelos importados, consulte Gestión de modelos importados.
  • Si la unidad compatible no está disponible en la región, seleccione una opción de nivel superior. Por ejemplo, si A100 no está disponible, seleccione H100.