Selección de un método de ajuste en la IA generativa

Al crear un modelo personalizado, OCI Generative AI ajusta los modelos base preentrenados mediante un método que coincida con el modelo base.

Importante

Algunos modelos base preentrenados fundamentales de OCI Generative AI soportados para el modo de servicio dedicado ahora están en desuso y se retirarán antes de que transcurran 6 meses desde el lanzamiento del 1er modelo de reemplazo. Puede alojar un modelo base o ajustar un modelo base y alojar el modelo ajustado en un cluster de IA dedicado (modo de servicio dedicado) hasta que el modelo base se retiró. Para conocer las fechas de baja del modo de servicio dedicado, consulte Baja de los modelos.

En la siguiente tabla, se muestra el método que utiliza la IA generativa para entrenar cada tipo de modelo base:

Modelos base preentrenados Método de formación
  • meta.llama-3.3-70b-instruct (Nuevo)
  • meta.llama-3.1-70b-instruct
  • meta.llama-3-70b-instruct (en desuso)
  • LoRA
  • cohere.command-r-08-2024
  • cohere.command-r-16k (en desuso)
  • T-Few
  • LoRA
  • T-Few
  • Vanilla
Nota

Para obtener información sobre los hiperparámetros utilizados para cada método de entrenamiento, consulte Hiperparámetros para ajustar un modelo en IA generativa.

Selección entre T-Few y Vanilla

Para los modelos cohere.command y cohere.command-light, OCI Generative AI tiene dos métodos de formación: T-Few y Vanilla. Utilice las siguientes directrices para ayudarle a seleccionar el mejor método de formación para sus casos de uso.

Función Opciones y recomendaciones
Métodos de formación para cohere.command y cohere.command-light
  • T-Few
  • Vanilla
Tamaño del juego de datos
  • Utilice T-Few para conjuntos de datos pequeños (algunos miles de ejemplos o menos)
  • Utilice Vanilla para conjuntos de datos grandes (de cien mil muestras a millones de muestras)

El uso de conjuntos de datos pequeños para el método Vanilla puede provocar un ajuste excesivo. El sobreajuste se produce cuando el modelo entrenado proporciona grandes resultados para los datos de entrenamiento, pero no puede generalizar salidas para datos no visualizados.

Complejidad
  • Utilice T-Few para aplicar el formato siguiente o las instrucciones siguientes.
  • Utilice Vanilla para mejorar la comprensión semántica complicada, como mejorar la comprensión de un modelo de casos médicos.
Alojamiento
  • Utilice T-Few si planea alojar varios modelos ajustados en el mismo cluster de AI dedicado de alojamiento. Si todos los modelos se entrenan en el mismo modelo base, puede alojarlos en el mismo cluster. Esta función de servicio apilado ahorra costos y ofrece un buen rendimiento si el tráfico de usuario a cada modelo ajustado T-Few es relativamente bajo. Consulte Adición de puntos finales a clusters de alojamiento.
  • Cada modelo que se ajusta con el método Vanilla requiere su propio cluster de AI dedicado de alojamiento.