Escolhendo um Método de Ajuste fino na IA generativa

Quando você cria um modelo personalizado, o OCI Generative AI ajusta os modelos base pré-treinados usando um método que corresponda ao modelo base.

Importante

Alguns modelos básicos pré-treinados da OCI Generative AI suportados para o modo de serviço dedicado agora estão obsoletos e serão descontinuados no máximo 6 meses após o lançamento do 1º modelo de substituição. Você pode hospedar um modelo base ou ajustar um modelo base e hospedar o modelo ajustado em um cluster de IA dedicado (modo de serviço dedicado) até que o modelo base seja retirado. Para datas de desativação do modo de serviço dedicado, consulte Desativando os Modelos.

A tabela a seguir lista o método que o Generative AI usa para treinar cada tipo de modelo base:

Modelos Base Pré-treinados Método de Treinamento
  • meta.llama-3.3-70b-instruct (Novo)
  • meta.llama-3.1-70b-instruct
  • meta.llama-3-70b-instruct (obsoleto)
  • LoRA
  • cohere.command-r-08-2024
  • cohere.command-r-16k (obsoleto)
  • T-Few
  • LoRA
  • T-Few
  • Vanilla
Observação

Para obter informações sobre os hiperparâmetros usados para cada método de treinamento, consulte Hiperparâmetros para Ajustar um Modelo no Serviço Generative AI.

Escolhendo entre T-Few e Vanilla

Para os modelos cohere.command e cohere.command-light, a OCI Generative AI tem dois métodos de treinamento: T-Few e Vanilla. Use as diretrizes a seguir para ajudá-lo a selecionar o melhor método de treinamento para seus casos de uso.

Recurso Opções e Recomendações
Métodos de treinamento para cohere.command e cohere.command-light
  • T-Few
  • Vanilla
Tamanho do Conjunto de Dados
  • Use T-Few para conjuntos de dados pequenos (algumas milhares de amostras ou menos)
  • Use Vanilla para grandes conjuntos de dados (De cem mil amostras a milhões de amostras)

O uso de pequenos conjuntos de dados para o método Vanilla pode causar sobreajuste. O overfitting acontece quando o modelo treinado fornece ótimos resultados para os dados de treinamento, mas não pode generalizar saídas para dados invisíveis.

Complexidade
  • Use T-Few para o formato a seguir ou a instrução a seguir.
  • Use Vanilla para uma melhoria complicada da compreensão semântica, como melhorar a compreensão de um modelo de casos médicos.
Hospedagem
  • Use T-Few se estiver planejando hospedar vários modelos ajustados no mesmo cluster de IA dedicado de hospedagem. Se todos os modelos forem treinados no mesmo modelo base, você poderá hospedá-los no mesmo cluster. Esse recurso de serviço empilhado economiza custos e oferece um bom desempenho se o tráfego do usuário para cada modelo ajustado T-Few for relativamente baixo. Consulte Adicionando Pontos Finais a Clusters de Host.
  • Cada modelo ajustado com o método Vanilla requer seu próprio cluster de IA dedicado de hospedagem.