Limitações de Modelo no Serviço Generative AI

Revise os requisitos de modelo a seguir para os modelos personalizados e base da IA Gerativa do OCI para aproveitar ao máximo seus modelos.

Observação

Para obter os principais recursos dos modelos base pré-treinados, consulte Modelos Fundamentais Pré-treinados no Serviço Generative AI.

Correspondendo Clusters a Modelos Base

Importante

  • Quando você cria um cluster AI dedicado para hospedar modelos para inferência, por padrão, uma unidade é criada para o modelo base selecionado. Para aumentar o throughput ou as solicitações por minuto (RPM), você pode aumentar as instâncias no campo Réplica do modelo ou posteriormente ao editar o cluster. Por exemplo, a criação de duas réplicas de modelo neste cluster requer duas unidades e aumenta o throughput. Consulte benchmarks de desempenho para clusters
  • Quando você cria um cluster de IA dedicado para ajuste fino, duas unidades são criadas para o modelo base selecionado. O ajuste fino de um modelo requer mais GPUs do que hospedar um modelo. O número de unidades para ajuste fino é fixado em dois e você não pode alterá-lo. Você pode usar o mesmo cluster de ajuste fino para ajustar vários modelos.
  • Você pode hospedar até 50 modelos de ajuste fino diferentes (se estiver usando o método de ajuste fino T-FEW para modelos cohere) no mesmo cluster de hospedagem.
  • Você pode criar até 50 pontos finais que apontam para os diferentes modelos hospedados em um cluster de hospedagem. Você pode alocar esses pontos finais como quiser. Você pode alocar todos esses pontos finais para apontar para o mesmo modelo ou cada um desses pontos finais pode apontar para um modelo diferente.
  • Em vez de se comprometer com clusters de IA dedicados, você pode pagar à medida que avança pela inferência sob demanda. Com a inferência sob demanda, você alcança os modelos fundamentais por meio da Console, no playground ou por meio da API. Para recursos sob demanda, consulte Calculando Custo em IA Generativa.

A tabela a seguir mostra o tamanho da unidade de cluster do AI dedicado e as unidades que correspondem a cada modelo básico.

Capacidade do Modelo Modelo Base Cluster de Ajuste Hosting Cluster
Chat meta.llama-3-70b-instruct
  • Tamanho da Unidade: Large Generic
  • Unidades Necessárias: 2
  • Tamanho da Unidade: Large Generic
  • Unidades Necessárias: 1
Chat cohere.command-r-plus Não disponível para ajuste fino
  • Tamanho da Unidade: Large Cohere V2
  • Unidades Necessárias: 1
Chat cohere.command-r-16k Não disponível para ajuste fino
  • Tamanho da Unidade: Small Cohere V2
  • Unidades Necessárias: 1
Geração de Texto cohere.command
  • Tamanho da Unidade: Large Cohere
  • Unidades Necessárias: 2
  • Tamanho da Unidade: Large Cohere
  • Unidades Necessárias: 1
Geração de Texto cohere.command-light
  • Tamanho da Unidade: Small Cohere
  • Unidades Necessárias: 2
  • Tamanho da Unidade: Small Cohere
  • Unidades Necessárias: 1
Geração de Texto meta.llama-2-70b-chat Não disponível para ajuste fino
  • Tamanho da Unidade: Llama2 70
  • Unidades Necessárias: 1
Sumarização cohere.command Não disponível para ajuste fino
  • Tamanho da Unidade: Large Cohere
  • Unidades Necessárias: 1
Incorporação cohere.embed Não disponível para ajuste fino
  • Tamanho da Unidade: Embed Cohere
  • Unidades Necessárias: 1

Hospedando Clusters com um Ponto Final

Importante

Para disponibilizar modelos para inferência, você precisa configurar um ponto final em um cluster de IA dedicado de hospedagem. Para que um ponto final funcione, você precisa ter pelo menos uma unidade em um cluster de IA dedicado ao hosting. Você pode adicionar um modelo personalizado ou um modelo básico pré-treinado a esse ponto final. Além disso, você pode ter muitos pontos finais na mesma instância do cluster.

Hospedando Clusters com Muitos Pontos Finais

Importante

Um cluster de IA dedicado de hospedagem pode ter até 50 pontos finais. Use esses pontos finais para um dos seguintes casos de uso:

Alias do Ponto Final

Crie aliases com muitos pontos finais. Esses 50 pontos finais devem apontar para o mesmo modelo base ou para a mesma versão de um modelo personalizado. A criação de muitos pontos finais que apontam para o mesmo modelo facilita o gerenciamento dos pontos finais, porque você pode usar os pontos finais para diferentes usuários ou diferentes finalidades.

Serviço de Pilha

Ajuste um modelo cohere com o método de treinamento Poucos e você pode hospedar diferentes versões do mesmo modelo base no mesmo cluster. A criação de muitos pontos finais para diferentes versões de um modelo ajustado ajuda os usuários a avaliar os novos modelos ajustados para diferentes casos de uso.

Dica

Aumente a contagem de instâncias para aumentar o volume de chamadas suportado pelo cluster de hospedagem.

A tabela a seguir mostra os requisitos para hospedar modelos no mesmo cluster.

Tamanho da Unidade do Cluster de Hospedagem Regras Correspondentes Capacidade do Modelo
Large Generic

Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:

  • Crie quantos pontos finais forem necessários para o modelo meta.llama-3-70b-instruct no mesmo cluster de hospedagem.

Para hospedar vários modelos personalizados no mesmo cluster:

  • Ajuste um modelo com o método de treinamento LoRA.
  • Use o modelo meta.llama-3-70b-instruct como base.
  • Crie quantos pontos finais forem necessários para o modelo personalizado.
  • Chat
Large Cohere V2

Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:

  • Crie quantos pontos finais forem necessários para o modelo cohere.command-r-plus no mesmo cluster de hospedagem.
  • Chat
Small Cohere V2

Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:

  • Crie quantos pontos finais forem necessários para o modelo cohere.command-r-16k no mesmo cluster de hospedagem.
  • Chat
Small Cohere
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
  • Crie quantos pontos finais forem necessários para o modelo cohere.command-light no mesmo cluster de hospedagem.

Para hospedar diferentes modelos personalizados no mesmo cluster:

  • Ajuste todos os modelos com o método de treinamento T-Few.
  • Use o modelo cohere.command-light como base.
  • Certifique-se de que todos os modelos base tenham a mesma versão.
  • Crie um ponto final para cada modelo no mesmo cluster de hospedagem.
  • Geração de Texto
Large Cohere

Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:

  • Crie quantos pontos finais forem necessários para o modelo cohere.command com a mesma versão no mesmo cluster de hospedagem.

Para hospedar diferentes modelos personalizados no mesmo cluster:

  • Ajuste todos os modelos com o método de treinamento T-Few.
  • Use o modelo cohere.command como base.
  • Certifique-se de que todos os modelos base tenham a mesma versão.
  • Adicione um ponto final ao cluster de hospedagem para cada modelo.
  • Geração de Texto
  • Sumarização
Embed Cohere Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
  • Crie quantos pontos finais forem necessários para o modelo cohere.embed-<models> com exatamente o mesmo nome e versão do modelo no mesmo cluster de hospedagem.
  • Incorporação
Llama2 70 Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
  • Crie quantos pontos finais forem necessários para o modelo meta.llama-2-70b-chat no mesmo cluster de hospedagem.
  • Geração de Texto

Dados de Treinamento

Os conjuntos de dados para treinamento de modelos personalizados têm os seguintes requisitos:

  • Um máximo de um conjunto de dados de ajuste fino é permitido por modelo personalizado. Este conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação.
  • Cada arquivo deve ter pelo menos 32 exemplos de pares de prompt/conclusão.
  • O formato de arquivo é JSONL.
  • Cada linha do arquivo JSONL tem o seguinte formato:

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • O arquivo deve ser armazenado em um bucket do OCI Object Storage.

Saiba mais sobre Requisitos de Dados de Treinamento no Serviço Generative AI.

Dados de Entrada para Incorporações de Texto

Os dados de entrada para criar incorporações de texto têm os seguintes requisitos:

  • Você pode adicionar frases, frases ou parágrafos para incorporações uma frase de cada vez ou fazendo upload de um arquivo.
  • Somente os arquivos com a extensão .txt são permitidos.
  • Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
  • São permitidas no máximo 96 entradas para cada execução.
  • Cada entrada deve ter menos de 512 tokens. Se uma entrada for muito longa, selecione se deseja cortar o início ou o fim do texto para caber dentro do limite de token definindo o parâmetro Truncar como Iniciar ou Terminar. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.

Saiba mais sobre a Criação de incorporações de texto na OCI Generative AI.