Limitações de Modelo no Serviço Generative AI
Revise os requisitos de modelo a seguir para os modelos personalizados e base da IA Gerativa do OCI para aproveitar ao máximo seus modelos.
Para obter os principais recursos dos modelos base pré-treinados, consulte Modelos Fundamentais Pré-treinados no Serviço Generative AI.
Correspondendo Clusters a Modelos Base
- Quando você cria um cluster AI dedicado para hospedar modelos para inferência, por padrão, uma unidade é criada para o modelo base selecionado. Para aumentar o throughput ou as solicitações por minuto (RPM), você pode aumentar as instâncias no campo Réplica do modelo ou posteriormente ao editar o cluster. Por exemplo, a criação de duas réplicas de modelo neste cluster requer duas unidades e aumenta o throughput. Consulte benchmarks de desempenho para clusters
- Quando você cria um cluster de IA dedicado para ajuste fino, duas unidades são criadas para o modelo base selecionado. O ajuste fino de um modelo requer mais GPUs do que hospedar um modelo. O número de unidades para ajuste fino é fixado em dois e você não pode alterá-lo. Você pode usar o mesmo cluster de ajuste fino para ajustar vários modelos.
- Você pode hospedar até 50 modelos de ajuste fino diferentes (se estiver usando o método de ajuste fino T-FEW para modelos
cohere
) no mesmo cluster de hospedagem. - Você pode criar até 50 pontos finais que apontam para os diferentes modelos hospedados em um cluster de hospedagem. Você pode alocar esses pontos finais como quiser. Você pode alocar todos esses pontos finais para apontar para o mesmo modelo ou cada um desses pontos finais pode apontar para um modelo diferente.
- Em vez de se comprometer com clusters de IA dedicados, você pode pagar à medida que avança pela inferência sob demanda. Com a inferência sob demanda, você alcança os modelos fundamentais por meio da Console, no playground ou por meio da API. Para recursos sob demanda, consulte Calculando Custo em IA Generativa.
A tabela a seguir mostra o tamanho da unidade de cluster do AI dedicado e as unidades que correspondem a cada modelo básico.
Capacidade do Modelo | Modelo Base | Cluster de Ajuste | Hosting Cluster |
---|---|---|---|
Chat | meta.llama-3-70b-instruct |
|
|
Chat | cohere.command-r-plus |
Não disponível para ajuste fino |
|
Chat | cohere.command-r-16k |
Não disponível para ajuste fino |
|
Geração de Texto | cohere.command |
|
|
Geração de Texto | cohere.command-light |
|
|
Geração de Texto | meta.llama-2-70b-chat |
Não disponível para ajuste fino |
|
Sumarização | cohere.command |
Não disponível para ajuste fino |
|
Incorporação | cohere.embed |
Não disponível para ajuste fino |
|
Hospedando Clusters com um Ponto Final
Para disponibilizar modelos para inferência, você precisa configurar um ponto final em um cluster de IA dedicado de hospedagem. Para que um ponto final funcione, você precisa ter pelo menos uma unidade em um cluster de IA dedicado ao hosting. Você pode adicionar um modelo personalizado ou um modelo básico pré-treinado a esse ponto final. Além disso, você pode ter muitos pontos finais na mesma instância do cluster.
Hospedando Clusters com Muitos Pontos Finais
Um cluster de IA dedicado de hospedagem pode ter até 50 pontos finais. Use esses pontos finais para um dos seguintes casos de uso:
- Alias do Ponto Final
-
Crie aliases com muitos pontos finais. Esses 50 pontos finais devem apontar para o mesmo modelo base ou para a mesma versão de um modelo personalizado. A criação de muitos pontos finais que apontam para o mesmo modelo facilita o gerenciamento dos pontos finais, porque você pode usar os pontos finais para diferentes usuários ou diferentes finalidades.
- Serviço de Pilha
-
Ajuste um modelo
cohere
com o método de treinamento Poucos e você pode hospedar diferentes versões do mesmo modelo base no mesmo cluster. A criação de muitos pontos finais para diferentes versões de um modelo ajustado ajuda os usuários a avaliar os novos modelos ajustados para diferentes casos de uso.
Aumente a contagem de instâncias para aumentar o volume de chamadas suportado pelo cluster de hospedagem.
A tabela a seguir mostra os requisitos para hospedar modelos no mesmo cluster.
Tamanho da Unidade do Cluster de Hospedagem | Regras Correspondentes | Capacidade do Modelo |
---|---|---|
Large Generic |
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
Para hospedar vários modelos personalizados no mesmo cluster:
|
|
Large Cohere V2 |
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
|
|
Small Cohere V2 |
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
|
|
Small Cohere |
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
Para hospedar diferentes modelos personalizados no mesmo cluster:
|
|
Large Cohere |
Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
Para hospedar diferentes modelos personalizados no mesmo cluster:
|
|
Embed Cohere | Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
|
|
Llama2 70 | Para hospedar o mesmo modelo base pré-treinado por meio de vários pontos finais no mesmo cluster:
|
|
Dados de Treinamento
Os conjuntos de dados para treinamento de modelos personalizados têm os seguintes requisitos:
- Um máximo de um conjunto de dados de ajuste fino é permitido por modelo personalizado. Este conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação.
- Cada arquivo deve ter pelo menos 32 exemplos de pares de prompt/conclusão.
- O formato de arquivo é
JSONL
. - Cada linha do arquivo
JSONL
tem o seguinte formato:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- O arquivo deve ser armazenado em um bucket do OCI Object Storage.
Saiba mais sobre Requisitos de Dados de Treinamento no Serviço Generative AI.
Dados de Entrada para Incorporações de Texto
Os dados de entrada para criar incorporações de texto têm os seguintes requisitos:
- Você pode adicionar frases, frases ou parágrafos para incorporações uma frase de cada vez ou fazendo upload de um arquivo.
- Somente os arquivos com a extensão
.txt
são permitidos. - Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
- São permitidas no máximo 96 entradas para cada execução.
- Cada entrada deve ter menos de 512 tokens. Se uma entrada for muito longa, selecione se deseja cortar o início ou o fim do texto para caber dentro do limite de token definindo o parâmetro Truncar como Iniciar ou Terminar. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.
Saiba mais sobre a Criação de incorporações de texto na OCI Generative AI.