Dados de Treinamento em IA Generativa
Veja a seguir diretrizes para criar dados de treinamento para ajustar os modelos pré-treinados na OCI Generative AI. Um modelo personalizado pode ser ajustado com apenas um conjunto de dados, que o sistema divide automaticamente em 80 ⁇ % de treinamento e 20 ⁇ % de dados de validação. O conjunto de dados deve ser um arquivo JSONL contendo pelo menos 32 pares de prompt/completion, cada linha formatada como: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salve o arquivo em um bucket do OCI Object Storage e faça referência a ele ao criar o modelo personalizado.
Requisitos do Conjunto de Dados
Os conjuntos de dados para treinamento de modelos personalizados têm os seguintes requisitos:
- Um conjunto de dados de ajuste fino é permitido por modelo personalizado. Esse conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação.
- Cada arquivo deve ter pelo menos 32 exemplos de pares de prompt/conclusão.
- O formato do arquivo é
JSONL. - Cada linha no arquivo
JSONLtem o seguinte formato:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n - O arquivo deve ser armazenado em um bucket do OCI Object Storage.
Formato JSONL
- Sobre o
JSONL -
Um arquivo
JSONLcontém um novo valor ou objetoJSONem cada linha. O arquivo não é avaliado como um todo, como um arquivoJSONregular. Em vez disso, cada linha é tratada como se fosse um arquivoJSONseparado. Esse formato é ideal para armazenar um conjunto de entradas no formatoJSON.O serviço OCI Generative AI aceita um arquivo
JSONLpara ajustar modelos personalizados neste formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . . JSONLExemplo
Certifique-se de que cada arquivo de conjunto de dados
JSONL criado para o Generative AI tenha as seguintes propriedades: - O arquivo é codificado em
UTF-8. - Cada item de linha contém um objeto
JSONválido. - Cada objeto
JSONtem duas propriedades:"prompt"e"completion". - Cada objeto
JSONé inserido em uma nova linha ou seguido de um caractere de nova linha (\n).
Depois de criar o arquivo JSONL, adicione seu conjunto de dados a um bucket do Object Storage.