Requisitos de Dados de Treinamento no Serviço Generative AI
Entenda as diretrizes para criar dados de treinamento para ajustar os modelos pré-treinados no OCI Generative AI.
Os modelos personalizados aceitam somente um arquivo de conjunto de dados de treinamento em um formato JSONL (JSON Lines)
. O arquivo deve ter no mínimo 32 exemplos de pares de prompt/conclusão por arquivo. Este conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação. Não há um número máximo de sentenças para o arquivo de treinamento, mas conjuntos de dados grandes demoram mais para serem treinados.
- Sobre o
JSONL
-
Um arquivo
JSONL
contém um novo valor ou objetoJSON
em cada linha. O arquivo não é avaliado como um todo, como um arquivoJSON
regular. Em vez disso, cada linha é tratada como se fosse um arquivoJSON
separado. Esse formato é ideal para armazenar um conjunto de entradas no formatoJSON
.O serviço OCI Generative AI aceita um arquivo
JSONL
para ajuste fino de modelos personalizados no seguinte formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
Exemplo
Certifique-se de que cada arquivo de conjunto de dados
JSONL
criado para o serviço Generative AI tenha as seguintes propriedades: - O arquivo é codificado em
UTF-8
. - Cada item de linha contém um objeto
JSON
válido. - Cada objeto
JSON
tem duas propriedades:"prompt"
e"completion"
. - Cada objeto
JSON
é inserido em uma nova linha ou seguido de um caractere de nova linha (\n
).
Depois de criar o arquivo JSONL, adicione seu conjunto de dados a um bucket do Object Storage.