Requisitos de Dados de Treinamento no Serviço Generative AI

Entenda as diretrizes para criar dados de treinamento para ajustar os modelos pré-treinados no OCI Generative AI.

Os modelos personalizados aceitam somente um arquivo de conjunto de dados de treinamento em um formato JSONL (JSON Lines). O arquivo deve ter no mínimo 32 exemplos de pares de prompt/conclusão por arquivo. Este conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação. Não há um número máximo de sentenças para o arquivo de treinamento, mas conjuntos de dados grandes demoram mais para serem treinados.

Sobre o JSONL

Um arquivo JSONL contém um novo valor ou objeto JSON em cada linha. O arquivo não é avaliado como um todo, como um arquivo JSON regular. Em vez disso, cada linha é tratada como se fosse um arquivo JSON separado. Esse formato é ideal para armazenar um conjunto de entradas no formato JSON.

O serviço OCI Generative AI aceita um arquivo JSONL para ajuste fino de modelos personalizados no seguinte formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL Exemplo
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Observação

Certifique-se de que cada arquivo de conjunto de dados JSONL criado para o serviço Generative AI tenha as seguintes propriedades:
  • O arquivo é codificado em UTF-8.
  • Cada item de linha contém um objeto JSON válido.
  • Cada objeto JSON tem duas propriedades: "prompt" e "completion".
  • Cada objeto JSON é inserido em uma nova linha ou seguido de um caractere de nova linha (\n).

Depois de criar o arquivo JSONL, adicione seu conjunto de dados a um bucket do Object Storage.