Dados de Treinamento em IA Generativa

Veja a seguir diretrizes para criar dados de treinamento para ajustar os modelos pré-treinados na OCI Generative AI. Um modelo personalizado pode ser ajustado com apenas um conjunto de dados, que o sistema divide automaticamente em 80 ⁇ % de treinamento e 20 ⁇ % de dados de validação. O conjunto de dados deve ser um arquivo JSONL contendo pelo menos 32 pares de prompt/completion, cada linha formatada como: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salve o arquivo em um bucket do OCI Object Storage e faça referência a ele ao criar o modelo personalizado.

Requisitos do Conjunto de Dados

Os conjuntos de dados para treinamento de modelos personalizados têm os seguintes requisitos:

  • Um conjunto de dados de ajuste fino é permitido por modelo personalizado. Esse conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação.
  • Cada arquivo deve ter pelo menos 32 exemplos de pares de prompt/conclusão.
  • O formato do arquivo é JSONL.
  • Cada linha no arquivo JSONL tem o seguinte formato:

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • O arquivo deve ser armazenado em um bucket do OCI Object Storage.

Formato JSONL

Sobre o JSONL

Um arquivo JSONL contém um novo valor ou objeto JSON em cada linha. O arquivo não é avaliado como um todo, como um arquivo JSON regular. Em vez disso, cada linha é tratada como se fosse um arquivo JSON separado. Esse formato é ideal para armazenar um conjunto de entradas no formato JSON.

O serviço OCI Generative AI aceita um arquivo JSONL para ajustar modelos personalizados neste formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL Exemplo
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Observação

Certifique-se de que cada arquivo de conjunto de dados JSONL criado para o Generative AI tenha as seguintes propriedades:
  • O arquivo é codificado em UTF-8.
  • Cada item de linha contém um objeto JSON válido.
  • Cada objeto JSON tem duas propriedades: "prompt" e "completion".
  • Cada objeto JSON é inserido em uma nova linha ou seguido de um caractere de nova linha (\n).

Depois de criar o arquivo JSONL, adicione seu conjunto de dados a um bucket do Object Storage.