Dados de Treinamento em IA Generativa

Veja a seguir diretrizes para criar dados de treinamento para ajustar os modelos pré-treinados na OCI Generative AI. Um modelo personalizado pode ser ajustado com apenas um conjunto de dados, que o sistema divide automaticamente em 80 ⁇ % de treinamento e 20 ⁇ % de dados de validação. O conjunto de dados deve ser um arquivo JSONL contendo pelo menos 32 pares de prompt/completion, cada linha formatada como: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salve o arquivo em um bucket do OCI Object Storage e faça referência a ele ao criar o modelo personalizado.

Requisitos do Conjunto de Dados

Os conjuntos de dados para treinamento de modelos personalizados têm os seguintes requisitos:

Um conjunto de dados de ajuste fino é permitido por modelo personalizado. Esse conjunto de dados é dividido aleatoriamente em uma proporção de 80:20 para treinamento e validação.
Cada arquivo deve ter pelo menos 32 exemplos de pares de prompt/conclusão.
O formato do arquivo é JSONL.
Cada linha no arquivo JSONL tem o seguinte formato:
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
O arquivo deve ser armazenado em um bucket do OCI Object Storage.

Formato JSONL

Sobre o JSONL

Um arquivo JSONL contém um novo valor ou objeto JSON em cada linha. O arquivo não é avaliado como um todo, como um arquivo JSON regular. Em vez disso, cada linha é tratada como se fosse um arquivo JSON separado. Esse formato é ideal para armazenar um conjunto de entradas no formato JSON.

O serviço OCI Generative AI aceita um arquivo JSONL para ajuste fino de modelos personalizados no seguinte formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.

Exemplo de JSONL

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}

Observação

Certifique-se de que cada arquivo de conjunto de dados JSONL criado para a IA Generativa tenha as seguintes propriedades:

O arquivo é codificado em UTF-8.
Cada item de linha contém um objeto JSON válido.
Cada objeto do JSON tem duas propriedades: "prompt" e "completion".
Cada objeto JSON é inserido em uma nova linha ou seguido por um caractere de nova linha (\n).

Depois de criar o arquivo JSONL, adicione seu conjunto de dados a um bucket do Object Storage.

Documentação do Oracle Cloud Infrastructure

Dados de Treinamento em IA Generativa

Requisitos do Conjunto de Dados

Formato JSONL