Estúdio de etiquetas
Use o Label Studio para rotular conjuntos de dados.
O serviço Data Labeling da Oracle está sendo preterido. É necessário migrar quaisquer conjuntos de dados rotulados para o Label Studio, uma ferramenta de rotulagem de código-fonte aberto e suportada pelo marketplace. Com a descontinuação do serviço Data Labeling, esta seção fornece detalhes sobre a conversão de exportações de captura instantânea do serviço Data Labeling para importação do Label Studio e formatos de exportação JSON do Label Studio. Você pode usar esses formatos para anotação adicional no Label Studio ou treinamento direto do modelo.
Para treinar modelos personalizados, você precisa dos dois arquivos a seguir:
- Arquivo Manifest
- Esse arquivo contém metadados sobre os arquivos de anotação e geralmente tem uma extensão
.jsonl.
- Arquivo de Registro
-
Este é o conjunto de dados exportado do Label Studio após a anotação. O arquivo tem uma extensão
.json.-
Para KV Personalizado, o arquivo de registro está no formato JSON-MIN.
-
Para o DC personalizado, o arquivo de registro está no formato JSON padrão.
-
1. Configurando o Ambiente do Label Studio
1.1 Iniciar o Label Studio
2. Workflow de Rotulagem para Extração de Chave-Valor Personalizada
O Label Studio não oferece suporte nativo a anotações em PDF para obter mais informações. Consulte Ferramentas Fundamentais para Criação de Label em PDF na documentação do Label Studio.
Existe uma solução para Rotulagem Multimagem Paginada.
Siga estas etapas para rotular PDFs:
2.1 Gerar lista de tarefas
Se os documentos de treinamento estiverem em formato PDF, você precisará convertê-los em imagens primeiro. A função pdf_to_images executa essa conversão e salva as imagens em uma pasta output_images (Images_input_root), que é criada na raiz do diretório de entrada fornecido. Para cada PDF, uma pasta separada (nomeada após o arquivo PDF) é criada dentro do diretório output_images para armazenar as imagens correspondentes.
- Para anotação do Label Studio, você precisa gerar uma lista de tarefas. Cada tarefa corresponde à anotação de um único documento.
- Em uma linha de comando, execute o arquivo generate_tasks.kv.pv contido nos scripts do utilitário baixados na etapa 6 da tarefa anterior.
2.2 Configurar Integração OCR para Pré-notificação
Para simplificar o fluxo de trabalho de anotação e minimizar o esforço manual, a pré-anotação interativa pode ser ativada no Label Studio. Esta configuração fornece a geração automática de caixas delimitadoras usando o serviço OCR. O OCI OCR é integrado como backend de ML para gerar caixas delimitadoras em imagens para anotação de valor-chave. Clone o seguinte repositório e instale as dependências necessárias:
Para obter mais informações, consulte Escrever seu próprio backend de ML na documentação do Label Studio.
2.3 Criação e Configuração de Projetos
2.4 Anotação do Conjunto de Dados no Label Studio
3. Workflow de Rotulagem para Classificação de Documento Personalizado
O Label Studio não oferece suporte nativo a anotações em PDF para obter mais informações. Consulte Ferramentas Fundamentais para Criação de Label em PDF na documentação do Label Studio.
Existe uma solução para Rotulagem Multimagem Paginada.
Siga estas etapas para rotular PDFs:
3.1 Gerar lista de tarefas
Se os documentos de treinamento estiverem em formato PDF, você precisará convertê-los em imagens primeiro. A função pdf_to_images executa essa conversão e salva as imagens em uma pasta output_images (Images_input_root), que é criada na raiz do diretório de entrada fornecido. Para cada PDF, uma pasta separada (nomeada após o arquivo PDF) é criada dentro do diretório output_images para armazenar as imagens correspondentes.
- Para anotação do Label Studio, você precisa gerar uma lista de tarefas. Cada tarefa corresponde à anotação de um único documento.
- Em uma linha de comando, execute o arquivo generate_tasks_dc.pv contido nos scripts do utilitário baixados na etapa 6 da tarefa anterior.