Etichetta Studio
Utilizzare Label Studio per etichettare i set di dati.
Il servizio Data Labeling di Oracle non è più valido. È necessario eseguire la migrazione di qualsiasi set di dati etichettati in Label Studio, uno strumento di etichettatura open source e supportato dal marketplace. Con l'obsolescenza dell'etichettatura dei dati, questa sezione fornisce dettagli sulla conversione delle esportazioni istantanee dell'etichettatura dei dati nei formati di importazione di Label Studio e di esportazione JSON di Label Studio. È possibile utilizzare questi formati per ulteriori annotazioni in Label Studio o per l'addestramento diretto dei modelli.
Per addestrare i modelli personalizzati, sono necessari i due file riportati di seguito.
- File manifesto
- Questo file contiene metadati sui file di annotazione e in genere ha un'estensione
.jsonl
.
- File record
-
Questo è il data set esportato da Label Studio dopo l'annotazione. Il file ha un'estensione
.json
.-
Per il valore KV personalizzato, il file dei record è in formato JSON-MIN.
-
Per CD personalizzato, il file dei record è in formato JSON standard.
-
1. Impostazione dell'ambiente Label Studio
1.1 Avviare Label Studio
2. Workflow etichettatura per estrazione valore chiave personalizzato
Label Studio non supporta l'annotazione PDF in modo nativo per ulteriori informazioni. Vedere Strumenti fondamentali per l'etichettatura PDF nella documentazione di Label Studio.
Esiste una soluzione alternativa per l'etichettatura con più immagini pagate.
Per assegnare un'etichetta ai PDF, attenersi alla procedura riportata di seguito.
2.1 Genera elenco di task
Se i documenti di formazione sono in formato PDF, dovrai prima convertirli in immagini. La funzione pdf_to_images
esegue questa conversione e salva le immagini in una cartella output_images
(Images_input_root), che viene creata alla radice della directory di input fornita. Per ogni PDF, viene creata una cartella separata (dal nome del file PDF) all'interno della directory output_images
per memorizzare le immagini corrispondenti.
- Per l'annotazione Label Studio, è necessario generare un elenco di task. Ogni task corrisponde all'annotazione di un singolo documento.
- Da una riga di comando, eseguire il file generate_tasks.kv.pv contenuto negli script di utility scaricati nel passo 6 dell'attività precedente.
2.2 Impostazione integrazione OCR per preanntazione
Per semplificare il flusso di lavoro delle annotazioni e ridurre al minimo l'impegno manuale, è possibile abilitare la preanntazione interattiva in Label Studio. Questa impostazione consente la generazione automatica di riquadri mediante il servizio OCR. OCI OCR è integrato come backend ML per generare riquadri nelle immagini per l'annotazione key-value. Duplicare il repository seguente e installare le dipendenze richieste:
Per ulteriori informazioni, vedere Scrivere il backend ML personale nella documentazione di Label Studio.
2.3 Creazione e configurazione di progetti
Annotazione set di dati 2.4 in Label Studio
3. Flusso di lavoro etichettatura per classificazione documento personalizzato
Label Studio non supporta l'annotazione PDF in modo nativo per ulteriori informazioni. Vedere Strumenti fondamentali per l'etichettatura PDF nella documentazione di Label Studio.
Esiste una soluzione alternativa per l'etichettatura con più immagini pagate.
Per etichettare i PDF, attenersi alla procedura seguente:
3.1 Genera elenco di task
Se i documenti di formazione sono in formato PDF, dovrai prima convertirli in immagini. La funzione pdf_to_images
esegue questa conversione e salva le immagini in una cartella output_images
(Images_input_root), che viene creata alla radice della directory di input fornita. Per ogni PDF, viene creata una cartella separata (dal nome del file PDF) all'interno della directory output_images
per memorizzare le immagini corrispondenti.
- Per l'annotazione Label Studio, è necessario generare un elenco di task. Ogni task corrisponde all'annotazione di un singolo documento.
- Da una riga di comando, eseguire il file generate_tasks_dc.pv contenuto negli script delle utility scaricati al passo 6 dell'attività precedente.