Data set del modello personalizzato
Rivedere i set di dati supportati per i modelli personalizzati e come convertire i set di dati in un formato supportato.
Integrazione di Label Studio
Il servizio Data Labeling di Oracle non è più valido. Come opzione, si consiglia di eseguire la migrazione dei set di dati etichettati in Label Studio, uno strumento di etichettatura open source e supportato dal marketplace.
Attenersi alla procedura riportata di seguito per convertire le esportazioni di snapshot di Data Labeling nei formati di importazione JSON raw di Label Studio e di esportazione di Label Studio. Utilizzare questi formati per ulteriori annotazioni in Label Studio o per l'addestramento diretto dei modelli.
Set di dati consentiti per classificazione testo personalizzata
È possibile fornire dati con etichetta per modelli di classificazione testo personalizzati in due modi:
- Progetti di etichettatura dei dati
- File di valori delimitati da virgole (
.csv)
- Requisiti file CSV
-
-
La prima riga deve essere un'intestazione contenente i seguenti nomi a due colonne:
text: acquisisce il testo da classificare.labels: acquisisce una o più classi assegnate. Per i set di dati di classificazione multietichetta, è possibile specificare diversi nomi di classe unendoli al simbolo|.
- Tutte le righe successive alla riga intestazione contengono record di addestramento.
- Se il file contiene più di due colonne, per addestrare il modello vengono utilizzate solo le colonne
textelabels. -
Per la codifica dei file CSV, utilizzare UTF-8. Quando si utilizza Excel, salvare il file come CSV UTF-8 (delimitato da virgole) (.csv).
- Per il delimitatore, utilizzare la virgola (
,). - Per il carattere di escape, utilizzare le virgolette (
"), note anche con il carattere Unicode diU+0022.Ad esempio, in Excel, se si digita il testo seguente:
This is a "double quote" sentenceLa frase precedente viene memorizzata nel CSV come segue:
"This is a ""double quote"" sentence"
File CSV di esempio per classificazione testo a etichetta singola:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device FailureFile CSV di esempio per classificazione testo con più etichette:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue -
Formati data set consentiti per NER personalizzato
È possibile fornire i dati con etichetta per i modelli NER personalizzati in due modi:
- Progetti di Label Studio
- Formato righe JSON (
.jsonl).
- Requisiti file JSON
-
Il file JSON non include i dati di formazione. Invece, il file JSON è un file manifesto che contiene etichette e puntatori (percorsi relativi) a file con dati non etichettati.
Il formato JSON è un formato JSON Lines (JSONL), in cui ogni riga è un singolo oggetto JSON:
- La prima riga dell'oggetto descrive il set di etichette o classi e il tipo di file di annotazione.
- Tutte le righe successive descrivono un record di addestramento.
-
Salvare tutti i file di testo nella stessa directory del file manifesto
(.jsonl)e assegnare ai record di addestramento il nome dei file.
- Definizione schema
-
- La prima riga è una riga di intestazione. Contiene un oggetto JSON che descrive il tipo di file.
- Qualsiasi riga successiva contiene un oggetto JSON che rappresenta un record con etichetta.
- Formato riga intestazione
-
Campo Tipo Descrizione labelsSetArray di oggetti. Oggetto con un membro stringa,
"name", che indica il set di entità supportate per l'annotazione. Elenca tutte le entità qui.annotationFormatStringa Utilizzare "ENTITY_EXTRACTION"per i set di dati NER.datasetFormatDetailsObject Oggetto con un membro stringa, "formatType", che indica il tipo di dati da annotare. Impostare il valore diformatTypesu"TEXT"per la lingua. - Schema JSON di esempio:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } } - Formato record con etichetta
-
Campo Digita descrizione; sourceDetailsObject Oggetto con un membro stringa,
path, che punta al file da annotare.Il percorso del file è relativo alla posizione del file
json.annotationsObject Oggetto complesso che descrive le annotazioni. entitiesArray (Oggetti) Elenco delle entità identificate nel record. entityTypeStringa Tipo di annotazione entità. Per il valore, utilizzare "TEXTSELECTION"per NER.labelsArray (Oggetti) Ogni oggetto dell'array dispone del membro "label_name"che rappresenta il tipo di entità identificata.textSpanObject Oggetto che rappresenta l'intervallo di testo. Contiene due membri numerici obbligatori: "offset"e"length". - Esempio di schema JSON per il formato di record con etichetta:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }