Data set del modello personalizzato
Rivedere i set di dati supportati per i modelli personalizzati e come convertire i set di dati in un formato supportato.
Set di dati consentiti per classificazione testo personalizzata
È possibile fornire dati con etichetta per modelli di classificazione testo personalizzati in due modi:
- Progetti di etichettatura dei dati
- File di valori delimitati da virgole (
.csv
)
- Requisiti file CSV
-
-
La prima riga deve essere un'intestazione contenente i seguenti nomi a due colonne:
-
text
: acquisisce il testo da classificare. -
labels
: acquisisce una o più classi assegnate. Per i set di dati di classificazione con più etichette, è possibile specificare più nomi di classe unendoli con il simbolo|
.
-
- Tutte le righe successive alla riga intestazione contengono record di addestramento.
- Se il file contiene più di due colonne, per addestrare il modello vengono utilizzate solo le colonne
text
elabels
. -
Per la codifica dei file CSV, utilizzare UTF-8. Quando si utilizza Excel, salvare il file come CSV UTF-8 (delimitato da virgole) (.csv).
- Per il delimitatore, utilizzare la virgola (
,
). - Per il carattere di escape, utilizzare le virgolette (
"
), note anche con il carattere Unicode diU+0022
.Ad esempio, in Excel, se si digita il testo seguente:
This is a "double quote" sentence
La frase precedente viene memorizzata nel CSV come segue:
"This is a ""double quote"" sentence"
File CSV di esempio per classificazione testo a etichetta singola:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device Failure
File CSV di esempio per classificazione testo con più etichette:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue
-
Formati data set consentiti per NER personalizzato
È possibile fornire i dati con etichetta per i modelli NER personalizzati in due modi:
- Progetti di etichettatura dei dati
- Formato righe JSON (
.jsonl
).
- Requisiti file JSON
-
Il file JSON non include i dati di formazione. Invece, il file JSON è un file manifesto che contiene etichette e puntatori (percorsi relativi) a file con dati non etichettati.
Il formato JSON è un formato JSON Lines (JSONL), in cui ogni riga è un singolo oggetto JSON:
- La prima riga dell'oggetto descrive il set di etichette o classi e il tipo di file di annotazione.
- Tutte le righe successive descrivono un record di formazione.
-
Salvare tutti i file di testo nella stessa directory del file manifesto
(.jsonl)
e assegnare ai record di addestramento il nome dei file.
- Definizione schema
-
- La prima riga è una riga di intestazione. Contiene un oggetto JSON che descrive il tipo di file.
- Qualsiasi riga successiva contiene un oggetto JSON che rappresenta un record con etichetta.
- Formato riga intestazione
-
Campo Tipo Descrizione labelsSet
Array di oggetti. Oggetto con un membro stringa,
"name"
, che indica il set di entità supportate per l'annotazione. Elenca tutte le entità qui.annotationFormat
Stringa Utilizzare "ENTITY_EXTRACTION"
per i set di dati NER.datasetFormatDetails
Object Oggetto con un membro stringa, "formatType"
, che indica il tipo di dati da annotare. Impostare il valore diformatType
su"TEXT"
per la lingua. - Schema JSON di esempio:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } }
- Formato record con etichetta
-
Campo Digita descrizione; sourceDetails
Object Oggetto con un membro stringa,
path
, che punta al file da annotare.Il percorso del file è relativo alla posizione del file
json
.annotations
Object Oggetto complesso che descrive le annotazioni. entities
Array (Oggetti) Elenco delle entità identificate nel record. entityType
Stringa Tipo di annotazione entità. Per il valore, utilizzare "TEXTSELECTION"
per NER.labels
Array (Oggetti) Ogni oggetto dell'array dispone del membro "label_name"
che rappresenta il tipo di entità identificata.textSpan
Object Oggetto che rappresenta l'intervallo di testo. Contiene due membri numerici obbligatori: "offset"
e"length"
. - Esempio di schema JSON per il formato di record con etichetta:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }
Caricamento dei data set
Carica i data set nei bucket di storage degli oggetti.
In alternativa, è possibile creare set di dati utilizzando il servizio di etichettatura dei dati OCI.
Creazione di un bucket
Se si dispone di un bucket di storage degli oggetti per i data set, saltare questa sezione.
- Aprire il menu di navigazione e fare clic su Memorizzazione. In Storage degli oggetti e storage di archivio fare clic su Bucket.
- In Ambito elenco, nella lista Compartimento, fare clic sul nome del compartimento in cui si desidera creare un bucket. È necessario disporre già dell'autorizzazione per aggiungere risorse di storage degli oggetti a questo compartimento.
- Fare clic su Crea bucket.
- Immettere un nome per il bucket, univoco per l'area.
- Per gli altri campi, fare clic sui collegamenti Ulteriori informazioni, quindi scegliere le opzioni applicabili ai dati.
-
Fare clic su Crea. Per impostazione predefinita, i bucket dispongono di visibilità privata a meno che non si modifichi la loro visibilità dopo averli creati.
È necessario disporre di nomi bucket univoci all'interno di uno spazio di nomi. Mentre lo spazio dei nomi è specifico dell'area, il nome dello spazio dei nomi è lo stesso in tutte le aree. Ad esempio, se alla tenancy viene assegnato un nome di spazio di nomi <your-namespace>
che è il nome dello spazio di nomi in tutte le aree.
È possibile creare un bucket denominato MyBucket nell'area occidentale degli Stati Uniti (Phoenix). Impossibile creare un altro bucket denominato MyBucket nell'area occidentale degli Stati Uniti (Phoenix). È tuttavia possibile creare un bucket denominato MyBucket nel centro della Germania (Francoforte). Poiché il nome dello spazio di nomi è univoco per un tenant, altri utenti possono creare bucket denominati MyBucket nei propri spazi di nomi.
Aggiunta di dati a un bucket
Dopo aver creato un bucket, aggiungere i data set al bucket. Se i data set sono già presenti in un bucket, saltare questa sezione.
I file vengono memorizzati come oggetti nei bucket. Un oggetto è composto dai dati stessi e dai metadati relativi all'oggetto.
- Aprire il menu di navigazione e fare clic su Memorizzazione. In Storage degli oggetti e storage di archivio fare clic su Bucket.
- In Ambito lista, nella lista Compartimento, fare clic sul nome del compartimento che ospita il bucket.
- Fare clic sul nome del bucket in cui si desidera aggiungere i dati.
- Fare clic su Carica.
- Caricare i dati.