Data set del modello personalizzato

Rivedere i set di dati supportati per i modelli personalizzati e come convertire i set di dati in un formato supportato.

Set di dati consentiti per classificazione testo personalizzata

È possibile fornire dati con etichetta per modelli di classificazione testo personalizzati in due modi:

Progetti di etichettatura dei dati
File di valori delimitati da virgole (.csv)

Requisiti file CSV

La prima riga deve essere un'intestazione contenente i seguenti nomi a due colonne:
- text: acquisisce il testo da classificare.
- labels: acquisisce una o più classi assegnate. Per i set di dati di classificazione con più etichette, è possibile specificare più nomi di classe unendoli con il simbolo |.
Tutte le righe successive alla riga intestazione contengono record di addestramento.
Se il file contiene più di due colonne, per addestrare il modello vengono utilizzate solo le colonne text e labels.
Per la codifica dei file CSV, utilizzare UTF-8. Quando si utilizza Excel, salvare il file come CSV UTF-8 (delimitato da virgole) (.csv).
Per il delimitatore, utilizzare la virgola (,).
Per il carattere di escape, utilizzare le virgolette ("), note anche con il carattere Unicode di U+0022.
Ad esempio, in Excel, se si digita il testo seguente:
```
This is a "double quote" sentence
```
La frase precedente viene memorizzata nel CSV come segue:
```
"This is a ""double quote"" sentence"
```

File CSV di esempio per classificazione testo a etichetta singola:

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure

File CSV di esempio per classificazione testo con più etichette:

Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Formati data set consentiti per NER personalizzato

È possibile fornire i dati con etichetta per i modelli NER personalizzati in due modi:

Progetti di etichettatura dei dati
Formato righe JSON (.jsonl).

Requisiti file JSON

Il file JSON non include i dati di formazione. Invece, il file JSON è un file manifesto che contiene etichette e puntatori (percorsi relativi) a file con dati non etichettati.

Il formato JSON è un formato JSON Lines (JSONL), in cui ogni riga è un singolo oggetto JSON:

La prima riga dell'oggetto descrive il set di etichette o classi e il tipo di file di annotazione.
Tutte le righe successive descrivono un record di formazione.
Salvare tutti i file di testo nella stessa directory del file manifesto (.jsonl) e assegnare ai record di addestramento il nome dei file.

Definizione schema

La prima riga è una riga di intestazione. Contiene un oggetto JSON che descrive il tipo di file.
Qualsiasi riga successiva contiene un oggetto JSON che rappresenta un record con etichetta.

Formato riga intestazione


Campo	Tipo	Descrizione
`labelsSet`	Array di oggetti.	Oggetto con un membro stringa, `"name"`, che indica il set di entità supportate per l'annotazione. Elenca tutte le entità qui.
`annotationFormat`	Stringa	Utilizzare `"ENTITY_EXTRACTION"` per i set di dati NER.
`datasetFormatDetails`	Object	Oggetto con un membro stringa, `"formatType"`, che indica il tipo di dati da annotare. Impostare il valore di `formatType` su `"TEXT"` per la lingua.

Schema JSON di esempio:

{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }

Formato record con etichetta


Campo	Digita	descrizione;
`sourceDetails`	Object	Oggetto con un membro stringa, `path`, che punta al file da annotare. Il percorso del file è relativo alla posizione del file `json`.
`annotations`	Object	Oggetto complesso che descrive le annotazioni.
`entities`	Array (Oggetti)	Elenco delle entità identificate nel record.
`entityType`	Stringa	Tipo di annotazione entità. Per il valore, utilizzare `"TEXTSELECTION"` per NER.
`labels`	Array (Oggetti)	Ogni oggetto dell'array dispone del membro `"label_name"` che rappresenta il tipo di entità identificata.
`textSpan`	Object	Oggetto che rappresenta l'intervallo di testo. Contiene due membri numerici obbligatori: `"offset"` e `"length"`.

Esempio di schema JSON per il formato di record con etichetta:

{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Caricamento dei data set

Carica i data set nei bucket di storage degli oggetti.

Nota

In alternativa, è possibile creare set di dati utilizzando il servizio di etichettatura dei dati OCI.

Creazione di un bucket

Se si dispone di un bucket di storage degli oggetti per i data set, saltare questa sezione.

Aprire il menu di navigazione e fare clic su Memorizzazione. In Storage degli oggetti e storage di archivio fare clic su Bucket.
In Ambito elenco, nella lista Compartimento, fare clic sul nome del compartimento in cui si desidera creare un bucket. È necessario disporre già dell'autorizzazione per aggiungere risorse di storage degli oggetti a questo compartimento.
Fare clic su Crea bucket.
Immettere un nome per il bucket, univoco per l'area.
Per gli altri campi, fare clic sui collegamenti Ulteriori informazioni, quindi scegliere le opzioni applicabili ai dati.
Fare clic su Crea. Per impostazione predefinita, i bucket dispongono di visibilità privata a meno che non si modifichi la loro visibilità dopo averli creati.

Nota

È necessario disporre di nomi bucket univoci all'interno di uno spazio di nomi. Mentre lo spazio dei nomi è specifico dell'area, il nome dello spazio dei nomi è lo stesso in tutte le aree. Ad esempio, se alla tenancy viene assegnato un nome di spazio di nomi <your-namespace> che è il nome dello spazio di nomi in tutte le aree.

È possibile creare un bucket denominato MyBucket nell'area occidentale degli Stati Uniti (Phoenix). Impossibile creare un altro bucket denominato MyBucket nell'area occidentale degli Stati Uniti (Phoenix). È tuttavia possibile creare un bucket denominato MyBucket nel centro della Germania (Francoforte). Poiché il nome dello spazio di nomi è univoco per un tenant, altri utenti possono creare bucket denominati MyBucket nei propri spazi di nomi.

Aggiunta di dati a un bucket

Dopo aver creato un bucket, aggiungere i data set al bucket. Se i data set sono già presenti in un bucket, saltare questa sezione.

I file vengono memorizzati come oggetti nei bucket. Un oggetto è composto dai dati stessi e dai metadati relativi all'oggetto.

Aprire il menu di navigazione e fare clic su Memorizzazione. In Storage degli oggetti e storage di archivio fare clic su Bucket.
In Ambito lista, nella lista Compartimento, fare clic sul nome del compartimento che ospita il bucket.
Fare clic sul nome del bucket in cui si desidera aggiungere i dati.
Fare clic su Carica.
Caricare i dati.