Jeux de données de modèles personnalisés

Vérifiez les jeux de données pris en charge pour les modèles personnalisés et comment convertir les jeux de données dans un format pris en charge.

Intégration Label Studio

Le service d'étiquetage de données d'Oracle est en cours d'abandon. À titre d'option, nous vous recommandons de migrer vos jeux de données étiquetés vers Label Studio, un outil d'étiquetage à source ouverte et pris en charge par le marché des applications.

Suivez ces étapes pour convertir les exportations d'instantanés du service d'étiquetage de données en formats d'importation Label Studio et d'exportation JSON bruts Label Studio. Utilisez ces formats pour d'autres annotations dans Label Studio ou pour l'entraînement direct du modèle.

Jeux de données autorisés pour la classification de texte personnalisé

Vous pouvez fournir des données étiquetées pour les modèles de classification de texte personnalisés de deux façons :

Projets d'étiquetage de données
Fichiers séparés par des virgules (.csv)

Exigences relatives aux fichiers CSV

La première ligne doit être un en-tête contenant les noms à deux colonnes suivants :
- text : capture le texte à classer.
- labels : Saisit une ou plusieurs classes affectées. Pour les jeux de données de classification avec plusieurs étiquettes, plusieurs noms de classe peuvent être spécifiés en les joignant au symbole |.
Toutes les lignes qui suivent la ligne d'en-tête contiennent des enregistrements d'entraînement.
Si le fichier comporte plus de deux colonnes, seules les colonnes text et labels sont utilisées pour entraîner le modèle.
Pour l'encodage du fichier CSV, utilisez UTF-8. Lorsque vous utilisez Excel, enregistrez le fichier au format CSV UTF-8 (délimité par des virgules) (.csv).
Pour le délimiteur, utilisez une virgule (,).
Pour le caractère d'échappement, utilisez un guillemet double ("), également connu avec le caractère Unicode de U+0022.
Par exemple, dans Excel, si vous tapez le texte suivant :
```
This is a "double quote" sentence
```
La phrase précédente est stockée dans le fichier CSV comme suit :
```
"This is a ""double quote"" sentence"
```

Exemple de fichier CSV pour la classification de texte à étiquette unique :

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure

Exemple de fichier CSV pour la classification de texte à plusieurs étiquettes :

Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Formats de jeu de données autorisés pour le numéro d'identification du contribuable personnalisé

Vous pouvez fournir des données étiquetées pour les modèles NER personnalisés de deux façons :

Projets Label Studio
Format de lignes JSON (.jsonl).

Exigences relatives aux fichiers JSON

Le fichier JSON n'inclut pas les données d'entraînement. Au lieu de cela, le fichier JSON est un fichier manifeste qui contient des étiquettes et des pointeurs (chemins relatifs) vers des fichiers avec des données non étiquetées.

Le format JSON est un format JSON Lines (JSONL), où chaque ligne est un seul objet JSON :

La première ligne de l'objet décrit l'ensemble d'étiquettes ou de classes et le type de fichier d'annotation.
Toutes les lignes suivantes décrivent un enregistrement de formation.
Enregistrez tous les fichiers texte dans le même répertoire que le fichier manifeste (.jsonl) et indiquez le nom des fichiers dans les enregistrements d'entraînement.

Définition de schéma

La première ligne est une ligne d'en-tête. Il contient un objet JSON qui décrit le type de fichier.
Toute ligne ultérieure contient un objet JSON qui représente un enregistrement étiqueté.

Format de ligne d'en-tête


Champ	Type	Description
`labelsSet`	Tableau d'objets.	Objet avec un membre de chaîne, `"name"`, qui indique le jeu d'entités prises en charge pour l'annotation. Listez toutes les entités ici.
`annotationFormat`	Chaîne	Utilisez `"ENTITY_EXTRACTION"` pour les jeux de données NER.
`datasetFormatDetails`	Objet	Objet avec un membre de chaîne, `"formatType"`, qui indique le type de données annotées. Réglez la valeur de `formatType` à `"TEXT"` pour Langue.

Exemple de schéma JSON :

{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }

Format d'enregistrement étiqueté


Champ	Type	Description
`sourceDetails`	Objet	Objet avec un membre de chaîne, `path`, qui pointe vers le fichier en cours d'annotation. Le chemin d'accès au fichier est relatif à l'emplacement du fichier `json`.
`annotations`	Objet	Objet complexe qui décrit les annotations.
`entities`	Tableau (objets)	Liste des entités identifiées dans l'enregistrement.
`entityType`	Chaîne	Type d'annotation d'entité. Pour la valeur, utilisez `"TEXTSELECTION"` pour NER.
`labels`	Tableau (objets)	Chaque objet du tableau contient le membre `"label_name"` qui représente le type d'entité identifié.
`textSpan`	Objet	Objet représentant l'étendue du texte. Contient deux membres numériques requis : `"offset"` et `"length"`.

Exemple de schéma JSON pour le format d'enregistrement étiqueté :

{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Documentation sur Oracle Cloud Infrastructure

Jeux de données de modèles personnalisés

Intégration Label Studio

Jeux de données autorisés pour la classification de texte personnalisé

Formats de jeu de données autorisés pour le numéro d'identification du contribuable personnalisé