Jeux de données de modèle personnalisé

Passez en revue les jeux de données pris en charge pour les modèles personnalisés et la façon de convertir les jeux de données dans un format pris en charge.

Intégration de Label Studio

Data Labeling Service d'Oracle est en phase d'abandon. Si vous le souhaitez, nous vous recommandons de migrer vos jeux de données étiquetés vers Label Studio, un outil d'étiquetage open source et pris en charge par Marketplace.

Suivez ces étapes pour convertir les exports de clichés Data Labeling en formats d'import Label Studio et d'export JSON bruts Label Studio. Utilisez ces formats pour une annotation supplémentaire dans Label Studio ou un entraînement direct de modèle.

Jeux de données autorisés pour la classification de texte personnalisée

Vous pouvez fournir des données étiquetées pour les modèles de classification de texte personnalisé de deux manières :

Projets Data Labeling
Fichiers de valeurs séparées par une virgule (.csv)

Exigences relatives aux fichiers CSV

La première ligne doit être un en-tête contenant les noms de deux colonnes suivants :
- text : capture le texte à classer.
- labels : capture des classes affectées. Pour les jeux de données de classification multi-étiquettes, plusieurs noms de classe peuvent être indiqués en les joignant au symbole |.
Toutes les lignes après la ligne d'en-tête contiennent des enregistrements de formation.
Si le fichier comporte plus de deux colonnes, seules les colonnes text et labels sont utilisées pour entraîner le modèle.
Pour l'encodage du fichier CSV, utilisez UTF-8. Lorsque vous utilisez Excel, enregistrez le fichier au format CSV UTF-8 (délimité par des virgules) (.csv).
Pour le délimiteur, utilisez la virgule (,).
Pour le caractère d'échappement, utilisez un guillemet double ("), également connu avec le caractère Unicode de U+0022.
Par exemple, dans Excel, si vous saisissez le texte suivant :
```
This is a "double quote" sentence
```
La phrase précédente est stockée dans le fichier CSV comme suit :
```
"This is a ""double quote"" sentence"
```

Exemple de fichier CSV pour la classification de texte à libellé unique :

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure

Exemple de fichier CSV pour la classification de texte avec plusieurs libellés :

Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Formats de jeu de données autorisés pour NER personnalisé

Vous pouvez fournir des données étiquetées pour les modèles NER personnalisés de deux manières :

Projets Label Studio
Format des lignes JSON (.jsonl).

Exigences relatives aux fichiers JSON

Le fichier JSON n'inclut pas les données d'entraînement. Au lieu de cela, le fichier JSON est un fichier manifeste qui contient des libellés et des pointeurs (chemins relatifs) vers des fichiers avec des données sans étiquette.

Le format JSON est un format de lignes JSON (JSONL), où chaque ligne est un objet JSON unique :

La première ligne de l'objet décrit l'ensemble de libellés ou de classes et le type de fichier d'annotation.
Toutes les lignes suivantes décrivent un enregistrement de formation.
Enregistrez tous les fichiers texte dans le même répertoire que le fichier manifeste (.jsonl) et demandez aux enregistrements d'entraînement de nommer les fichiers.

Définition de schéma

La première ligne est une ligne d'en-tête. Il contient un objet JSON qui décrit le type de fichier.
Toute ligne ultérieure contient un objet JSON qui représente un enregistrement étiqueté.

Format de ligne d'en-tête


Champ	Type	Description
`labelsSet`	Tableau d'objets.	Objet avec un membre de chaîne, `"name"`, qui indique l'ensemble d'entités prises en charge pour l'annotation. Répertoriez toutes les entités ici.
`annotationFormat`	Chaîne (String)	Utilisez `"ENTITY_EXTRACTION"` pour les ensembles de données NER.
`datasetFormatDetails`	Object	Objet avec un membre de chaîne, `"formatType"`, qui indique le type de données annotées. Définissez la valeur de `formatType` sur `"TEXT"` pour Language.

Exemple de schéma JSON :

{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }

Format d'enregistrement étiqueté


Champ	Type	Description
`sourceDetails`	Object	Objet avec un membre de chaîne, `path`, qui pointe vers le fichier en cours d'annotation. Le chemin du fichier est relatif à l'emplacement du fichier `json`.
`annotations`	Object	Objet complexe qui décrit les annotations.
`entities`	Tableau (objets)	Liste des entités identifiées dans l'enregistrement.
`entityType`	Chaîne (String)	Type d'annotation d'entité. Pour la valeur, utilisez `"TEXTSELECTION"` pour NER.
`labels`	Tableau (objets)	Chaque objet du tableau possède le membre `"label_name"` qui représente le type d'entité identifié.
`textSpan`	Object	Objet qui représente l'étendue du texte. Contient deux membres numériques obligatoires : `"offset"` et `"length"`.

Exemple de schéma JSON pour le format d'enregistrement étiqueté :

{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Documentation Oracle Cloud Infrastructure

Jeux de données de modèle personnalisé

Intégration de Label Studio

Jeux de données autorisés pour la classification de texte personnalisée

Formats de jeu de données autorisés pour NER personnalisé