Jeux de données de modèles personnalisés
Vérifiez les jeux de données pris en charge pour les modèles personnalisés et comment convertir les jeux de données dans un format pris en charge.
Intégration Label Studio
Le service d'étiquetage de données d'Oracle est en cours d'abandon. À titre d'option, nous vous recommandons de migrer vos jeux de données étiquetés vers Label Studio, un outil d'étiquetage à source ouverte et pris en charge par le marché des applications.
Suivez ces étapes pour convertir les exportations d'instantanés du service d'étiquetage de données en formats d'importation Label Studio et d'exportation JSON bruts Label Studio. Utilisez ces formats pour d'autres annotations dans Label Studio ou pour l'entraînement direct du modèle.
Jeux de données autorisés pour la classification de texte personnalisé
Vous pouvez fournir des données étiquetées pour les modèles de classification de texte personnalisés de deux façons :
- Projets d'étiquetage de données
- Fichiers séparés par des virgules (
.csv)
- Exigences relatives aux fichiers CSV
-
-
La première ligne doit être un en-tête contenant les noms à deux colonnes suivants :
text: capture le texte à classer.labels: Saisit une ou plusieurs classes affectées. Pour les jeux de données de classification avec plusieurs étiquettes, plusieurs noms de classe peuvent être spécifiés en les joignant au symbole|.
- Toutes les lignes qui suivent la ligne d'en-tête contiennent des enregistrements d'entraînement.
- Si le fichier comporte plus de deux colonnes, seules les colonnes
textetlabelssont utilisées pour entraîner le modèle. -
Pour l'encodage du fichier CSV, utilisez UTF-8. Lorsque vous utilisez Excel, enregistrez le fichier au format CSV UTF-8 (délimité par des virgules) (.csv).
- Pour le délimiteur, utilisez une virgule (
,). - Pour le caractère d'échappement, utilisez un guillemet double (
"), également connu avec le caractère Unicode deU+0022.Par exemple, dans Excel, si vous tapez le texte suivant :
This is a "double quote" sentenceLa phrase précédente est stockée dans le fichier CSV comme suit :
"This is a ""double quote"" sentence"
Exemple de fichier CSV pour la classification de texte à étiquette unique :
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device FailureExemple de fichier CSV pour la classification de texte à plusieurs étiquettes :Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue -
Formats de jeu de données autorisés pour le numéro d'identification du contribuable personnalisé
Vous pouvez fournir des données étiquetées pour les modèles NER personnalisés de deux façons :
- Projets Label Studio
- Format de lignes JSON (
.jsonl).
- Exigences relatives aux fichiers JSON
-
Le fichier JSON n'inclut pas les données d'entraînement. Au lieu de cela, le fichier JSON est un fichier manifeste qui contient des étiquettes et des pointeurs (chemins relatifs) vers des fichiers avec des données non étiquetées.
Le format JSON est un format JSON Lines (JSONL), où chaque ligne est un seul objet JSON :
- La première ligne de l'objet décrit l'ensemble d'étiquettes ou de classes et le type de fichier d'annotation.
- Toutes les lignes suivantes décrivent un enregistrement de formation.
-
Enregistrez tous les fichiers texte dans le même répertoire que le fichier manifeste
(.jsonl)et indiquez le nom des fichiers dans les enregistrements d'entraînement.
- Définition de schéma
-
- La première ligne est une ligne d'en-tête. Il contient un objet JSON qui décrit le type de fichier.
- Toute ligne ultérieure contient un objet JSON qui représente un enregistrement étiqueté.
- Format de ligne d'en-tête
-
Champ Type Description labelsSetTableau d'objets. Objet avec un membre de chaîne,
"name", qui indique le jeu d'entités prises en charge pour l'annotation. Listez toutes les entités ici.annotationFormatChaîne Utilisez "ENTITY_EXTRACTION"pour les jeux de données NER.datasetFormatDetailsObjet Objet avec un membre de chaîne, "formatType", qui indique le type de données annotées. Réglez la valeur deformatTypeà"TEXT"pour Langue. - Exemple de schéma JSON :
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } } - Format d'enregistrement étiqueté
-
Champ Type Description sourceDetailsObjet Objet avec un membre de chaîne,
path, qui pointe vers le fichier en cours d'annotation.Le chemin d'accès au fichier est relatif à l'emplacement du fichier
json.annotationsObjet Objet complexe qui décrit les annotations. entitiesTableau (objets) Liste des entités identifiées dans l'enregistrement. entityTypeChaîne Type d'annotation d'entité. Pour la valeur, utilisez "TEXTSELECTION"pour NER.labelsTableau (objets) Chaque objet du tableau contient le membre "label_name"qui représente le type d'entité identifié.textSpanObjet Objet représentant l'étendue du texte. Contient deux membres numériques requis : "offset"et"length". - Exemple de schéma JSON pour le format d'enregistrement étiqueté :
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }