Jeux de données de modèle personnalisé
Passez en revue les jeux de données pris en charge pour les modèles personnalisés et la façon de convertir les jeux de données dans un format pris en charge.
Intégration de Label Studio
Data Labeling Service d'Oracle est en phase d'abandon. Si vous le souhaitez, nous vous recommandons de migrer vos jeux de données étiquetés vers Label Studio, un outil d'étiquetage open source et pris en charge par Marketplace.
Suivez ces étapes pour convertir les exports de clichés Data Labeling en formats d'import Label Studio et d'export JSON bruts Label Studio. Utilisez ces formats pour une annotation supplémentaire dans Label Studio ou un entraînement direct de modèle.
Jeux de données autorisés pour la classification de texte personnalisée
Vous pouvez fournir des données étiquetées pour les modèles de classification de texte personnalisé de deux manières :
- Projets Data Labeling
- Fichiers de valeurs séparées par une virgule (
.csv)
- Exigences relatives aux fichiers CSV
-
-
La première ligne doit être un en-tête contenant les noms de deux colonnes suivants :
text: capture le texte à classer.labels: capture des classes affectées. Pour les jeux de données de classification multi-étiquettes, plusieurs noms de classe peuvent être indiqués en les joignant au symbole|.
- Toutes les lignes après la ligne d'en-tête contiennent des enregistrements de formation.
- Si le fichier comporte plus de deux colonnes, seules les colonnes
textetlabelssont utilisées pour entraîner le modèle. -
Pour l'encodage du fichier CSV, utilisez UTF-8. Lorsque vous utilisez Excel, enregistrez le fichier au format CSV UTF-8 (délimité par des virgules) (.csv).
- Pour le délimiteur, utilisez la virgule (
,). - Pour le caractère d'échappement, utilisez un guillemet double (
"), également connu avec le caractère Unicode deU+0022.Par exemple, dans Excel, si vous saisissez le texte suivant :
This is a "double quote" sentenceLa phrase précédente est stockée dans le fichier CSV comme suit :
"This is a ""double quote"" sentence"
Exemple de fichier CSV pour la classification de texte à libellé unique :
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device FailureExemple de fichier CSV pour la classification de texte avec plusieurs libellés :Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue -
Formats de jeu de données autorisés pour NER personnalisé
Vous pouvez fournir des données étiquetées pour les modèles NER personnalisés de deux manières :
- Projets Label Studio
- Format des lignes JSON (
.jsonl).
- Exigences relatives aux fichiers JSON
-
Le fichier JSON n'inclut pas les données d'entraînement. Au lieu de cela, le fichier JSON est un fichier manifeste qui contient des libellés et des pointeurs (chemins relatifs) vers des fichiers avec des données sans étiquette.
Le format JSON est un format de lignes JSON (JSONL), où chaque ligne est un objet JSON unique :
- La première ligne de l'objet décrit l'ensemble de libellés ou de classes et le type de fichier d'annotation.
- Toutes les lignes suivantes décrivent un enregistrement de formation.
-
Enregistrez tous les fichiers texte dans le même répertoire que le fichier manifeste
(.jsonl)et demandez aux enregistrements d'entraînement de nommer les fichiers.
- Définition de schéma
-
- La première ligne est une ligne d'en-tête. Il contient un objet JSON qui décrit le type de fichier.
- Toute ligne ultérieure contient un objet JSON qui représente un enregistrement étiqueté.
- Format de ligne d'en-tête
-
Champ Type Description labelsSetTableau d'objets. Objet avec un membre de chaîne,
"name", qui indique l'ensemble d'entités prises en charge pour l'annotation. Répertoriez toutes les entités ici.annotationFormatChaîne (String) Utilisez "ENTITY_EXTRACTION"pour les ensembles de données NER.datasetFormatDetailsObject Objet avec un membre de chaîne, "formatType", qui indique le type de données annotées. Définissez la valeur deformatTypesur"TEXT"pour Language. - Exemple de schéma JSON :
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } } - Format d'enregistrement étiqueté
-
Champ Type Description sourceDetailsObject Objet avec un membre de chaîne,
path, qui pointe vers le fichier en cours d'annotation.Le chemin du fichier est relatif à l'emplacement du fichier
json.annotationsObject Objet complexe qui décrit les annotations. entitiesTableau (objets) Liste des entités identifiées dans l'enregistrement. entityTypeChaîne (String) Type d'annotation d'entité. Pour la valeur, utilisez "TEXTSELECTION"pour NER.labelsTableau (objets) Chaque objet du tableau possède le membre "label_name"qui représente le type d'entité identifié.textSpanObject Objet qui représente l'étendue du texte. Contient deux membres numériques obligatoires : "offset"et"length". - Exemple de schéma JSON pour le format d'enregistrement étiqueté :
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }