Importation des jeux de données
L'importation de jeux de données vous permet de réutiliser des jeux de données dans la même location, ou de fusionner et de remplacer du contenu, sans avoir à créer un jeu de données à partir de zéro.
Note
À partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un jeu de données, dont la taille ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille du jeu de données dépasse ces valeurs, chargez le dossier dans le stockage d'objets. Les formats suivants sont pris en charge :
À partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un jeu de données, dont la taille ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille du jeu de données dépasse ces valeurs, chargez le dossier dans le stockage d'objets. Les formats suivants sont pris en charge :
| Format | Type de jeu de données | Type d'annotation | Structure du dossier | Nombre maximal de fichiers et taille maximale des fichiers |
|---|---|---|---|---|
| JSONL Métadonnées
|
Image |
|
|
|
| JSONL Métadonnées
|
Texte |
|
|
|
| JSONL Métadonnées
|
Document |
|
|
|
| COCO Métadonnées
|
Image | Détection d'objet |
|
|
| On ne vit qu'une fois v5 Métadonnées
|
Image | Détection d'objet |
|
|
| PASCAL VOC Métadonnées
|
Image | Détection d'objet |
|
|
| spaCy | Texte | NER |
|
|
| CoNLL 2003 | Texte | NER |
|
|
Pour plus d'informations sur les types et les tailles de fichier pris en charge, voir Formats de fichier pris en charge.
Exemples de contenu des fichiers de métadonnées
Exemple de contenu de fichier pour chacune des options de fichier de métadonnées.
- Étiquetage de données JSONL consolidé
-
{"id":"<Dataset OCID>", "compartmentId":"<Compartment OCID>", "displayName":"<Dataset Name>", "description":"<Dataset Description>", "labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...], "annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>", "datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"}, "datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"} } {"id":"<Record OCID>", "timeCreated":"<Created datetime>", "sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"}, "annotations":[{"id":"<Annotation OCID>", "timeCreated":"<Created datetime>", "createdBy":"<User OCID>", "entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>", "labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...], "boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}] } ...other record objects - JSONL compact
-
{"labelsSet":[{"name":"<Label Name>"}, {"name":"<Label Name>"},...], "annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION", "datasetFormatDetails":{"formatType":"TEXT"} } {"sourceDetails":{"path":"<Path of text recrod file>"}, "annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}] } ...other record objects - COCO
-
{ "info": { "year": "<Year>", "version": "1", "description": "<Dataset description>", "contributor": "", "url": "<URL>", "date_created": "<Created datetime>" }, "licenses": [ { "id": 1, "url": "", "name": "Unknown" } ], "categories": [ { "id": 0, "name": "animals", "supercategory": "none" }, { "id": 1, "name": "cat", "supercategory": "animals" }, { "id": 2, "name": "dog", "supercategory": "animals" } ], "images": [ { "id": 1, "license": 1, "file_name": "<Record file path>", "height": 500, "width": 400, "date_captured": "<Captured datetime>" }, ... ], "annotations": [ { "id": 1, "image_id": 1, "category_id": 1, "bbox": [84, 44, 282.5, 143], "area": 40397.5, "segmentation": [], "iscrowd": 0 }, ... ] } - On ne vit qu'une fois v5
-
train: ../train/images nc: 4 names: ["Label1", "Label2", "Label3", "Label4", "..."] - PASCAL VOC
-
<annotation> <folder/> <filename>recordFile.jpg</filename> <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path> <source> <database>Unknown</database> </source> <size> <width>3800</width> <height>2534</height> <depth>3</depth> </size> <segmented>0</segmented> <object> <name>LabelName</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <occluded>0</occluded> <bndbox> <xmin>186.94249</xmin> <xmax>1878.6903</xmax> <ymin>330.67606</ymin> <ymax>1396.7037</ymax> </bndbox> </object> <object>....</object> ... </annotation> - spaCy
- Exemple 1 :
[ { "content": "<Text Content>", "entities": [ { "start": 0, "end": 29, "labelName": "<Label Name>" }, { "start": 65, "end": 86, "labelName": "<Label Name>" }, { "start": 80, "end": 104, "labelName": "<Label Name>" }, ... ] }, ... ] - CoNLL 2003
-
-DOCSTART- -X-O This -X- _ B-Label1 is -X- _ I-Label1 sample -X- _ I-Label1 data, -X- _ I-Label1 and -X- _ O new -X- _ O data -X- _ O information -X- _ O new -X- _ B-Label1 sample -X- _ I-Label1 Data -X- _ O ...