Import d'ensembles de données
L'import de jeux de données vous permet de réutiliser des jeux de données dans la même location, ou de fusionner et de remplacer du contenu, sans avoir à créer un jeu de données à partir de zéro.
Remarque
A partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un ensemble de données. La taille de l'ensemble de données ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille de l'ensemble de données dépasse ces valeurs, téléchargez le dossier vers Object Storage. Les formats suivants sont pris en charge :
A partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un ensemble de données. La taille de l'ensemble de données ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille de l'ensemble de données dépasse ces valeurs, téléchargez le dossier vers Object Storage. Les formats suivants sont pris en charge :
Format | Type d'ensemble de données | Type d'annotation | Structure du fichier | Nombre maximal de fichiers et taille de fichier |
---|---|---|---|---|
JSONL Métadonnées
|
Image |
|
|
|
JSONL Métadonnées
|
Texte |
|
|
|
JSONL Métadonnées
|
Document |
|
|
|
COCO Métadonnées
|
Image | Détection d'objets |
|
|
On ne vit qu'une fois v5 Métadonnées
|
Image | Détection d'objets |
|
|
PASCAL VOC Métadonnées
|
Image | Détection d'objets |
|
|
spaCy | Texte | NER |
|
|
CoNLL 2003 | Texte | NER |
|
|
Pour plus d'informations sur les types et tailles de fichier pris en charge, reportez-vous à Formats de fichier pris en charge.
Contenu des exemples de fichiers de métadonnées
Exemple de contenu de fichier pour chacune des options de fichier de métadonnées.
- Data Labeling JSONL consolidé
-
{"id":"<Dataset OCID>", "compartmentId":"<Compartment OCID>", "displayName":"<Dataset Name>", "description":"<Dataset Description>", "labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...], "annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>", "datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"}, "datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"} } {"id":"<Record OCID>", "timeCreated":"<Created datetime>", "sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"}, "annotations":[{"id":"<Annotation OCID>", "timeCreated":"<Created datetime>", "createdBy":"<User OCID>", "entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>", "labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...], "boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}] } ...other record objects
- JSONL compact
-
{"labelsSet":[{"name":"<Label Name>"}, {"name":"<Label Name>"},...], "annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION", "datasetFormatDetails":{"formatType":"TEXT"} } {"sourceDetails":{"path":"<Path of text recrod file>"}, "annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}] } ...other record objects
- COCO
-
{ "info": { "year": "<Year>", "version": "1", "description": "<Dataset description>", "contributor": "", "url": "<URL>", "date_created": "<Created datetime>" }, "licenses": [ { "id": 1, "url": "", "name": "Unknown" } ], "categories": [ { "id": 0, "name": "animals", "supercategory": "none" }, { "id": 1, "name": "cat", "supercategory": "animals" }, { "id": 2, "name": "dog", "supercategory": "animals" } ], "images": [ { "id": 1, "license": 1, "file_name": "<Record file path>", "height": 500, "width": 400, "date_captured": "<Captured datetime>" }, ... ], "annotations": [ { "id": 1, "image_id": 1, "category_id": 1, "bbox": [84, 44, 282.5, 143], "area": 40397.5, "segmentation": [], "iscrowd": 0 }, ... ] }
- On ne vit qu'une fois v5
-
train: ../train/images nc: 4 names: ["Label1", "Label2", "Label3", "Label4", "..."]
- PASCAL VOC
-
<annotation> <folder/> <filename>recordFile.jpg</filename> <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path> <source> <database>Unknown</database> </source> <size> <width>3800</width> <height>2534</height> <depth>3</depth> </size> <segmented>0</segmented> <object> <name>LabelName</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <occluded>0</occluded> <bndbox> <xmin>186.94249</xmin> <xmax>1878.6903</xmax> <ymin>330.67606</ymin> <ymax>1396.7037</ymax> </bndbox> </object> <object>....</object> ... </annotation>
- spaCy
- Exemple 1 :
[ { "content": "<Text Content>", "entities": [ { "start": 0, "end": 29, "labelName": "<Label Name>" }, { "start": 65, "end": 86, "labelName": "<Label Name>" }, { "start": 80, "end": 104, "labelName": "<Label Name>" }, ... ] }, ... ]
- CoNLL 2003
-
-DOCSTART- -X-O This -X- _ B-Label1 is -X- _ I-Label1 sample -X- _ I-Label1 data, -X- _ I-Label1 and -X- _ O new -X- _ O data -X- _ O information -X- _ O new -X- _ B-Label1 sample -X- _ I-Label1 Data -X- _ O ...