Import d'ensembles de données

L'import de jeux de données vous permet de réutiliser des jeux de données dans la même location, ou de fusionner et de remplacer du contenu, sans avoir à créer un jeu de données à partir de zéro.

Remarque

A partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un ensemble de données. La taille de l'ensemble de données ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille de l'ensemble de données dépasse ces valeurs, téléchargez le dossier vers Object Storage. Les formats suivants sont pris en charge :
Formats et structures de jeu de données pris en charge
Format Type d'ensemble de données Type d'annotation Structure du fichier Nombre maximal de fichiers et taille de fichier
JSONL

Métadonnées

  • Data Labeling JSONL consolidé
  • JSONL compact
Enregistrement
  • JPEG
  • JPG
Image
  • Libellé unique
  • Multilibellé
  • Détection d'objets
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • Métadonnées : 1 fichier, 15 Mo
JSONL

Métadonnées

  • Data Labeling JSONL consolidé
  • JSONL compact
Enregistrement
  • Texte
Texte
  • Libellé unique
  • Multilibellé
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • Métadonnées : 1 fichier, 15 Mo
JSONL

Métadonnées

  • Data Labeling JSONL consolidé
  • JSONL compact
Enregistrement
  • PDF
  • TIF
  • TIFF
Document
  • Libellé unique
  • Multilibellé
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • Métadonnées : 1 fichier, 15 Mo
COCO

Métadonnées

  • JSON
Enregistrement
  • JPEG
  • JPG
Image Détection d'objets
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • Métadonnées : 1 fichier, 9 Mo
On ne vit qu'une fois v5

Métadonnées

  • YAML
  • YML
Enregistrement
  • Image
    • JPEG
    • JPG
    • TIFF
  • Label
    • Texte
Image Détection d'objets
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • Métadonnées : 1 fichier, 5 Mo
PASCAL VOC

Métadonnées

  • XML
Enregistrement
  • JPEG
  • JPG
Image Détection d'objets
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • Métadonnées : 100 fichiers, 5 Mo chacun
spaCy Texte NER
prefix/
└── dataset-file.json
  • JSON : 1 fichier, 210 Mo
CoNLL 2003 Texte NER
prefix/
└── dataset-file.conll
  • CONLL : 1 fichier, 75 Mo

Pour plus d'informations sur les types et tailles de fichier pris en charge, reportez-vous à Formats de fichier pris en charge.

Contenu des exemples de fichiers de métadonnées

Exemple de contenu de fichier pour chacune des options de fichier de métadonnées.

Data Labeling JSONL consolidé
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
JSONL compact
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
On ne vit qu'une fois v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
PASCAL VOC
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
Exemple 1 :
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
Exemple 2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...