Importation des jeux de données

L'importation de jeux de données vous permet de réutiliser des jeux de données dans la même location, ou de fusionner et de remplacer du contenu, sans avoir à créer un jeu de données à partir de zéro.

Note

À partir d'un répertoire local, vous pouvez importer un maximum de 201 fichiers dans un jeu de données, dont la taille ne peut pas dépasser 4,9 Go. Si le nombre de fichiers ou la taille du jeu de données dépasse ces valeurs, chargez le dossier dans le stockage d'objets. Les formats suivants sont pris en charge :
Formats et structures de jeu de données pris en charge
Format Type de jeu de données Type d'annotation Structure du dossier Nombre maximal de fichiers et taille maximale des fichiers
JSONL

Métadonnées

  • JSONL d'étiquetage de données consolidé
  • JSONL compact
Enregistrement
  • JPEG
  • JPG
Image
  • Étiquette unique
  • Étiquettes multiples
  • Détection d'objet
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • Métadonnées : 1 fichier, 15 Mo
JSONL

Métadonnées

  • JSONL d'étiquetage de données consolidé
  • JSONL compact
Enregistrement
  • TXT
Texte
  • Étiquette unique
  • Étiquettes multiples
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • Métadonnées : 1 fichier, 15 Mo
JSONL

Métadonnées

  • JSONL d'étiquetage de données consolidé
  • JSONL compact
Enregistrement
  • PDF
  • TIF
  • TIFF
Document
  • Étiquette unique
  • Étiquettes multiples
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • Métadonnées : 1 fichier, 15 Mo
COCO

Métadonnées

  • JSON
Enregistrement
  • JPEG
  • JPG
Image Détection d'objet
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • Métadonnées : 1 fichier, 9 Mo
On ne vit qu'une fois v5

Métadonnées

  • YAML
  • YML
Enregistrement
  • Image
    • JPEG
    • JPG
    • TIFF
  • Étiquette
    • TXT
Image Détection d'objet
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • Métadonnées : 1 fichier, 5 Mo
PASCAL VOC

Métadonnées

  • XML
Enregistrement
  • JPEG
  • JPG
Image Détection d'objet
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • Métadonnées : 100 fichiers, 5 Mo chacun
spaCy Texte NER
prefix/
└── dataset-file.json
  • JSON : 1 fichier, 210 Mo
CoNLL 2003 Texte NER
prefix/
└── dataset-file.conll
  • CONLL : 1 fichier, 75 MB

Pour plus d'informations sur les types et les tailles de fichier pris en charge, voir Formats de fichier pris en charge.

Exemples de contenu des fichiers de métadonnées

Exemple de contenu de fichier pour chacune des options de fichier de métadonnées.

Étiquetage de données JSONL consolidé
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
JSONL compact
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
On ne vit qu'une fois v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
PASCAL VOC
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
Exemple 1 :
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
Exemple 2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...