Importación de juegos de datos

La importación de conjuntos de datos le permite reutilizar conjuntos de datos dentro del mismo arrendamiento, o fusionar y reemplazar contenido, sin necesidad de crear un conjunto de datos desde cero.

Nota

Desde un directorio local, puede importar un máximo de 201 archivos en un juego de datos y el juego de datos no puede tener un tamaño superior a 4,9 GB. Si el número de archivos o el tamaño del juego de datos supera estos valores, cargue la carpeta en Object Storage. Se admiten los siguientes formatos:
Estructuras y formatos de conjuntos de datos admitidos
Formato Tipo de juego de datos Tipo de anotación Estructura de Archivo Recuento Máximo y Tamaño de Archivo
JSONL

Metadatos

  • Data Labeling JSONL consolidado
  • Compacto JSONL
Grabar
  • JPEG
  • JPG
Imagen
  • Etiqueta única
  • Varias etiquetas
  • Detección de objetos
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadatos: 1 archivo, 15 MB
JSONL

Metadatos

  • Data Labeling JSONL consolidado
  • Compacto JSONL
Grabar
  • TXT
Texto
  • Etiqueta única
  • Varias etiquetas
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • Metadatos: 1 archivo, 15 MB
JSONL

Metadatos

  • Data Labeling JSONL consolidado
  • Compacto JSONL
Grabar
  • PDF
  • TIF
  • TIFF
Documento
  • Etiqueta única
  • Varias etiquetas
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • Metadatos: 1 archivo, 15 MB
COCO

Metadatos

  • JSON
Grabar
  • JPEG
  • JPG
Imagen Detección de objetos
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadatos: 1 archivo, 9 MB
Sólo se vive una vez v5

Metadatos

  • YAML
  • YML
Grabar
  • Imagen
    • JPEG
    • JPG
    • TIFF
  • Etiqueta
    • TXT
Imagen Detección de objetos
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • Metadatos: 1 archivo, 5 MB
VOC PASCAL

Metadatos

  • XML
Grabar
  • JPEG
  • JPG
Imagen Detección de objetos
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • Metadatos: 100 archivos, 5 MB cada uno
spaCy Texto NER
prefix/
└── dataset-file.json
  • JSON: 1 archivo, 210 MB
CoNLL 2003 Texto NER
prefix/
└── dataset-file.conll
  • CONLL: 1 archivo, 75 MB

Para obtener más información sobre los tipos y tamaños de archivo admitidos, consulte Supported File Formats.

Contenido de archivos de metadatos de ejemplo

Contenido de archivo de ejemplo para cada una de las opciones de archivo de metadatos.

JSONL de etiquetado de datos consolidado
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
Compacto JSONL
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
Sólo se vive una vez v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
VOC PASCAL
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
Ejemplo1:
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
Ejemplo 2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...