Importando Conjuntos de Dados

A importação de conjuntos de dados permite reutilizar conjuntos de dados na mesma tenancy ou mesclar e substituir conteúdo, sem a necessidade de criar um conjunto de dados do zero.

Observação

Em um diretório local, você pode importar no máximo 201 arquivos em um conjunto de dados, e o conjunto de dados não pode ter mais de 4,9 GB de tamanho. Se o número de arquivos ou o tamanho do conjunto de dados exceder esses valores, faça upload da pasta para o Object Storage. São suportados os seguintes formatos:
Formatos e Estruturas de Conjunto de Dados Suportados
Formato Tipo de Conjunto de Dados Tipo de Anotação Estrutura de Arquivos Contagem Máxima de Arquivos e Tamanho de Arquivo
JSONL

Metadados

  • Data Labeling JSONL consolidado
  • JSONL compacto
Gravar
  • JPEG
  • JPG
Imagem
  • Label único
  • Vários labels
  • Detecção de objeto
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadados: 1 arquivo, 15 MB
JSONL

Metadados

  • Data Labeling JSONL consolidado
  • JSONL compacto
Gravar
  • TXT
Texto
  • Label único
  • Vários labels
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • Metadados: 1 arquivo, 15 MB
JSONL

Metadados

  • Data Labeling JSONL consolidado
  • JSONL compacto
Gravar
  • PDF
  • TIF
  • TIFF
Documento
  • Label único
  • Vários labels
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • Metadados: 1 arquivo, 15 MB
COCO

Metadados

  • JSON
Gravar
  • JPEG
  • JPG
Imagem Detecção de objeto
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadados: 1 arquivo, 9 MB
ANO v5

Metadados

  • YAML
  • YML
Gravar
  • Imagem
    • JPEG
    • JPG
    • TIFF
  • Label
    • TXT
Imagem Detecção de objeto
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • Metadados: 1 arquivo, 5 MB
PASCAL VOC

Metadados

  • XML
Gravar
  • JPEG
  • JPG
Imagem Detecção de objeto
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • Metadados: 100 arquivos, 5 MB cada
spaCy Texto NER
prefix/
└── dataset-file.json
  • JSON: 1 arquivo, 210 MB
CoNLL 2003 Texto NER
prefix/
└── dataset-file.conll
  • CONLL: 1 arquivo, 75 MB

Para obter mais informações sobre tipos e tamanhos de arquivo suportados, consulte Formatos de arquivo suportados.

Conteúdo dos Arquivos de Metadados de Amostra

Conteúdo de arquivo de amostra para cada uma das opções de arquivo de metadados.

Rotulagem de Dados JSONL Consolidada
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
JSONL compacto
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
ANO v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
PASCAL VOC
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
Exemplo 1
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
Exemplo 2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...