Datasets werden importiert

Durch das Importieren von Datasets können Sie Datasets innerhalb desselben Mandanten wiederverwenden oder Inhalte zusammenführen und ersetzen, ohne dass ein völlig neues Dataset erstellt werden muss.

Hinweis

Aus einem lokalen Verzeichnis können Sie maximal 201 Dateien in ein Dataset importieren. Das Dataset darf maximal 4,9 GB groß sein. Wenn die Anzahl der Dateien oder die Dataset-Größe diese Werte überschreitet, laden Sie den Ordner in Object Storage hoch. Die folgenden Formate werden unterstützt:
Unterstützte Dataset-Formate und -Strukturen
Format Dataset-Typtyp Annotationstyp Dateistruktur Maximale Dateianzahl und Dateigröße
JSONL

Metadaten

  • Data Labeling - JSONL konsolidiert
  • Kompakter JSONL
Aufzeichnen
  • JPEG
  • JPG
Image
  • Einzellabel
  • Multi-Label
  • Objektsuche
prefix/
├── *.jsonl
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadaten: 1 Datei, 15 MB
JSONL

Metadaten

  • Data Labeling - JSONL konsolidiert
  • Kompakter JSONL
Aufzeichnen
  • TXT
Text
  • Einzellabel
  • Multi-Label
  • NER
prefix/
├── *.jsonl
├── Textfile-1.txt
├── Textfile-2.txt
└── ...
  • Metadaten: 1 Datei, 15 MB
JSONL

Metadaten

  • Data Labeling - JSONL konsolidiert
  • Kompakter JSONL
Aufzeichnen
  • PDF
  • TIF
  • TIFF
Dokument
  • Einzellabel
  • Multi-Label
prefix/
├── *.jsonl
├── document-1.pdf
├── document-2.pdf
└── ...
  • Metadaten: 1 Datei, 15 MB
COCO

Metadaten

  • JSON
Aufzeichnen
  • JPEG
  • JPG
Image Objektsuche
prefix/
├── *.json
├── image-1.jpg
├── image-2.jpg
└── ...
  • Metadaten: 1 Datei, 9 MB
Du lebst nur einmal v5

Metadaten

  • YAML
  • YML
Aufzeichnen
  • Image
    • JPEG
    • JPG
    • TIFF
  • Label
    • TXT
Image Objektsuche
prefix/
├── *.yml
├── train
│   ├── images
│   │   ├── image-1.jpg
│   │   ├── image-2.jpg
│   │   └── ...
│   ├── labels
│   │   ├── image-1.txt
│   │   ├── image-2.txt
│   │   └── ...
  • Metadaten: 1 Datei, 5 MB
PASCAL VOC

Metadaten

  • XML
Aufzeichnen
  • JPEG
  • JPG
Image Objektsuche
prefix/
├── annotation1.xml
├── annotation2.xml
├── annotation3.xml
├── ....
├── image-1.jpg
├── image-2.jpg
├── image-3.jpg
└── ...
  • Metadaten: 100 Dateien, jeweils 5 MB
spaCy Text NER
prefix/
└── dataset-file.json
  • JSON: 1 Datei, 210 MB
CoNLL 2003 Text NER
prefix/
└── dataset-file.conll
  • CONLL: 1 Datei, 75 MB

Weitere Informationen zu unterstützten Dateitypen und -größen finden Sie unter Unterstützte Dateiformate.

Inhalt der Beispielmetadatendateien

Beispieldateiinhalt für jede der Metadatendateioptionen.

Datenlabeling - JSONL konsolidiert
{"id":"<Dataset OCID>",
"compartmentId":"<Compartment OCID>",
"displayName":"<Dataset Name>",
"description":"<Dataset Description>",
"labelsSet":[{"name":"<Label Name>"},{"name":"<Label Name>"},...],
"annotationFormat":"<SINGLE_LABEL/MULTI_LABEL/BOUNDING_BOX/ENTITY_EXTRACTION>",
"datasetSourceDetails":{"namespace":"<Namespace>","bucket":"<Bucket>"},
"datasetFormatDetails":{"formatType":"<IMAGE/TEXT/DOCUMENT>"}
}
 
{"id":"<Record OCID>",
"timeCreated":"<Created datetime>",
"sourceDetails":{"sourceType":"OBJECT_STORAGE","path":"<Path of recrod file>"},
"annotations":[{"id":"<Annotation OCID>",
"timeCreated":"<Created datetime>",
"createdBy":"<User OCID>",
"entities":[{"entityType":"<GENERIC/IMAGEOBJECTSELECTION...>",
"labels":[{"label_name":"<Label Name>"},{"label_name":"<Label Name>"},...],
"boundingPolygon<IN CASE OF BOUNDING_BOX>":{"normalizedVertices":[{"x":"0.1752872","y":"0.18566811"},...]}}]}]
}
 
...other record objects
Kompakter JSONL
{"labelsSet":[{"name":"<Label Name>"},
{"name":"<Label Name>"},...],
"annotationFormat":"SINGLE_LABEL/MULTI_LABEL/ENTITY_EXTRACTION",
"datasetFormatDetails":{"formatType":"TEXT"}
}
 
{"sourceDetails":{"path":"<Path of text recrod file>"},
"annotations":[{"entities":[{"entityType":"GENERIC","labels":[{"label_name":"<Label Name>"},...]}]}]
}
 
...other record objects 
COCO
{
  "info": {
    "year": "<Year>",
    "version": "1",
    "description": "<Dataset description>",
    "contributor": "",
    "url": "<URL>",
    "date_created": "<Created datetime>"
  },
  "licenses": [
    {
      "id": 1,
      "url": "",
      "name": "Unknown"
    }
  ],
  "categories": [
    {
      "id": 0,
      "name": "animals",
      "supercategory": "none"
    },
    {
      "id": 1,
      "name": "cat",
      "supercategory": "animals"
    },
    {
      "id": 2,
      "name": "dog",
      "supercategory": "animals"
    }
  ],
  "images": [
    {
      "id": 1,
      "license": 1,
      "file_name": "<Record file path>",
      "height": 500,
      "width": 400,
      "date_captured": "<Captured datetime>"
    },
    ...
  ],
  "annotations": [
    {
      "id": 1,
      "image_id": 1,
      "category_id": 1,
      "bbox": [84, 44, 282.5, 143],
      "area": 40397.5,
      "segmentation": [],
      "iscrowd": 0
    },
    ...
  ]
}
Du lebst nur einmal v5
train: ../train/images
nc: 4
names: ["Label1", "Label2", "Label3", "Label4", "..."]
PASCAL VOC
<annotation>
    <folder/>
    <filename>recordFile.jpg</filename>
    <path>/n/Namespace/b/Bucket/o/recordFile.jpg</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>
        <width>3800</width>
        <height>2534</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>LabelName</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <occluded>0</occluded>
        <bndbox>
            <xmin>186.94249</xmin>
            <xmax>1878.6903</xmax>
            <ymin>330.67606</ymin>
            <ymax>1396.7037</ymax>
        </bndbox>
    </object>
    <object>....</object>
    ...
</annotation>
spaCy
Beispiel 1:
[
  {
    "content": "<Text Content>",
    "entities": [
       {
        "start": 0,
        "end": 29,
        "labelName": "<Label Name>"
      },
      {
        "start": 65,
        "end": 86,
        "labelName": "<Label Name>"
      },
      {
        "start": 80,
        "end": 104,
        "labelName": "<Label Name>"
      },
      ...
    ]
  },
  ...
]
Beispiel 2
[
  {
    "text": "<Text Content>",
    "entities": [
      [0, 12, "<Label Name>"],
      [78, 91, "<Label Name>"],
      ...
    ]
  },
  ...
]
CoNLL 2003
-DOCSTART- -X-O
This -X- _ B-Label1
is -X- _ I-Label1
sample -X- _ I-Label1
data, -X- _ I-Label1
and -X- _ O
new -X- _ O
data -X- _ O
  
information -X- _ O
new -X- _ B-Label1
sample -X- _ I-Label1
Data -X- _ O
...