Juegos de datos de modelo personalizado

Revise los juegos de datos admitidos para los modelos personalizados y cómo convertir los juegos de datos en un formato admitido.

Integración de Label Studio

El servicio Data Labeling de Oracle está en desuso. Como opción, recomendamos migrar sus conjuntos de datos etiquetados a Label Studio, una herramienta de etiquetado de código abierto y compatible con el mercado.

Siga estos pasos para convertir las exportaciones de instantáneas de Data Labeling en formatos de importación y exportación de JSON raw de Label Studio. Utilice estos formatos para realizar más anotaciones en Label Studio o en el entrenamiento directo del modelo.

Conjuntos de datos permitidos para clasificación de texto personalizado

Puede proporcionar datos con etiquetas para modelos de clasificación de texto personalizados de dos formas:

Proyectos de etiquetado de datos
Archivos de valores separados por comas (.csv)

Requisitos de archivo CSV

La primera línea debe ser una cabecera que contenga los siguientes nombres de dos columnas:
- text: captura el texto que se va a clasificar.
- labels: captura una o más clases asignadas. Para los juegos de datos de clasificación de varias etiquetas, se pueden especificar varios nombres de clase uniéndolos con el símbolo |.
Todas las líneas posteriores a la línea de cabecera contienen registros de formación.
Si el archivo tiene más de dos columnas, solo se utilizan las columnas text y labels para entrenar el modelo.
Para la codificación del archivo CSV, utilice UTF-8. Cuando utilice Excel, guarde el archivo como CSV UTF-8 (delimitado por comas) (.csv).
Para el delimitador, utilice una coma (,).
Para el carácter de escape, utilice comillas dobles ("), también conocidas con el carácter Unicode de U+0022.
Por ejemplo, en Excel, si escribe el siguiente texto:
```
This is a "double quote" sentence
```
La frase anterior se almacena en el CSV de la siguiente manera:
```
"This is a ""double quote"" sentence"
```

Archivo CSV de ejemplo para clasificación de texto de etiqueta única:

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure

Ejemplo de archivo CSV para la clasificación de texto de varias etiquetas:

Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Formatos de conjuntos de datos permitidos para NER personalizado

Puede proporcionar datos con etiquetas para modelos NER personalizados de dos formas:

Proyectos de Label Studio
Formato de líneas JSON (.jsonl).

Requisitos de archivo JSON

El archivo JSON no incluye los datos de entrenamiento. En su lugar, el archivo JSON es un archivo de manifiesto que contiene etiquetas y punteros (rutas relativas) a archivos con datos sin etiquetar.

El formato JSON es un formato de líneas JSON (JSONL), donde cada línea es un único objeto JSON:

La primera línea del objeto describe el conjunto de etiquetas o clases y el tipo de archivo de anotación.
Todas las líneas posteriores describen un registro de formación.
Guarde todos los archivos de texto en el mismo directorio que el archivo de manifiesto (.jsonl) y tenga el nombre de los archivos en los registros de formación.

Definición del Esquema

La primera línea es una línea de cabecera. Contiene un objeto JSON que describe el tipo de archivo.
Cualquier línea posterior contiene un objeto JSON que representa un registro con etiqueta.

Formato de línea de cabecera


Campo	Tipo	Descripción
`labelsSet`	Matriz de objetos.	Objeto con un miembro de cadena, `"name"`, que indica el juego de entidades soportadas para la anotación. Enumere todas las entidades aquí.
`annotationFormat`	Cadena	Utilice `"ENTITY_EXTRACTION"` para los juegos de datos NER.
`datasetFormatDetails`	Objeto	Objeto con un miembro de cadena, `"formatType"`, que indica el tipo de datos que se van a anotar. Defina el valor de `formatType` en `"TEXT"` para Language.

Ejemplo de esquema JSON:

{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }

Formato de registro con etiqueta


Campo	Escribir	Descripción
`sourceDetails`	Objeto	Objeto con un miembro de cadena, `path`, que apunta al archivo que se va a anotar. La ruta del archivo es relativa a la ubicación del archivo `json`.
`annotations`	Objeto	Objeto complejo que describe las anotaciones.
`entities`	Matriz (objetos)	Lista de las entidades identificadas en el registro.
`entityType`	Cadena	Tipo de anotación de entidad. Para el valor, utilice `"TEXTSELECTION"` para NER.
`labels`	Matriz (objetos)	Cada objeto de la matriz tiene el miembro, `"label_name"`, que representa el tipo de entidad identificada.
`textSpan`	Objeto	Objeto que representa el intervalo de texto. Contiene dos miembros numéricos necesarios: `"offset"` y `"length"`.

Ejemplo de esquema JSON para formato de registro con etiqueta:

{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Documentación de Oracle Cloud Infrastructure

Juegos de datos de modelo personalizado

Integración de Label Studio

Conjuntos de datos permitidos para clasificación de texto personalizado

Formatos de conjuntos de datos permitidos para NER personalizado