Juegos de datos de modelo personalizado

Revise los juegos de datos admitidos para los modelos personalizados y cómo convertir los juegos de datos en un formato admitido.

Conjuntos de datos permitidos para clasificación de texto personalizado

Puede proporcionar datos con etiquetas para modelos de clasificación de texto personalizados de dos formas:

  • Proyectos de etiquetado de datos
  • Archivos de valores separados por comas (.csv)
Requisitos de archivo CSV
  • La primera línea debe ser una cabecera que contenga los siguientes nombres de dos columnas:
    • text: captura el texto que se va a clasificar.
    • labels: captura una o más clases asignadas. Para los juegos de datos de clasificación de varias etiquetas, se pueden especificar varios nombres de clase uniéndolos con el símbolo |.
  • Todas las líneas posteriores a la línea de cabecera contienen registros de formación.
  • Si el archivo tiene más de dos columnas, solo se utilizan las columnas text y labels para entrenar el modelo.
  • Para la codificación del archivo CSV, utilice UTF-8. Cuando utilice Excel, guarde el archivo como CSV UTF-8 (delimitado por comas) (.csv).

  • Para el delimitador, utilice una coma (,).
  • Para el carácter de escape, utilice comillas dobles ("), también conocidas con el carácter Unicode de U+0022.

    Por ejemplo, en Excel, si escribe el siguiente texto:

    This is a "double quote" sentence

    La frase anterior se almacena en el CSV de la siguiente manera:

    "This is a ""double quote"" sentence"

Archivo CSV de ejemplo para clasificación de texto de etiqueta única:

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure
Ejemplo de archivo CSV para la clasificación de texto de varias etiquetas:
Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Formatos de conjuntos de datos permitidos para NER personalizado

Puede proporcionar datos con etiquetas para modelos NER personalizados de dos formas:

  • Proyectos de etiquetado de datos
  • Formato de líneas JSON (.jsonl).
Requisitos de archivo JSON

El archivo JSON no incluye los datos de entrenamiento. En su lugar, el archivo JSON es un archivo de manifiesto que contiene etiquetas y punteros (rutas relativas) a archivos con datos sin etiquetar.

El formato JSON es un formato de líneas JSON (JSONL), donde cada línea es un único objeto JSON:

  • La primera línea del objeto describe el conjunto de etiquetas o clases y el tipo de archivo de anotación.
  • Todas las líneas posteriores describen un registro de formación.
  • Guarde todos los archivos de texto en el mismo directorio que el archivo de manifiesto (.jsonl) y tenga el nombre de los archivos en los registros de formación.

Definición del Esquema
  1. La primera línea es una línea de cabecera. Contiene un objeto JSON que describe el tipo de archivo.
  2. Cualquier línea posterior contiene un objeto JSON que representa un registro con etiqueta.
Formato de línea de cabecera
Campo Tipo Descripción
labelsSet Matriz de objetos.

Objeto con un miembro de cadena, "name", que indica el juego de entidades soportadas para la anotación. Enumere todas las entidades aquí.

annotationFormat Cadena Utilice "ENTITY_EXTRACTION" para los juegos de datos NER.
datasetFormatDetails Objeto Objeto con un miembro de cadena, "formatType", que indica el tipo de datos que se van a anotar. Defina el valor de formatType en "TEXT" para Language.
Ejemplo de esquema JSON:
{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }
Formato de registro con etiqueta
Campo Escribir Descripción
sourceDetails Objeto

Objeto con un miembro de cadena, path, que apunta al archivo que se va a anotar.

La ruta del archivo es relativa a la ubicación del archivo json.

annotations Objeto Objeto complejo que describe las anotaciones.
entities Matriz (objetos) Lista de las entidades identificadas en el registro.
entityType Cadena Tipo de anotación de entidad. Para el valor, utilice "TEXTSELECTION" para NER.
labels Matriz (objetos) Cada objeto de la matriz tiene el miembro, "label_name", que representa el tipo de entidad identificada.
textSpan Objeto Objeto que representa el intervalo de texto. Contiene dos miembros numéricos necesarios: "offset" y "length".
Ejemplo de esquema JSON para formato de registro con etiqueta:
{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Carga de los juegos de datos

Cargue juegos de datos en cubos de Object Storage.

Nota

También puede crear juegos de datos mediante el servicio OCI Data Labeling.

Creación de un cubo

Si tiene un cubo de Object Storage para juegos de datos, omita esta sección.

  1. Abra el menú de navegación y haga clic en Almacenamiento. En Object Storage & Archive Storage, haga clic en Cubos.
  2. En Ámbito de lista, en la lista Compartimento, haga clic en el nombre del compartimento en el que desea crear el cubo. Ya debe tener permiso para agregar recursos de Object Storage a este compartimento.
  3. Haga clic en Crear cubo.
  4. Introduzca un nombre para el cubo, único para la región.
  5. Para otros campos, haga clic en los enlaces Más información y, a continuación, seleccione las opciones que se aplican a los datos.
  6. Haga clic en Crear. Por defecto, los cubos tienen Visibilidad privada a menos que cambie su visibilidad después de crearlos.

Nota

Debe tener nombres de cubo únicos en un espacio de nombres. Aunque el espacio de nombre es específico de la región, el espacio de nombre en sí es el mismo en todas las regiones. Por ejemplo, si al arrendamiento se le asigna el nombre de espacio de nombre <your-namespace>, que será el nombre de espacio de nombre en todas las regiones.

Puede crear un cubo denominado MyBucket en el oeste de EE. UU. (Phoenix). No puede crear otro cubo denominado MyBucket en el oeste de EE. UU. (Phoenix). Sin embargo, puede crear un cubo denominado MyBucket en el centro de Alemania (Frankfurt). Debido a que el nombre del espacio de nombres es único para un inquilino, otros usuarios pueden crear cubos denominados MyBucket en sus propios espacios de nombres.

Adición de datos a un cubo

Después de crear un cubo, agregue los juegos de datos al cubo. Si los juegos de datos ya están en un cubo, omita esta sección.

Los archivos se almacenan como objetos en cubos. Un objeto está compuesto por los propios datos y los metadatos de un objeto.

  1. Abra el menú de navegación y haga clic en Almacenamiento. En Object Storage & Archive Storage, haga clic en Cubos.
  2. En Ámbito de lista, en la lista Compartimento, haga clic en el nombre del compartimento que aloja el cubo.
  3. Haga clic en el nombre del cubo en el que desea agregar datos.
  4. Haga clic en Cargar.
  5. Cargue los datos.