Juegos de datos de modelo personalizado
Revise los juegos de datos admitidos para los modelos personalizados y cómo convertir los juegos de datos en un formato admitido.
Integración de Label Studio
El servicio Data Labeling de Oracle está en desuso. Como opción, recomendamos migrar sus conjuntos de datos etiquetados a Label Studio, una herramienta de etiquetado de código abierto y compatible con el mercado.
Siga estos pasos para convertir las exportaciones de instantáneas de Data Labeling en formatos de importación y exportación de JSON raw de Label Studio. Utilice estos formatos para realizar más anotaciones en Label Studio o en el entrenamiento directo del modelo.
Conjuntos de datos permitidos para clasificación de texto personalizado
Puede proporcionar datos con etiquetas para modelos de clasificación de texto personalizados de dos formas:
- Proyectos de etiquetado de datos
- Archivos de valores separados por comas (
.csv)
- Requisitos de archivo CSV
-
-
La primera línea debe ser una cabecera que contenga los siguientes nombres de dos columnas:
text: captura el texto que se va a clasificar.labels: captura una o más clases asignadas. Para los juegos de datos de clasificación de varias etiquetas, se pueden especificar varios nombres de clase uniéndolos con el símbolo|.
- Todas las líneas posteriores a la línea de cabecera contienen registros de formación.
- Si el archivo tiene más de dos columnas, solo se utilizan las columnas
textylabelspara entrenar el modelo. -
Para la codificación del archivo CSV, utilice UTF-8. Cuando utilice Excel, guarde el archivo como CSV UTF-8 (delimitado por comas) (.csv).
- Para el delimitador, utilice una coma (
,). - Para el carácter de escape, utilice comillas dobles (
"), también conocidas con el carácter Unicode deU+0022.Por ejemplo, en Excel, si escribe el siguiente texto:
This is a "double quote" sentenceLa frase anterior se almacena en el CSV de la siguiente manera:
"This is a ""double quote"" sentence"
Archivo CSV de ejemplo para clasificación de texto de etiqueta única:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device FailureEjemplo de archivo CSV para la clasificación de texto de varias etiquetas:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue -
Formatos de conjuntos de datos permitidos para NER personalizado
Puede proporcionar datos con etiquetas para modelos NER personalizados de dos formas:
- Proyectos de Label Studio
- Formato de líneas JSON (
.jsonl).
- Requisitos de archivo JSON
-
El archivo JSON no incluye los datos de entrenamiento. En su lugar, el archivo JSON es un archivo de manifiesto que contiene etiquetas y punteros (rutas relativas) a archivos con datos sin etiquetar.
El formato JSON es un formato de líneas JSON (JSONL), donde cada línea es un único objeto JSON:
- La primera línea del objeto describe el conjunto de etiquetas o clases y el tipo de archivo de anotación.
- Todas las líneas posteriores describen un registro de formación.
-
Guarde todos los archivos de texto en el mismo directorio que el archivo de manifiesto
(.jsonl)y tenga el nombre de los archivos en los registros de formación.
- Definición del Esquema
-
- La primera línea es una línea de cabecera. Contiene un objeto JSON que describe el tipo de archivo.
- Cualquier línea posterior contiene un objeto JSON que representa un registro con etiqueta.
- Formato de línea de cabecera
-
Campo Tipo Descripción labelsSetMatriz de objetos. Objeto con un miembro de cadena,
"name", que indica el juego de entidades soportadas para la anotación. Enumere todas las entidades aquí.annotationFormatCadena Utilice "ENTITY_EXTRACTION"para los juegos de datos NER.datasetFormatDetailsObjeto Objeto con un miembro de cadena, "formatType", que indica el tipo de datos que se van a anotar. Defina el valor deformatTypeen"TEXT"para Language. - Ejemplo de esquema JSON:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } } - Formato de registro con etiqueta
-
Campo Escribir Descripción sourceDetailsObjeto Objeto con un miembro de cadena,
path, que apunta al archivo que se va a anotar.La ruta del archivo es relativa a la ubicación del archivo
json.annotationsObjeto Objeto complejo que describe las anotaciones. entitiesMatriz (objetos) Lista de las entidades identificadas en el registro. entityTypeCadena Tipo de anotación de entidad. Para el valor, utilice "TEXTSELECTION"para NER.labelsMatriz (objetos) Cada objeto de la matriz tiene el miembro, "label_name", que representa el tipo de entidad identificada.textSpanObjeto Objeto que representa el intervalo de texto. Contiene dos miembros numéricos necesarios: "offset"y"length". - Ejemplo de esquema JSON para formato de registro con etiqueta:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }