Creación de un trabajo de transcripción

Cree y envíe un trabajo para transcribir uno o más archivos multimedia a archivos de texto en el servicio Speech.

Antes de empezar

Almacene los archivos multimedia que desea transcribir en un cubo de Object Storage.
Para comparar los modelos Whisper y Oracle ASR para la creación de trabajos de transcripción, consulte Comparación de modelos Whisper y Oracle ASR.

Para crear un trabajo de transcripción, siga estos pasos:
1. Abra el menú de navegación y haga clic en Análisis y AI. En Servicios AI, haga clic en Speech.
2. En el menú de navegación de la izquierda, haga clic en Transcription jobs.
3. En Ámbito de lista, seleccione el compartimento en el que desea trabajar.
4. Haga clic en Crear trabajo.
5. En la página de información básica, introduzca un nombre único (límite de 255 caracteres) para el proyecto. El nombre debe incluir uno o más caracteres alfanuméricos, guiones o guiones bajos en cualquier orden. Si no proporciona un nombre, se genera automáticamente un nombre.
  
  Por ejemplo:
  
  AiSpeechTranscriptionJob20220804134759
6. (Opcional) Introduzca una descripción (límite de 400 caracteres) para el trabajo.
7. Seleccione el compartimento en el que desea crear el trabajo, si es diferente del que se muestra.
8. En Entrada, seleccione un cubo de entrada de datos que contenga el archivo de medios que desea transcribir.
  
  Si el cubo que desea no está en el compartimento seleccionado, cambie el compartimento.
9. En Salida, seleccione dónde desea almacenar los archivos de salida, ya sea en el cubo de entrada o en un cubo diferente. Para utilizar un cubo diferente, selecciónelo.
10. (Opcional) Introduzca un prefijo de salida para separar y ordenar los archivos del cubo.
  
  Por ejemplo, puede introducir call_ctr para los archivos de medios del centro de llamadas.
  
  También puede crear una carpeta de salida en el cubo mediante una barra inclinada (/). Por ejemplo, MyResults/ almacena todos los archivos transcritos en una carpeta MyResults del cubo.
11. Seleccione el tipo de modelo del trabajo que está creando.
  
  Nota
  
  Los tipos de modelo soportados son Oracle, Whisper Medium, Whisper Large V2 (en la solicitud de servicio) y Whisper Large V3 Turbo (nuevo). Consulte Comparing Whisper and Oracle ASR Models para decidir el tipo de modelo que se debe utilizar.
12. Seleccione el idioma del archivo multimedia.
  
  Puede buscar el idioma adecuado por idioma. El inglés (inglés de EE. UU. para ORACLE) es el predeterminado.
  
  Los modelos de susurros admiten la identificación de idioma y se pueden utilizar seleccionando auto como código de idioma en la lista desplegable.
13. (Opcional) Para incluir los formatos SRT y JSON en la transcripción, seleccione Obtener formato de transcripción SRT.
14. Si no desea que la transcripción esté puntuada, desactive Activar puntuación.
  
  Nota
  
  La opción Activar puntuación está seleccionada para los modelos Whisper y no se puede borrar.
15. (Opcional) Para identificar los altavoces en el archivo de entrada, seleccione Activar diarización.
  
  Puede permitir que el servicio Speech detecte automáticamente el número de altavoces únicos en el archivo de entrada o puede introducir un número. El número mínimo de oradores es 2 y el máximo es 16.
  
  Nota
  
  El uso de la diarización aumenta la latencia de la tarea de transcripción, por lo que esta opción está desactivada de forma predeterminada.
16. Para agregar filtros para cambiar la forma en que se genera el archivo de salida, haga clic en Agregar filtro.
  
  Seleccione un tipo de filtro. El valor predeterminado es Profanity.
  
  Seleccione el modo de filtro:
  
  Por ejemplo, el filtro de palabras malsonantes ofrece estos modos:
  
  Máscara: Cualquier blasfemia detectada se enmascara en la transcripción con asteriscos, excepto la primera letra.
  
  Eliminar: cualquier blasfemia detectada se sustituye por un asterisco en la transcripción.
  
  Etiqueta: Profanity no está enmascarado ni eliminado, sino que está marcado como TYPE: "Profanity" en la transcripción.
17. (Opcional) Para agregar más valores, haga clic en Agregar valores adicionales y, a continuación, introduzca una clave y su valor.
  Ejemplo:
  
  Clave: este es el valor de clave, por ejemplo, whisperPrompt.
  Puede agregar tantas claves como sea necesario. Para suprimir una clave, seleccione la X junto al campo Valor.
  Si se selecciona el modelo Whisper, este campo se puede utilizar para transferir un indicador que ayude en la transcripción. La única clave admitida es whisperPrompt. Si se transfieren otras claves, la solicitud falla, ya que se considera una entrada no válida.
  La longitud máxima de la petición de datos de valor es de 4000 caracteres, solo permite caracteres alfanuméricos y puntuación (. , ! ? - : ; ' "), y es específica de Whisper. La validación se realiza en segundo plano y el trabajo falla si la petición de datos supera este límite.
  
  Valor: es un valor de petición de datos y puede ser varias palabras. El campo es un ejemplo para mostrar todo el texto introducido.
  
  Nota
  
  La adición de una petición de datos al modelo de susurro puede producir resultados inesperados a veces.
18. (Opcional) Haga clic en Mostrar opciones avanzadas para asignar etiquetas al trabajo. Las etiquetas ayudan a localizar y realizar un seguimiento fácilmente de los recursos seleccionando un espacio de nombres de etiqueta y, a continuación, introduciendo la clave y el valor.
  
  En Etiquetado se describen las diversas etiquetas que puede utilizar para organizar y encontrar recursos, incluidas las etiquetas de seguimiento de costos.
19. Haga clic en Siguiente para seleccionar los archivos para el trabajo.
20. Seleccione las casillas de control de los archivos de medios que desea transcribir o selecciónelas todas seleccionando la casilla de control situada junto a Nombre.
  
  Nota
  
  El tamaño máximo de archivo es 2 GB.
  
  La duración del archivo es de un máximo de 4 horas.
21. Haga clic en Ejecutar para iniciar el trabajo.
  
  Un trabajo se puede ejecutar en segundos u horas según el tamaño y el número de archivos que seleccione. Mientras se ejecuta, el trabajo se encuentra en un estado en curso que cambia a Correcto o con fallos cuando finaliza. Puede seleccionar un trabajo para ir a su página de detalles.
  
  Cada trabajo puede tener hasta 100 tareas.
  
  Los trabajos se conservan durante 90 días.
Utilice el comando create y los parámetros necesarios para crear un trabajo de transcripción.
```
oci speech transcription-job create [OPTIONS]
```
Evite introducir información confidencial.

Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.
Utilice las operaciones CreateTranscriptionJob y ChangeTranscriptionJobCompartment para crear un trabajo.

Documentación de Oracle Cloud Infrastructure

Creación de un trabajo de transcripción