Creación de un trabajo de transcripción

Cree y envíe un trabajo para transcribir uno o más archivos multimedia a archivos de texto en el servicio Speech.

Antes de empezar

  • Almacene los archivos multimedia que desea transcribir en un cubo de Object Storage.

  • Para comparar los modelos Whisper y Oracle ASR para la creación de trabajos de transcripción, consulte Comparación de modelos Whisper y Oracle ASR.

Comparación de Modelos de Whisper y Oracle ASR

Comparar el modelo Whisper y el modelo de Oracle ASR para crear trabajos de transcripción.

Además del modelo de voz nativo de Oracle ASR, Speech soporta el modelo Whisper de OpenAI. Whisper está entrenado en un gran corpus de datos multilingües recopilados desde la web, y admite la transcripción de voz a texto basada en archivos para más de 50 idiomas. Este modelo utiliza los mismos puntos finales de servicio e interfaces de API y SDK que el modelo de ASR de Oracle para proporcionarle flexibilidad y compatibilidad. Además, el modelo Whisper utiliza la diarización para etiquetar los altavoces individuales en la grabación.

Utilice la siguiente comparación de los modelos Whisper y Oracle ASR para elegir el modelo correcto al crear un trabajo de transcripción.

Función Modelo de ASR de Oracle Modelo Whisper en OCI Speech
Transcripciones en tiempo real Soportada No soportada
Tamaño de archivo grande Hasta 2 GB Hasta 2 GB
Registro de hora de nivel de Word Soportada Soportada
Formato de Archivo AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM
Soporte multilingüe Alemán, inglés, español, francés, italiano, portugués e hindi Igual que el modelo de ASR de Oracle más otros 50 idiomas*
Diarización Soportada Soportada

* OpenAI Preguntas frecuentes sobre Whisper

  • Para crear un trabajo de transcripción, siga estos pasos:
    1. Abra el menú de navegación y haga clic en Análisis y AI. En Servicios AI, haga clic en Speech.
    2. En el menú de navegación de la izquierda, haga clic en Transcription jobs.
    3. En Ámbito de lista, seleccione el compartimento en el que desea trabajar.
    4. Haga clic en Crear trabajo.
    5. En la página de información básica, introduzca un nombre único (límite de 255 caracteres) para el proyecto. El nombre debe incluir uno o más caracteres alfanuméricos, guiones o guiones bajos en cualquier orden. Si no proporciona un nombre, se genera automáticamente un nombre.

      Por ejemplo:

      AiSpeechTranscriptionJob20220804134759

    6. (Opcional) Introduzca una descripción (límite de 400 caracteres) para el trabajo.
    7. Seleccione el compartimento en el que desea crear el trabajo, si es diferente del que se muestra.
    8. En Entrada, seleccione un cubo de entrada de datos que contenga el archivo de medios que desea transcribir.

      Si el cubo que desea no está en el compartimento seleccionado, cambie el compartimento.

    9. En Salida, seleccione dónde desea almacenar los archivos de salida, ya sea en el cubo de entrada o en un cubo diferente. Para utilizar un cubo diferente, selecciónelo.
    10. (Opcional) Introduzca un prefijo de salida para separar y ordenar los archivos del cubo.

      Por ejemplo, puede introducir call_ctr para los archivos de medios del centro de llamadas.

      También puede crear una carpeta de salida en el cubo mediante una barra inclinada (/). Por ejemplo, MyResults/ almacena todos los archivos transcritos en una carpeta MyResults del cubo.

    11. Seleccione el tipo de modelo del trabajo que está creando.
      Nota

      Consulte Comparación de modelos de Whisper y Oracle ASR para determinar el tipo de modelo que se va a utilizar.
    12. Si ha seleccionado un modelo Whisper en el paso anterior, seleccione el subtipo de modelo. De lo contrario, continúe con el siguiente paso.
    13. Seleccione el idioma del archivo multimedia.

      Puede buscar el idioma adecuado por idioma o por código de idioma (para el modelo de Oracle). El inglés estadounidense es el valor por defecto.

    14. (Opcional) Para incluir los formatos SRT y JSON en la transcripción, seleccione Obtener formato de transcripción SRT.
    15. Si no desea que la transcripción esté puntuada, desactive Activar puntuación.
      Nota

      La opción Activar puntuación está seleccionada para los modelos Whisper y no se puede borrar.
    16. (Opcional) Para identificar los altavoces en el archivo de entrada, seleccione Activar diarización.

      Puede permitir que el servicio Speech detecte automáticamente el número de altavoces únicos en el archivo de entrada o puede introducir un número. El número mínimo de oradores es 2 y el máximo es 16.

      Nota

      El uso de la diarización aumenta la latencia de la tarea de transcripción, por lo que esta opción está desactivada de forma predeterminada.

    17. Para agregar filtros para cambiar la forma en que se genera el archivo de salida, haga clic en Agregar filtro.
      1. Seleccione un tipo de filtro. El valor predeterminado es Profanity.
      2. Seleccione el modo de filtro:

        Por ejemplo, el filtro de palabras malsonantes ofrece estos modos:

        • Máscara: Cualquier blasfemia detectada se enmascara en la transcripción con asteriscos, excepto la primera letra.

        • Eliminar: cualquier blasfemia detectada se sustituye por un asterisco en la transcripción.

        • Etiqueta: Profanity no está enmascarado ni eliminado, sino que está marcado como TYPE: "Profanity" en la transcripción.

    18. (Opcional) Haga clic en Mostrar opciones avanzadas para asignar etiquetas al trabajo. Las etiquetas ayudan a localizar y realizar un seguimiento fácilmente de los recursos seleccionando un espacio de nombres de etiqueta y, a continuación, introduciendo la clave y el valor.

      En Etiquetado se describen las diversas etiquetas que puede utilizar para organizar y encontrar recursos, incluidas las etiquetas de seguimiento de costos.

    19. Haga clic en Siguiente para seleccionar los archivos para el trabajo.
    20. Seleccione las casillas de control de los archivos de medios que desea transcribir o selecciónelas todas seleccionando la casilla de control situada junto a Nombre.
      Nota

      • El tamaño máximo de archivo es 2 GB.

      • La duración del archivo es de un máximo de 4 horas.

    21. Haga clic en Ejecutar para iniciar el trabajo.

      Un trabajo se puede ejecutar en segundos u horas según el tamaño y el número de archivos que seleccione. Mientras se ejecuta, el trabajo se encuentra en un estado en curso que cambia a Correcto o con fallos cuando finaliza. Puede seleccionar un trabajo para ir a su página de detalles.

      • Cada trabajo puede tener hasta 100 tareas.

      • Los trabajos se conservan durante 90 días.

  • Utilice el comando create y los parámetros necesarios para crear un trabajo de transcripción.

    oci speech transcription-job create [OPTIONS]

    Evite introducir información confidencial.

    Para obtener una lista completa de indicadores y opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.

  • Utilice las operaciones CreateTranscriptionJob y ChangeTranscriptionJobCompartment para crear un trabajo.