Uso de Live Transcribe

Cree y gestione trabajos de transcripción en directo en el servicio Speech.

La función de transcripción en vivo proporciona transcripción en tiempo real, lo que le permite enviar transmisiones de audio y recibir resultados de texto en tiempo real. La transcripción en tiempo real es necesaria para muchos casos de uso en sectores como la atención médica, los centros de llamadas y los medios de comunicación. Por ejemplo, los médicos y el personal de enfermería utilizan dictado médico, lo que requiere capacidades en tiempo real y aumenta la eficiencia laboral. Con el lanzamiento de la transcripción en vivo, puede obtener una transcripción precisa en su aplicación en menos de unos segundos. Puede utilizar la ventana de texto embebido para probar la transcripción en directo o consultar el documento de API para obtener información sobre cómo integrarse mediante programación con el servicio de transcripción en tiempo real de OCI.

Creación de un trabajo de transcripción en directo

Crea y envía un trabajo de transcripción en vivo de Speech para transcribir una transmisión de audio en vivo al texto.

  1. Abra el menú de navegación y haga clic en Análisis y AI. En Servicios AI, haga clic en Hablar.
  2. En el menú de navegación de la izquierda, haga clic en Live transcribe (Transcripción activa).
  3. En Ámbito de lista, seleccione el compartimento en el que desea trabajar.
  4. (Opcional) En la sección Configurar transcripción, para personalizar la transcripción, seleccione valores para una o más de las siguientes opciones:
    • Seleccionar dominio: seleccione el dominio del modelo de voz que se va a utilizar.
    • Seleccionar idioma: seleccione el idioma en el que desea transcribir.
    • Puntuación: configure la puntuación en las transcripciones generadas. Hay tres opciones disponibles: Ninguno para que no haya puntuación (el valor predeterminado), Automático para insertar la puntuación automáticamente y Hablado para insertar la puntuación cuando se hablan verbalmente.
    • Umbral de silencio parcial: introduzca durante cuánto tiempo, en milisegundos, el servicio espera una voz adicional, una vez que deje de detectar la actividad de voz, antes de finalizar el reconocimiento de voz.
    • Umbral de silencio final: introduzca cuántos milisegundos de silencio después de pronunciar una palabra espera el servicio para finalizar la sesión.
    • Estabilidad de resultados parciales: seleccione la cantidad de confianza necesaria para los tokens más recientes antes de devolverlos como parte de un nuevo resultado parcial.
    • Activar personalizaciones: seleccione esta casilla de control para personalizar la sesión.
      • Seleccione la personalización que desea utilizar. Cambie los compartimentos si es necesario.
      • Haga clic en Sustituir entidades. Solo se pueden sustituir personalizaciones que contengan varias listas de entidades
  5. Para iniciar una sesión, haga clic en Iniciar sesión y empiece a hablar.
  6. Para parar una sesión, deje de hablar y, a continuación, haga clic en Parar sesión.
  7. (Opcional) Para ver el archivo JSON, haga clic en Ver JSON.
  8. (Opcional) Para restablecer la sesión, haga clic en Restablecer.