Uso del texto en el habla

Aprende a usar el texto para hablar.

Texto a voz (TTS) transforma el texto escrito en palabras habladas, cerrando la brecha entre la palabra escrita y la voz hablada.

Las herramientas TTS ofrecen varios casos de uso valiosos para las empresas, lo que mejora la productividad y la experiencia del usuario:

Producción de audiolibros
La tecnología TTS puede automatizar la conversión de contenido escrito en audiolibros, ahorrando tiempo y recursos mientras satisface las preferencias de un público más amplio para el contenido de audio.
Conformidad de accesibilidad
Las empresas pueden garantizar que su contenido digital sea accesible para personas con discapacidad visual mediante el uso de TTS para convertir texto en palabras habladas, haciendo que los sitios web y los documentos cumplan con las regulaciones de accesibilidad.
Sistemas interactivos de respuesta por voz (IVR)
TTS es vital para crear mensajes de voz de sonido natural en sistemas IVR que mejoran el servicio al cliente al proporcionar interacciones automatizadas pero similares a las humanas, como el enrutamiento de llamadas y la recuperación de información.
Asistentes virtuales y bots conversacionales
La integración de TTS en asistentes virtuales y chatbots permite a las empresas proporcionar interacciones personalizadas y atractivas con los usuarios, ya sea en sitios web o a través de aplicaciones de mensajería, mejorando la participación y el soporte del cliente.
Demostraciones de productos mejoradas
Los equipos de ventas pueden utilizar TTS para crear demostraciones de productos o tutoriales mejorados con audio. Esto facilita a los clientes potenciales la comprensión de las características y beneficios del producto, lo que lleva a decisiones de compra más informadas.

Funciones

  • API síncrona: el texto a voz soporta API síncronas a través de protocolos HTTPS. Puede enviar entrada de texto y obtener audio como respuesta.
  • Varios formatos de salida: el texto a voz puede generar formatos PCM, MP3, OGG y JSON.
  • Voces estándar y naturales: el texto para hablar ofrece voces estándar y naturales masculinas y femeninas (similares a las humanas).
  • Soporte de transmisión de fragmentos: el servicio de texto a voz soporta la codificación de transferencia de fragmentos a través del protocolo HTTPS. Puede enviar una solicitud con texto de entrada y obtener salida de audio en trozos. Esto ayuda a reducir la latencia en el cliente.
  • Lenguaje de marcado de síntesis de voz (SSML): puede enviar el lenguaje de marcado de síntesis de voz (SSML) en la solicitud de texto a voz para que se pueda personalizar más la respuesta de audio proporcionando detalles sobre pausas y formato de audio para acrónimos, fechas, horas y abreviaturas.
    Nota

    SSML solo se admite para algunos hablantes de inglés (EE. UU.) y no se admite para ningún hablante en ningún otro idioma.
  • Soporte multilingüe: el modelo natural de texto a voz soporta nueve idiomas, incluidos:
    • Inglés (EE.UU.)
    • Inglés (británico)
    • Español (España)
    • Portugués (Brasileño)
    • Francés
    • Italiano
    • Hindi
    • Japonés
    • Chino (mandarín)

Soporte de idiomas y funciones

Códigos de idioma

Idioma Código de Idioma
Inglés-Estados Unidos en-US
Inglés—Gran Bretaña en-GB
Español—España es-ES
Portugués-Brasil pt-BR
Francés-Francés fr-FR
Italiano—Italia it-IT
Hindi-India hi-IN
Japonés—Japón ja-JP
Chino - Mandarín de China cmn-CN
Funciones admitidas en inglés y Estados Unidos

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Brian (Hombre)

Annabelle (Mujer)

Bob (Hombre)

Stacy (mujer)

Phil (Mujer)

Cindy (Mujer)

Brad (hombre)

Richard (Hombre)

Mary (Mujer)

Amanda (Mujer)

Grace (mujer)

Laura (Mujer)

Megan (Mujer)

Olivia (Mujer)

Rachel(Mujer)

Stephanie (Mujer)

Teresa (Mujer)

Victoria (Mujer)

Ashley(Mujer)

Adam (Hombre)

Ethan (masculino)

Henry (Hombre)

Jack(Hombre)

Chris (Hombre)

Mark (masculino)

Paul (Hombre)

Steve (Hombre)

Kevin (Hombre)

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

No

Brian (Hombre)

Annabelle (Mujer)

Bob (Hombre)

Stacy (mujer)

Phil (Mujer)

Cindy (Mujer)

  • MP3
  • PCM
  • OGG
  • JSON
Inglés: Funciones compatibles con Gran Bretaña

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Charlotte (Mujer)

Emily (Mujer)

Sophie (Mujer)

Isla (Mujer)

Oliver (Hombre)

Harry (Hombre)

Theo (hombre)

Arthur (Hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Funciones compatibles español-España

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Carmen (Mujer)

Mateo (hombre)

Lucas (Hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Funciones compatibles con Portugués-Brasil

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Mariana (Mujer)

Felix (Hombre)

Miguel (Hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Funciones admitidas para Francia

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Claire (Mujer)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Funciones admitidas para Italia-Italia

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Giulia (Mujer)

Luca (Hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Hindi: características compatibles con India

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Asha (Mujer)

Priya (Mujer)

Arjun (hombre)

Rahul (hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Japonés: Funciones compatibles con Japón

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Aiko (Mujer)

Hana (Mujer)

Sakura (Mujer)

Yuki (femenino)

Satoshi (hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON
Chino: características compatibles con el mandarín chino

Natural

(TTS_2_NATURAL)

Estándar

(TTS_1_STANDARD)

Transmisión de fragmentos Formatos de Salida
VoiceId(género) ¿Soporte SSML? VoiceId(género) ¿Soporte SSML?

Jia (Mujer)

Ling (Mujer)

Mei (Mujer)

Xiu (Mujer)

Jun (Hombre)

Hao (hombre)

Ming (hombre)

Wang(Hombre)

No admitido

No admitido

No admitido

  • MP3
  • PCM
  • OGG
  • JSON

Etiquetas SSML

Nota

Para obtener una lista de lenguajes de texto a voz y modelos de voz que admiten etiquetas SSML, consulte Soporte de idiomas y funciones.
<hablar>

Etiqueta raíz SSML. Todo el texto mejorado con SSML se debe incluir entre un par de etiquetas <speak>. Voces naturales y estándar disponibles.

Ejemplo:

<speak> This is the root tag for SSML. </speak>
<romper>

Agregue una pausa en el mensaje. Voces naturales y estándar disponibles.

Atributos <break>
Atributo Valor Descripción
time [number]s Duración de la pausa, en segundos.
[number]ms Duración de la pausa, en milisegundos.
strength none Sin pausa. Utilice none para eliminar una pausa que ocurre normalmente, por ejemplo, después de un período. Equivalente a "0ms".
x-weak Tiene la misma solidez que none, sin pausa.
weak Establece una pausa de la misma duración que la pausa después de una coma. Equivalente a "150ms".
medium Tiene la misma solidez que weak.
strong Establece una pausa de la misma duración que la pausa después de una oración. Equivalente a "400ms".
x-strong: Establece una pausa de la misma duración que la pausa después de un párrafo. Equivalente a "800ms".

Ejemplo1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Ejemplo2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>
<s>

Agregar una pausa entre líneas u oraciones en el texto. Igual efecto que la frase final con punto o <break strength="strong"/>. Voces naturales y estándar disponibles.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>
<p>

Para agregar una pausa al final de los párrafos del texto. Proporciona una pausa más larga que la que suelen colocar los hablantes nativos en comas o al final de una oración. Voces naturales y estándar disponibles.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
<say-as>

Usado para decir ciertos caracteres, palabras y números. Voces naturales y estándar disponibles.

Atributo Valor Descripción
interpret-as date Interpreta el texto contenido como una fecha de calendario gregoriano. El formato de la fecha se debe especificar con el atributo format. El carácter separador de fechas puede ser una barra inclinada (/), un guión (-) y un punto (.). No se permiten espacios en blanco dentro de una cadena de fecha.
time Interpreta el texto numérico como duración, en horas, minutos y segundos. El texto debe estar en hour:min o hour:min:seconds. Opcionalmente, puede ser seguido por "A.M." o "P.M.". Aquí A.M. también se puede escribir como AM, A.M., o AM. El valor detail = "1" indica al analizador SSML que proporcione la salida de texto en formato de 24 horas y el valor detail = "2" indica al analizador SSML que proporcione la salida en formato de 12 horas.
fraction Interpreta el texto numérico como una fracción. Funciona tanto para fracción común como mixta.
digits Expresa cada dígito individualmente, el ejemplo 1234 es 1-2-3-4.
cardinal Interpreta el texto numérico como un número cardinal.
ordinal Interpreta el texto numérico como un número ordinal. El ejemplo '1' se interpreta como 1o, '2' como '2o', etc.
spell-out Describe cada carácter del texto incluido entre la etiqueta say-as. Esto incluye signos de puntuación, símbolos especiales y espacios también.
unit Interpreta un texto numérico como una medida. El valor debe ser un número o una fracción seguida de una unidad sin espacios.

Ejemplo:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
<sub>

Se utiliza con el atributo alias para sustituir una palabra (o pronunciación) diferente por el texto seleccionado, como un acrónimo o una abreviatura. Voces naturales y estándar disponibles.

Ejemplo:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
<fonema>

Sustituye los fonemas de una palabra concreta por el especificado en el atributo ph. Voces naturales y estándar disponibles.

Atributo Valor Descripción
alphabet ipa  Indica que se utilizará el alfabeto fonético internacional (IPA).
x-sampa Indica que se usará el alfabeto fonético de métodos extendidos de evaluación del habla (X-SAMPA).
ph Especifica los fonemas para la pronunciación personalizada

Ejemplo:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>
<prosodia>

Referente a los patrones de estrés e entonación en un lenguaje. Solo hay voces estándar disponibles.

Atributo Valor Descripción
rate "X%"

Controla la velocidad del habla. El valor en porcentaje debe ser inferior al 100 % y el aumento o la disminución de la tasa es relativa a la tasa de expresión oral por defecto.

X indica aumento (+X%) o disminución (-X%) en la tasa.

default Ratio de voz por defecto
x-slow Frecuencia de habla muy lenta.
slow Tasa de habla lenta.
medium Velocidad de habla media. Ratio de hablantes por defecto.
fast Velocidad de expresión rápida.
x-fast Velocidad de expresión muy rápida.
volume "XdB"

Controla el volumen del discurso. Con la ayuda de este atributo, no está asignando un volumen fijo, sino que lo está cambiando en relación con el volumen actual.

X puede ser un número positivo o negativo dependiendo de si desea aumentar o disminuir el volumen.

default Volumen por defecto.
x-soft Volumen muy bajo. Es aproximadamente 12 dB inferior al valor por defecto.
soft Bajo volumen. Es aproximadamente 6 dB inferior al valor por defecto.
medium Velocidad de volumen media. Valor por Defecto.
loud Volumen elevado. Es aproximadamente 6 dB más alto que el valor por defecto.
x-loud Volumen muy alto. Es aproximadamente 12 dB más alto que el valor por defecto.
pitch default Paso predeterminado.
x-low Paso muy bajo.
low Paso bajo.
medium Paso medio Paso predeterminado.
high Paso alto.
x-high Paso muy alto.

Ejemplo1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Ejemplo2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Ejemplo3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
<voice>

Permite usar varias voces en una sola solicitud SSML. Voces naturales y estándar disponibles.

Ejemplo:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Manejo de Datos

¿Utiliza Oracle el texto de entrada que cargue en el servicio TTS o los archivos de audio que genera el servicio para otros fines?

No, no utilizamos el texto de entrada que cargue en el servicio TTS, ni los archivos de audio generados resultantes, para ningún propósito, excepto para proporcionarle una representación de voz del texto de entrada.

¿Utiliza Oracle mi texto de entrada para entrenar el servicio TTS?

No, no utilizamos el texto de entrada que proporciona para entrenar el servicio TTS.

¿Se almacenan el texto de entrada que envío al servicio TTS, los resultados u otra información sobre la solicitud en sí en los servidores de Oracle?

El texto de entrada que envía al servicio TTS se procesa en la memoria durante la generación del archivo de audio. Registramos temporalmente algunos metadatos sobre sus solicitudes para mejorar el servicio, para fines de facturación y medición, y para combatir el abuso. Un ejemplo de metadatos es la hora y el tamaño de la solicitud.