Uso del testo per la sintesi vocale

Scopri come utilizzare il testo per la sintesi vocale.

Text to speech (TTS) trasforma il testo scritto in parole pronunciate, colmando il divario tra la parola scritta e la voce parlata.

Gli strumenti TTS offrono diversi casi d'uso preziosi per le aziende, migliorando la produttività e l'esperienza utente:

Produzione audiolibri
La tecnologia TTS può automatizzare la conversione di contenuti scritti in audiolibri, risparmiando tempo e risorse mentre soddisfa le preferenze di un pubblico più ampio per i contenuti audio.
Conformità accessibilità
Le aziende possono garantire che i loro contenuti digitali siano accessibili a persone con disabilità visive utilizzando il TTS per convertire il testo in parole pronunciate, rendendo i siti Web e i documenti conformi alle normative sull'accessibilità.
Sistemi di risposta vocale interattiva
Il TTS è fondamentale per creare messaggi vocali dal suono naturale nei sistemi IVR che migliorano il servizio clienti fornendo interazioni automatizzate ma simili a quelle umane, come il routing delle chiamate e il recupero delle informazioni.
Assistenti virtuali e chatbot
L'integrazione del TTS in assistenti virtuali e chatbot consente alle aziende di fornire interazioni personalizzate e coinvolgenti con gli utenti, sia sui siti Web che tramite app di messaggistica, migliorando il coinvolgimento e il supporto dei clienti.
Dimostrazioni sui prodotti avanzate
I team di vendita possono utilizzare TTS per creare dimostrazioni o esercitazioni di prodotto ottimizzate per l'audio. Ciò rende più facile per i potenziali clienti comprendere le caratteristiche e i vantaggi del prodotto, portando a decisioni di acquisto più informate.

Capacità

  • API sincrona: Text to Speech supporta API sincrone su protocolli HTTPS. È possibile inviare input di testo e ottenere l'audio come risposta.
  • Più formati di output: Text to Speech può generare formati PCM, MP3, OGG e JSON.
  • Voci standard e naturali: Text to Speech offre voci standard maschili e femminili e voci naturali (simili all'uomo).
  • Supporto streaming chunk: il servizio Text to Speech supporta la codifica del trasferimento chunk sul protocollo HTTPS. È possibile inviare una richiesta con testo di input e ottenere l'output audio in blocchi. Ciò consente di ridurre la latenza sul lato client.
  • Speech Synthesis Markup Language (SSML): è possibile inviare il linguaggio SSML (Speech Synthesis Markup Language) nella richiesta Text to Speech per una maggiore personalizzazione nella risposta audio fornendo dettagli sulle pause e sulla formattazione audio per acronimi, date, ore e abbreviazioni.

Tag SSML

<speziona>

Tag radice SSML. Tutto il testo con SSML deve essere racchiuso in una coppia di tag <speak>. Sono disponibili voci sia naturali che standard.

Ad esempio:

<speak> This is the root tag for SSML. </speak>
<interruzione>

Aggiungere una pausa nel messaggio. Sono disponibili voci sia naturali che standard.

<break> Attributi
Attributo Valore descrizione;
time [number]s La durata della pausa, in secondi.
[number]ms Durata della pausa, in millisecondi.
strength none Nessuna pausa. Utilizzare none per rimuovere una pausa normale, ad esempio dopo un periodo. Equivalente a "0ms".
x-weak Ha la stessa forza di none, nessuna pausa.
weak Imposta una pausa della stessa durata della pausa dopo una virgola. Equivalente a "150ms".
medium Ha la stessa resistenza di weak.
strong Imposta una pausa della stessa durata della pausa dopo una frase. Equivalente a "400ms".
x-strong: Imposta una pausa della stessa durata della pausa dopo un paragrafo. Equivalente a "800ms".

Esempio 1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Esempio 2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>
<s>

Aggiungere una pausa tra righe o frasi nel testo. Stesso effetto della fine della frase con punto o <break strength="strong"/>. Sono disponibili voci sia naturali che standard.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>
<p>

Per aggiungere una pausa alla fine dei paragrafi nel testo. Fornisce una pausa più lunga rispetto ai madrelingua di solito posizionati in virgole o alla fine di una frase. Sono disponibili voci sia naturali che standard.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
<say-as>

Utilizzato per dire come dire determinati caratteri, parole e numeri. Sono disponibili voci sia naturali che standard.

Attributo Valore descrizione;
interpret-as date Interpreta il testo contenuto come data del calendario gregoriano. Il formato della data deve essere specificato con l'attributo format. Il carattere separatore di data può essere una barra (/), un trattino (-) e un punto (.). Non è consentito alcuno spazio vuoto all'interno di una stringa data.
time Interpreta il testo numerico come durata, in ore, minuti e secondi. Il testo deve essere in hour:min o hour:min:seconds . Facoltativamente, può essere seguito da "A.M." o "P.M.". Qui A.M. può anche essere scritto come AM, A.M., o AM. L'impostazione di detail = "1" indica al parser SSML di fornire l'output di testo nel formato a 24 ore e l'impostazione di detail = "2" indica al parser SSML di fornire l'output nel formato a 12 ore.
fraction Interpreta il testo numerico come frazione. Funziona sia per la frazione comune che per la frazione mista.
digits Spell ogni cifra singolarmente, Esempio 1234 come 1-2-3-4.
cardinal Interpreta il testo numerico come numero cardinale.
ordinal Interpreta il testo numerico come numero ordinale. L'esempio '1' viene interpretato come 1st, '2' come '2nd' e così via.
spell-out Legge ogni carattere del testo racchiuso tra il tag say-as. Ciò include anche segni di punteggiatura, simboli speciali e spazi.
unit Interpreta un testo numerico come misura. Il valore deve essere un numero o una frazione seguita da un'unità senza spazi.

Ad esempio:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
<sub>

Utilizzato con l'attributo alias per sostituire una parola (o una pronuncia) diversa per il testo selezionato, ad esempio un acronimo o un'abbreviazione. Sono disponibili voci sia naturali che standard.

Ad esempio:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
<foneme>

Sostituisce i fonemi di una determinata parola con quello specificato nell'attributo ph. Sono disponibili voci sia naturali che standard.

Attributo Valore descrizione;
alphabet ipa  Indica che verrà utilizzato l'alfabeto fonetico internazionale (IPA).
x-sampa Indica che verrà utilizzato l'alfabeto fonetico X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet).
ph Specifica i fonemi per la pronuncia personalizzata

Ad esempio:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>
<prosodia>

Si riferisce ai modelli di stress e intonazione in un linguaggio. Sono disponibili solo voci standard.

Attributo Valore descrizione;
rate "X%"

Controlla la velocità di sintesi vocale. Il valore in percentuale deve essere inferiore al 100 % e l'aumento o la diminuzione del tasso è relativo al tasso di conversazione predefinito.

X indica un aumento (+X%) o una diminuzione (-X%) del tasso.

default Tasso parlante predefinito
x-slow Tasso di conversazione molto lento.
slow Tasso di parlato lento.
medium Tasso medio. Tasso parlante predefinito.
fast Velocità di parola veloce.
x-fast Tasso di conversazione molto veloce.
volume "XdB"

Consente di controllare il volume del discorso. Con l'aiuto di questo attributo, non si assegna un volume fisso, ma lo si modifica rispetto al volume corrente.

X può essere un numero positivo o negativo a seconda che si desideri aumentare o diminuire il volume.

default Volume predefinito.
x-soft Volume molto basso. È di circa 12 dB inferiore al valore predefinito.
soft Volume minimo. È di circa 6 dB inferiore al valore predefinito.
medium Velocità di volume media. Valore predefinito.
loud Volume forte. È circa 6 dB più alto del valore predefinito.
x-loud Volume molto forte. È circa 12 dB più alto del valore predefinito.
pitch default Passo predefinito.
x-low Passo molto basso.
low Passo basso.
medium Passo medio Passo predefinito.
high Passo alto.
x-high Passo molto alto.

Esempio 1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Esempio 2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Esempio 3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
<voce>

Consente di utilizzare più voci in una singola richiesta SSML. Sono disponibili voci sia naturali che standard.

Ad esempio:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Gestione dati

Oracle utilizza il testo di input caricato nel servizio TTS o i file audio generati dal servizio per altri scopi?

No, non utilizziamo il testo di input caricato nel servizio TTS, né i file audio generati risultanti, per scopi diversi da quelli di fornire una rendition vocale del testo di input.

Oracle utilizza il testo di input personale per addestrare il servizio TTS?

No, non utilizziamo il testo di input fornito per addestrare il servizio TTS.

Il testo di input che invio al servizio TTS, i risultati o altre informazioni sulla richiesta stessa vengono memorizzati sui server Oracle?

Il testo di input inviato al servizio TTS viene elaborato in memoria durante la generazione del file audio. Registriamo temporaneamente alcuni metadati sulle tue richieste per migliorare il servizio, per scopi di fatturazione e misurazione e per combattere gli abusi. Un esempio di metadati è l'ora e la dimensione della richiesta.