Usando Texto em Fala
Saiba como usar o texto para a fala.
Texto para fala (TTS) transforma o texto escrito em palavras faladas, preenchendo a lacuna entre a palavra escrita e a voz falada.
As ferramentas TTS oferecem vários casos de uso valiosos para empresas, aumentando a produtividade e a experiência do usuário:
- Produção de Audiobook
- A tecnologia TTS pode automatizar a conversão de conteúdo escrito em audiolivros, economizando tempo e recursos enquanto atende às preferências de um público mais amplo para conteúdo de áudio.
- Conformidade de acessibilidade
- As empresas podem garantir que seu conteúdo digital seja acessível a indivíduos com deficiência visual usando o TTS para converter texto em palavras faladas, tornando sites e documentos compatíveis com os regulamentos de acessibilidade.
- Sistemas de resposta de voz interativa (IVR)
- O TTS é vital para criar prompts de voz de som natural em sistemas IVR, melhorando o atendimento ao cliente, fornecendo interações automatizadas, mas semelhantes às humanas, como roteamento de chamadas e recuperação de informações.
- Assistentes Virtuais e Chatbots
- A integração do TTS em assistentes virtuais e chatbots permite que as empresas forneçam interações personalizadas e envolventes com os usuários, seja em sites ou por meio de aplicativos de mensagens, aprimorando o envolvimento e o suporte do cliente.
- Demonstrações Aprimoradas de Produtos
- As equipes de vendas podem usar o TTS para criar demonstrações ou tutoriais de produtos aprimorados em áudio. Isso torna mais fácil para os clientes em potencial entender os recursos e benefícios do produto, levando a decisões de compra mais informadas.
Recursos
- API Síncrona: Text to Speech suporta API síncrona por protocolos HTTPS. Você pode enviar entrada de texto e obter áudio como resposta.
- Vários Formatos de Saída: O Text to Speech pode gerar os formatos PCM, MP3, OGG e JSON.
- Vozes Padrão e Natural: Text to Speech oferece vozes masculinas e femininas padrão e naturais (semelhantes a humanos).
- Suporte ao Streaming de Blocos: o serviço Text to Speech suporta a codificação de transferência de blocos pelo protocolo HTTPS. Você pode enviar uma solicitação com texto de entrada e obter saída de áudio em blocos. Isso ajuda a reduzir a latência no lado do cliente.
- Speech Synthesis Markup Language (SSML): você pode enviar o Speech Synthesis Markup Language (SSML) na solicitação Text to Speech para obter mais personalização na resposta de áudio fornecendo detalhes sobre pausas e formatação de áudio para acrônimos, datas, horários e abreviações.
Tags SSML
Etiqueta da raiz SSML. Todo o texto aprimorado por SSML deve ser colocado em um par de tags <speak>
. Vozes naturais e padrão disponíveis.
Por exemplo:
<speak> This is the root tag for SSML. </speak>
Adicionar uma pausa na sua mensagem. Vozes naturais e padrão disponíveis.
Atributo | Valor | Descrição: |
---|---|---|
time |
|
A duração da pausa, em segundos. |
|
A duração da pausa, em milissegundos. | |
strength |
none |
Sem pausa. Use none para remover uma pausa que ocorre normalmente, como após um período. Equivalente a "0ms". |
x-weak |
Tem a mesma força que none , sem pausa. |
|
weak |
Define uma pausa da mesma duração que a pausa após uma vírgula. Equivalente a "150ms". | |
medium |
Tem a mesma força que weak . |
|
strong |
Define uma pausa da mesma duração que a pausa após uma instrução. Equivalente a "400ms". | |
x-strong : |
Define uma pausa da mesma duração que a pausa após um parágrafo. Equivalente a "800ms". |
Exemplo 1:
<speak>
Close your eyes, take a deep breath <break time="1s"/>
and let go of all the stress and worries.
Feel the gentle breeze <break time="1500ms"/> as
it caresses your skin, and listen to the
soothing sounds of nature.
</speak>
Exemplo 2:
<speak>
Let me give you a demonstration of the <break strength="x-strong"/> strong pause.
Now, let's try a <break strength="strong"/> medium pause.
Finally, we have a <break strength="weak"/> weak pause.
</speak>
Para adicionar uma pausa entre linhas ou frases no texto. Mesmo efeito que frase final com ponto ou <break strength="strong"/>
. Vozes naturais e padrão disponíveis.
<speak>
<s>This is the first sentence</s>
<s>This is the second sentence</s>
This is the last sentence.
</speak>
Para adicionar uma pausa no final dos parágrafos em seu texto. Ele fornece uma pausa mais longa do que os falantes nativos geralmente colocam em vírgulas ou no final de uma frase. Vozes naturais e padrão disponíveis.
<speak>
<p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
<p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
Usado para dizer como dizer certos caracteres, palavras e números. Vozes naturais e padrão disponíveis.
Atributo | Valor | Descrição |
---|---|---|
interpret-as |
date |
Interpreta o texto contido como uma data do calendário gregoriano. O formato da data deve ser especificado com o atributo format . O caractere separador de data pode ser barra (/), traço (-) e ponto final (.). Não é permitido espaço em branco dentro de uma string de data. |
time |
Interpreta o texto numérico como duração, em horas, minutos e segundos. O texto deve estar em hour:min ou hour:min:seconds . Opcionalmente, ele pode ser seguido por "A.M." ou "P.M.". Aqui A.M. também pode ser escrito como AM, a.m., ou AM. A definição de detail = "1" instrui o analisador SSML a fornecer a saída de texto no formato de 24 horas e a definição de detail = "2" instrui o analisador SSML a fornecer a saída no formato de 12 horas. |
|
fraction |
Interpreta o texto numérico como uma fração. Funciona para fração comum e mista. | |
digits |
Escreve cada dígito individualmente, Exemplo 1234 como 1-2-3-4. | |
cardinal |
Interpreta o texto numérico como um número cardinal. | |
ordinal |
Interpreta o texto numérico como um número ordinal. O exemplo '1' é interpretado como 1o, '2' como '2o' e assim por diante. | |
spell-out |
Enuncia cada caractere do texto entre a tag say-as . Isso inclui marcas de pontuação, símbolos especiais e espaços também. |
|
unit |
Interpreta um texto numérico como uma medida. O valor deve ser um número ou uma fração seguida de uma unidade sem espaços. |
Exemplo:
<speak>
<p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
For Example:
I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
Usado com o atributo alias
para substituir uma palavra (ou pronúncia) diferente pelo texto selecionado, como acrônimo ou abreviação. Vozes naturais e padrão disponíveis.
Exemplo:
<speak>
My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
Substitui os fonemas de uma palavra específica pelo especificado no atributo ph
. Vozes naturais e padrão disponíveis.
Atributo | Valor | Descrição |
---|---|---|
alphabet |
ipa |
Indica que o Alfabeto Fonético Internacional (IPA) será usado. |
x-sampa |
Indica que o Alfabeto Fonético de Métodos de Avaliação de Fala Estendida (X-SAMPA) será usado. | |
ph |
Especifica os fonemas para pronúncia personalizada |
Exemplo:
<speak>
Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>.
</speak>
Refere-se aos padrões de estresse e entonação em uma linguagem. Apenas vozes padrão estão disponíveis.
Atributo | Valor | Descrição |
---|---|---|
rate |
"X%" |
Controla a velocidade da fala. O valor em porcentagem deve ser menor que 100% e o aumento ou diminuição da taxa é relativo à taxa de fala padrão. X denota aumento (+X%) ou diminuição (-X%) na taxa. |
default |
Taxa de fala padrão | |
x-slow |
Taxa de fala muito lenta. | |
slow |
Taxa de fala lenta. | |
medium |
Taxa de fala média. Taxa de fala padrão. | |
fast |
Taxa de fala rápida. | |
x-fast |
Taxa de fala muito rápida. | |
volume |
"XdB" |
Controla o volume da fala. Com a ajuda desse atributo, você não está designando um volume fixo, mas alterando-o em relação ao volume atual. X pode ser um número positivo ou negativo, dependendo se você deseja aumentar ou diminuir o volume. |
default |
Volume padrão. | |
x-soft |
Volume muito baixo. É aproximadamente 12 dB menor que o padrão. | |
soft |
Baixo volume. É aproximadamente 6 dB menor que o padrão. | |
medium |
Taxa de volume médio. Valor default. | |
loud |
Volume alto. É aproximadamente 6 dB maior que o padrão. | |
x-loud |
Volume muito alto. É aproximadamente 12 dB maior que o padrão. | |
pitch |
default |
Passo padrão. |
x-low |
Passo muito baixo. | |
low |
Passo baixo. | |
medium |
Passo médio Passo padrão. | |
high |
Alto passo. | |
x-high |
Muito alto. |
Exemplo 1:
<speak>
<prosody rate="0%">This is the default speaking rate.</prosody>
<prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody>
<prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>
Exemplo 2:
<speak>
<p>
<s>Hi, this is a normal sentence.</s>
<s>
<prosody volume="+10dB">This is a louder sentence!</prosody>
</s>
<s>
<prosody volume="-8dB">This is a quieter sentence.</prosody>
</s>
</p>
</speak>
Por exemplo: 3:
<speak>
<prosody pitch='default'>This is the default pitch.</prosody>
<prosody pitch='medium'>This is the default pitch.</prosody>
<prosody pitch='x-low'>This is the very low pitch.</prosody>
<prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
Permite usar várias vozes em uma única solicitação SSML. Vozes naturais e padrão disponíveis.
Exemplo:
<speak>
<voice name="Bob">Hello Cindy, how are you doing.</voice>
<voice name="Cindy">Hello Bob, I am good, thank you.</voice>
<voice name="Bob">Hope you enjoyed your stay with us.</voice>
<voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>
Tratamento de Dados
Não, não usamos o texto de entrada que você carrega no serviço TTS, nem os arquivos de áudio gerados resultantes, para qualquer finalidade, exceto fornecer uma renderização de fala do texto de entrada.
Não, não usamos o texto de entrada fornecido para treinar o serviço TTS.
O texto de entrada enviado ao serviço TTS é processado na memória durante a geração do arquivo de áudio. Registramos temporariamente alguns metadados sobre suas solicitações para melhorar o serviço, para fins de cobrança e medição, e combater abusos. Um exemplo de metadados é a hora e o tamanho da solicitação.