Usando Texto em Fala

Saiba como usar o texto para a fala.

Texto para fala (TTS) transforma o texto escrito em palavras faladas, preenchendo a lacuna entre a palavra escrita e a voz falada.

As ferramentas TTS oferecem vários casos de uso valiosos para empresas, aumentando a produtividade e a experiência do usuário:

Produção de Audiobook
A tecnologia TTS pode automatizar a conversão de conteúdo escrito em audiolivros, economizando tempo e recursos enquanto atende às preferências de um público mais amplo para conteúdo de áudio.
Conformidade de acessibilidade
As empresas podem garantir que seu conteúdo digital seja acessível a indivíduos com deficiência visual usando o TTS para converter texto em palavras faladas, tornando sites e documentos compatíveis com os regulamentos de acessibilidade.
Sistemas de resposta de voz interativa (IVR)
O TTS é vital para criar prompts de voz de som natural em sistemas IVR, melhorando o atendimento ao cliente, fornecendo interações automatizadas, mas semelhantes às humanas, como roteamento de chamadas e recuperação de informações.
Assistentes Virtuais e Chatbots
A integração do TTS em assistentes virtuais e chatbots permite que as empresas forneçam interações personalizadas e envolventes com os usuários, seja em sites ou por meio de aplicativos de mensagens, aprimorando o envolvimento e o suporte do cliente.
Demonstrações Aprimoradas de Produtos
As equipes de vendas podem usar o TTS para criar demonstrações ou tutoriais de produtos aprimorados em áudio. Isso torna mais fácil para os clientes em potencial entender os recursos e benefícios do produto, levando a decisões de compra mais informadas.

Recursos

  • API Síncrona: Text to Speech suporta API síncrona por protocolos HTTPS. Você pode enviar entrada de texto e obter áudio como resposta.
  • Vários Formatos de Saída: O Text to Speech pode gerar os formatos PCM, MP3, OGG e JSON.
  • Vozes Padrão e Natural: Text to Speech oferece vozes masculinas e femininas padrão e naturais (semelhantes a humanos).
  • Suporte ao Streaming de Blocos: o serviço Text to Speech suporta a codificação de transferência de blocos pelo protocolo HTTPS. Você pode enviar uma solicitação com texto de entrada e obter saída de áudio em blocos. Isso ajuda a reduzir a latência no lado do cliente.
  • Speech Synthesis Markup Language (SSML): você pode enviar o Speech Synthesis Markup Language (SSML) na solicitação Text to Speech para obter mais personalização na resposta de áudio fornecendo detalhes sobre pausas e formatação de áudio para acrônimos, datas, horários e abreviações.

Tags SSML

<falar>

Etiqueta da raiz SSML. Todo o texto aprimorado por SSML deve ser colocado em um par de tags <speak>. Vozes naturais e padrão disponíveis.

Por exemplo:

<speak> This is the root tag for SSML. </speak>
<break>

Adicionar uma pausa na sua mensagem. Vozes naturais e padrão disponíveis.

<break> Atributos
Atributo Valor Descrição:
time [number]s A duração da pausa, em segundos.
[number]ms A duração da pausa, em milissegundos.
strength none Sem pausa. Use none para remover uma pausa que ocorre normalmente, como após um período. Equivalente a "0ms".
x-weak Tem a mesma força que none, sem pausa.
weak Define uma pausa da mesma duração que a pausa após uma vírgula. Equivalente a "150ms".
medium Tem a mesma força que weak.
strong Define uma pausa da mesma duração que a pausa após uma instrução. Equivalente a "400ms".
x-strong: Define uma pausa da mesma duração que a pausa após um parágrafo. Equivalente a "800ms".

Exemplo 1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Exemplo 2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>
<s>

Para adicionar uma pausa entre linhas ou frases no texto. Mesmo efeito que frase final com ponto ou <break strength="strong"/>. Vozes naturais e padrão disponíveis.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>
<p>

Para adicionar uma pausa no final dos parágrafos em seu texto. Ele fornece uma pausa mais longa do que os falantes nativos geralmente colocam em vírgulas ou no final de uma frase. Vozes naturais e padrão disponíveis.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
<say-as>

Usado para dizer como dizer certos caracteres, palavras e números. Vozes naturais e padrão disponíveis.

Atributo Valor Descrição
interpret-as date Interpreta o texto contido como uma data do calendário gregoriano. O formato da data deve ser especificado com o atributo format. O caractere separador de data pode ser barra (/), traço (-) e ponto final (.). Não é permitido espaço em branco dentro de uma string de data.
time Interpreta o texto numérico como duração, em horas, minutos e segundos. O texto deve estar em hour:min ou hour:min:seconds . Opcionalmente, ele pode ser seguido por "A.M." ou "P.M.". Aqui A.M. também pode ser escrito como AM, a.m., ou AM. A definição de detail = "1" instrui o analisador SSML a fornecer a saída de texto no formato de 24 horas e a definição de detail = "2" instrui o analisador SSML a fornecer a saída no formato de 12 horas.
fraction Interpreta o texto numérico como uma fração. Funciona para fração comum e mista.
digits Escreve cada dígito individualmente, Exemplo 1234 como 1-2-3-4.
cardinal Interpreta o texto numérico como um número cardinal.
ordinal Interpreta o texto numérico como um número ordinal. O exemplo '1' é interpretado como 1o, '2' como '2o' e assim por diante.
spell-out Enuncia cada caractere do texto entre a tag say-as. Isso inclui marcas de pontuação, símbolos especiais e espaços também.
unit Interpreta um texto numérico como uma medida. O valor deve ser um número ou uma fração seguida de uma unidade sem espaços.

Exemplo:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
<sub>

Usado com o atributo alias para substituir uma palavra (ou pronúncia) diferente pelo texto selecionado, como acrônimo ou abreviação. Vozes naturais e padrão disponíveis.

Exemplo:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
<fonema>

Substitui os fonemas de uma palavra específica pelo especificado no atributo ph. Vozes naturais e padrão disponíveis.

Atributo Valor Descrição
alphabet ipa  Indica que o Alfabeto Fonético Internacional (IPA) será usado.
x-sampa Indica que o Alfabeto Fonético de Métodos de Avaliação de Fala Estendida (X-SAMPA) será usado.
ph Especifica os fonemas para pronúncia personalizada

Exemplo:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>
<prosódia>

Refere-se aos padrões de estresse e entonação em uma linguagem. Apenas vozes padrão estão disponíveis.

Atributo Valor Descrição
rate "X%"

Controla a velocidade da fala. O valor em porcentagem deve ser menor que 100% e o aumento ou diminuição da taxa é relativo à taxa de fala padrão.

X denota aumento (+X%) ou diminuição (-X%) na taxa.

default Taxa de fala padrão
x-slow Taxa de fala muito lenta.
slow Taxa de fala lenta.
medium Taxa de fala média. Taxa de fala padrão.
fast Taxa de fala rápida.
x-fast Taxa de fala muito rápida.
volume "XdB"

Controla o volume da fala. Com a ajuda desse atributo, você não está designando um volume fixo, mas alterando-o em relação ao volume atual.

X pode ser um número positivo ou negativo, dependendo se você deseja aumentar ou diminuir o volume.

default Volume padrão.
x-soft Volume muito baixo. É aproximadamente 12 dB menor que o padrão.
soft Baixo volume. É aproximadamente 6 dB menor que o padrão.
medium Taxa de volume médio. Valor default.
loud Volume alto. É aproximadamente 6 dB maior que o padrão.
x-loud Volume muito alto. É aproximadamente 12 dB maior que o padrão.
pitch default Passo padrão.
x-low Passo muito baixo.
low Passo baixo.
medium Passo médio Passo padrão.
high Alto passo.
x-high Muito alto.

Exemplo 1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Exemplo 2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Por exemplo: 3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
<voz>

Permite usar várias vozes em uma única solicitação SSML. Vozes naturais e padrão disponíveis.

Exemplo:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Tratamento de Dados

A Oracle usa o texto de entrada que eu carrego no serviço TTS ou os arquivos de áudio que o serviço gera, para outros fins?

Não, não usamos o texto de entrada que você carrega no serviço TTS, nem os arquivos de áudio gerados resultantes, para qualquer finalidade, exceto fornecer uma renderização de fala do texto de entrada.

A Oracle usa meu texto de entrada para treinar o serviço TTS?

Não, não usamos o texto de entrada fornecido para treinar o serviço TTS.

O texto de entrada que envio ao serviço TTS, os resultados ou outras informações sobre a solicitação em si são armazenados nos servidores Oracle?

O texto de entrada enviado ao serviço TTS é processado na memória durante a geração do arquivo de áudio. Registramos temporariamente alguns metadados sobre suas solicitações para melhorar o serviço, para fins de cobrança e medição, e combater abusos. Um exemplo de metadados é a hora e o tamanho da solicitação.