Usando Texto em Fala

Saiba como usar o texto para a fala.

Texto para fala (TTS) transforma o texto escrito em palavras faladas, preenchendo a lacuna entre a palavra escrita e a voz falada.

As ferramentas TTS oferecem vários casos de uso valiosos para empresas, aumentando a produtividade e a experiência do usuário:

Produção de Audiobook: A tecnologia TTS pode automatizar a conversão de conteúdo escrito em audiolivros, economizando tempo e recursos enquanto atende às preferências de um público mais amplo para conteúdo de áudio.

Conformidade de acessibilidade: As empresas podem garantir que seu conteúdo digital seja acessível a indivíduos com deficiência visual usando o TTS para converter texto em palavras faladas, tornando sites e documentos compatíveis com os regulamentos de acessibilidade.

Sistemas de resposta de voz interativa (IVR): O TTS é vital para criar prompts de voz de som natural em sistemas IVR, melhorando o atendimento ao cliente, fornecendo interações automatizadas, mas semelhantes às humanas, como roteamento de chamadas e recuperação de informações.

Assistentes Virtuais e Chatbots: A integração do TTS em assistentes virtuais e chatbots permite que as empresas forneçam interações personalizadas e envolventes com os usuários, seja em sites ou por meio de aplicativos de mensagens, aprimorando o envolvimento e o suporte do cliente.

Demonstrações Aprimoradas de Produtos: As equipes de vendas podem usar o TTS para criar demonstrações ou tutoriais de produtos aprimorados em áudio. Isso torna mais fácil para os clientes em potencial entender os recursos e benefícios do produto, levando a decisões de compra mais informadas.

Recursos

API Síncrona: O texto para fala suporta API síncrona por meio de protocolos HTTPS. Você pode enviar entrada de texto e obter áudio como resposta.
Vários Formatos de Saída: O texto para fala pode gerar o formato PCM, MP3, OGG e JSON.
Standard and Natural Voices: Text to speech oferece vozes masculinas e femininas padrão e naturais (semelhantes a humanos).
Suporte ao Streaming de Bloco: O serviço de conversão de texto em fala suporta codificação de transferência de bloco por meio do protocolo HTTPS. Você pode enviar uma solicitação com texto de entrada e obter saída de áudio em partes. Isso ajuda a reduzir a latência no lado do cliente.
Linguagem de Marcação de Síntese de Fala (SSML): você pode enviar a Linguagem de Marcação de Síntese de Fala (SSML) em sua solicitação de Texto para fala para obter mais personalização em sua resposta de áudio, fornecendo detalhes sobre pausas e formatação de áudio para acrônimos, datas, horários e abreviações.
Observação

O SSML só é suportado para alguns falantes de inglês (EUA) e não é suportado para falantes em nenhum outro idioma.
Suporte Multilíngue: O Modelo natural de texto para fala suporta nove idiomas, incluindo:
- Inglês (EUA)
- Inglês (Britânico)
- Espanhol (Espanha)
- Português (Brasil)
- Francês
- Italiano
- Híndi
- Japonês
- Chinês (Mandarim)

Suporte a Idioma e Recursos

Códigos de Idioma


Idioma	Código do idioma
Inglês—Estados Unidos	`en-US`
Inglês—Grã-Bretanha	`en-GB`
Espanhol — Espanha	`es-ES`
Português - Brasil	`pt-BR`
Francês — Francês	`fr-FR`
Italiano — Itália	`it-IT`
Hindi — Índia	`hi-IN`
Japonês — Japão	`ja-JP`
Chinês-China Mandarim	`cmn-CN`

Recursos suportados em inglês — Estados Unidos


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Brian(Masculino) Annabelle(Feminino) Bob(Masculino) Stacy(Feminino) Phil(Feminino) Cindy(Feminino) Brad(Masculino) Richard(Masculino) Mary(Feminino) Amanda(Feminino) Grace(Feminino) Laura(Feminino) Megan(Feminino) Olivia(Feminino) Rachel(Feminino) Stephanie(Feminino) Teresa(Feminino) Victoria(Feminino) Ashley(Feminino) Adam(Masculino) Ethan(Masculino) Henry(Masculino) Jack(Masculino) Chris(Masculino) Marca (Masculino) Paul(Masculino) Steve(Masculino) Kevin(Masculino)	Sim Sim Sim Sim Sim Sim Sim Sim Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não	Brian(Masculino) Annabelle(Feminino) Bob(Masculino) Stacy(Feminino) Phil(Feminino) Cindy(Feminino)	Sim Sim Sim Sim Sim Sim	Sim	`MP3` `PCM` `OGG` `JSON`

Inglês — Grã-Bretanha Recursos suportados


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Charlotte(Feminino) Emily(Feminino) Sophie(Feminino) Isla(Feminino) Oliver(Masculino) Harry(Masculino) Theo (Masculino) Arthur(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Espanhol — Recursos Suportados pela Espanha


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Carmen(Feminino) Mateo(Masculino) Lucas(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Recursos Suportados para Português e Brasil


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Mariana(Feminino) Felix(Masculino) Miguel(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Francês — Recursos Suportados pela França


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Claire(Feminino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Italiano — Recursos suportados pela Itália


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Giulia(Feminino) Luca(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Hindi — Recursos suportados pela Índia


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Asha(Feminino) Priya(Feminino) Arjun(Masculino) Rahul(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Japonês—Japão Recursos Suportados


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Aiko(Feminino) Hana(Feminino) Sakura(Feminino) Yuki(Feminino) Satoshi(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Chinês-China Mandarim Suportado Características


Natural (TTS_2_NATURAL)		Padrão (TTS_1_STANDARD)		Streaming de Partes	Formatos de Saída
VoiceId(Gênero)	Suporte a SSML?	VoiceId(Gênero)	Suporte a SSML?	Streaming de Partes	Formatos de Saída
Jia(Feminino) Ling(Mulher) Mei(Feminino) Xiu(Feminino) Jun(Masculino) Hao(Masculino) Ming(Masculino) Wang(Masculino)	Não Suportado	Não Suportado	Não Suportado	Sim	`MP3` `PCM` `OGG` `JSON`

Tags SSML

Observação

Para obter uma lista de linguagens de texto para fala e modelos de voz que suportam tags SSML, consulte Suporte a Idiomas e Recursos.

<falar>

Etiqueta da raiz SSML. Todo o texto aprimorado por SSML deve ser colocado em um par de tags <speak>. Vozes naturais e padrão disponíveis.

Por exemplo:

<speak> This is the root tag for SSML. </speak>

<break>

Adicionar uma pausa na sua mensagem. Vozes naturais e padrão disponíveis.

`<break>` Atributos
Atributo	Valor	Descrição:
`time`	`[number]s`	A duração da pausa, em segundos.
`time`	`[number]ms`	A duração da pausa, em milissegundos.
`strength`	`none`	Sem pausa. Use `none` para remover uma pausa que ocorre normalmente, como após um período. Equivalente a "0ms".
	`x-weak`	Tem a mesma força que `none`, sem pausa.
	`weak`	Define uma pausa da mesma duração que a pausa após uma vírgula. Equivalente a "150ms".
	`medium`	Tem a mesma força que `weak`.
	`strong`	Define uma pausa da mesma duração que a pausa após uma instrução. Equivalente a "400ms".
	`x-strong`:	Define uma pausa da mesma duração que a pausa após um parágrafo. Equivalente a "800ms".

Exemplo 1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Exemplo 2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>

<s>

Para adicionar uma pausa entre linhas ou frases no texto. Mesmo efeito que frase final com ponto ou <break strength="strong"/>. Vozes naturais e padrão disponíveis.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>

<p>

Para adicionar uma pausa no final dos parágrafos em seu texto. Ele fornece uma pausa mais longa do que os falantes nativos geralmente colocam em vírgulas ou no final de uma frase. Vozes naturais e padrão disponíveis.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>

<say-as>

Usado para dizer como dizer certos caracteres, palavras e números. Vozes naturais e padrão disponíveis.


Atributo	Valor	Descrição
`interpret-as`	`date`	Interpreta o texto contido como uma data do calendário gregoriano. O formato da data deve ser especificado com o atributo `format`. O caractere separador de data pode ser barra (/), traço (-) e ponto final (.). Não é permitido espaço em branco dentro de uma string de data.
	`time`	Interpreta o texto numérico como duração, em horas, minutos e segundos. O texto deve estar em `hour:min` ou `hour:min:seconds` . Opcionalmente, ele pode ser seguido por "A.M." ou "P.M.". Aqui A.M. também pode ser escrito como AM, a.m., ou AM. A definição de `detail` = "1" instrui o analisador SSML a fornecer a saída de texto no formato de 24 horas e a definição de `detail` = "2" instrui o analisador SSML a fornecer a saída no formato de 12 horas.
	`fraction`	Interpreta o texto numérico como uma fração. Funciona para fração comum e mista.
	`digits`	Escreve cada dígito individualmente, Exemplo 1234 como 1-2-3-4.
	`cardinal`	Interpreta o texto numérico como um número cardinal.
	`ordinal`	Interpreta o texto numérico como um número ordinal. O exemplo '1' é interpretado como 1o, '2' como '2o' e assim por diante.
	`spell-out`	Enuncia cada caractere do texto entre a tag `say-as`. Isso inclui marcas de pontuação, símbolos especiais e espaços também.
	`unit`	Interpreta um texto numérico como uma medida. O valor deve ser um número ou uma fração seguida de uma unidade sem espaços.

Exemplo:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>

<sub>

Usado com o atributo alias para substituir uma palavra (ou pronúncia) diferente pelo texto selecionado, como acrônimo ou abreviação. Vozes naturais e padrão disponíveis.

Exemplo:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>

Substitui os fonemas de uma palavra específica pelo especificado no atributo ph. Vozes naturais e padrão disponíveis.


Atributo	Valor	Descrição
`alphabet`	`ipa`	Indica que o Alfabeto Fonético Internacional (IPA) será usado.
`alphabet`	`x-sampa`	Indica que o Alfabeto Fonético de Métodos de Avaliação de Fala Estendida (X-SAMPA) será usado.
`ph`		Especifica os fonemas para pronúncia personalizada

Exemplo:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>

<prosódia>

Refere-se aos padrões de estresse e entonação em uma linguagem. Apenas vozes padrão estão disponíveis.


Atributo	Valor	Descrição
`rate`	`"X%"`	Controla a velocidade da fala. O valor em porcentagem deve ser menor que 100% e o aumento ou diminuição da taxa é relativo à taxa de fala padrão. X denota aumento (+X%) ou diminuição (-X%) na taxa.
	`default`	Taxa de fala padrão
	`x-slow`	Taxa de fala muito lenta.
	`slow`	Taxa de fala lenta.
	`medium`	Taxa de fala média. Taxa de fala padrão.
	`fast`	Taxa de fala rápida.
	`x-fast`	Taxa de fala muito rápida.
`volume`	`"XdB"`	Controla o volume da fala. Com a ajuda desse atributo, você não está designando um volume fixo, mas alterando-o em relação ao volume atual. X pode ser um número positivo ou negativo, dependendo se você deseja aumentar ou diminuir o volume.
	`default`	Volume padrão.
	`x-soft`	Volume muito baixo. É aproximadamente 12 dB menor que o padrão.
	`soft`	Baixo volume. É aproximadamente 6 dB menor que o padrão.
	`medium`	Taxa de volume médio. Valor default.
	`loud`	Volume alto. É aproximadamente 6 dB maior que o padrão.
	`x-loud`	Volume muito alto. É aproximadamente 12 dB maior que o padrão.
`pitch`	`default`	Passo padrão.
	`x-low`	Passo muito baixo.
	`low`	Passo baixo.
	`medium`	Passo médio Passo padrão.
	`high`	Alto passo.
	`x-high`	Muito alto.

Exemplo 1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Exemplo 2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Por exemplo: 3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>

<voz>

Permite usar várias vozes em uma única solicitação SSML. Vozes naturais e padrão disponíveis.

Exemplo:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Tratamento de Dados

A Oracle usa o texto de entrada que eu carrego no serviço TTS ou os arquivos de áudio que o serviço gera, para outros fins?

Não, não usamos o texto de entrada que você carrega no serviço TTS, nem os arquivos de áudio gerados resultantes, para qualquer finalidade, exceto fornecer uma renderização de fala do texto de entrada.

A Oracle usa meu texto de entrada para treinar o serviço TTS?

Não, não usamos o texto de entrada fornecido para treinar o serviço TTS.

O texto de entrada que envio ao serviço TTS, os resultados ou outras informações sobre a solicitação em si são armazenados nos servidores Oracle?

O texto de entrada enviado ao serviço TTS é processado na memória durante a geração do arquivo de áudio. Registramos temporariamente alguns metadados sobre suas solicitações para melhorar o serviço, para fins de cobrança e medição, e combater abusos. Um exemplo de metadados é a hora e o tamanho da solicitação.

Documentação do Oracle Cloud Infrastructure

Usando Texto em Fala

Recursos

Suporte a Idioma e Recursos

Códigos de Idioma

Tags SSML

Tratamento de Dados