Utilisation du texte à la parole

Apprenez à utiliser le texte pour parler.

Text to speech (TTS) transforme le texte écrit en mots parlés, comblant l'écart entre le mot écrit et la voix parlée.

Les outils TTS offrent plusieurs cas d'utilisation précieux pour les entreprises, améliorant ainsi la productivité et l'expérience utilisateur :

Production de livres audio: La technologie TTS peut automatiser la conversion du contenu écrit en livres audio, ce qui permet d'économiser du temps et des ressources tout en répondant aux préférences d'un public plus large en matière de contenu audio.

Conformité de l'accessibilité: Les entreprises peuvent s'assurer que leur contenu numérique est accessible aux personnes ayant une déficience visuelle en utilisant TTS pour convertir le texte en mots-clés, rendant les sites Web et les documents conformes aux réglementations en matière d'accessibilité.

Systèmes de réponse vocale interactive (RVI): TTS est essentiel pour créer des messages vocaux à son naturel dans les systèmes de RVI améliorant le service à la clientèle en fournissant des interactions automatisées mais humaines, telles que le routage des appels et la récupération d'informations.

Assistants virtuels et agents conversationnels: L'intégration de TTS dans des assistants virtuels et des agents conversationnels permet aux entreprises de fournir des interactions personnalisées et engageantes avec les utilisateurs, que ce soit sur des sites Web ou via des applications de messagerie, améliorant ainsi l'engagement et le soutien des clients.

Démonstrations de produits améliorées: Les équipes de vente peuvent utiliser TTS pour créer des démonstrations ou des tutoriels de produits audio améliorés. Il est ainsi plus facile pour les clients potentiels de comprendre les caractéristiques et les avantages des produits, ce qui permet de prendre des décisions d'achat plus éclairées.

Fonction

API synchrone : Le texte à la parole prend en charge les API synchrones sur les protocoles HTTPS. Vous pouvez envoyer une entrée de texte et obtenir de l'audio en réponse.
Formats de sortie multiples : Le texte à la parole peut générer des formats PCM, MP3, OGG et JSON.
Voix standard et naturelles : Text to speech offre des voix standard et naturelles (de type humain) masculines et féminines.
Prise en charge de la diffusion en continu des blocs : Le service de texte vers la parole prend en charge l'encodage du transfert de blocs sur le protocole HTTPS. Vous pouvez envoyer une demande avec du texte d'entrée et obtenir la sortie audio en fragments. Cela permet de réduire la latence côté client.
Langage de balisage de synthèse vocale (SSML) : Vous pouvez envoyer le langage de balisage de synthèse vocale (SSML) dans votre demande Text to Speech pour plus de personnalisation de votre réponse audio en fournissant des détails sur les pauses et le formatage audio pour les acronymes, les dates, les heures et les abréviations.
Note

SSML n'est pris en charge que pour certains locuteurs de l'anglais (États-Unis) et n'est pris en charge pour aucun locuteur dans une autre langue.
Soutien multilingue : Le modèle naturel textuel prend en charge neuf langues, notamment :
- Anglais (US)
- Anglais (Britannique)
- Espagnol (Espagne)
- Portugais (Brésil)
- Français
- Italien
- Hindi
- Japonais
- Chinois (Mandarin)

Prise en charge des langues et des fonctions

Codes de langue


Langue	Code de la langue
Anglais — États-Unis	`en-US`
Anglais—Grande-Bretagne	`en-GB`
Espagnol - Espagne	`es-ES`
Portugais - Brésil	`pt-BR`
Français - Français	`fr-FR`
Italien - Italie	`it-IT`
Hindi (Inde)	`hi-IN`
Japonais — Japon	`ja-JP`
Chinois - Chine Mandarin	`cmn-CN`

Anglais — Fonctions prises en charge par les États-Unis


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Brian (homme) Annabelle(Femme) Bob (homme) Stacy (femme) Phil (femme) Cindy (femme) Brad (homme) Richard (homme) Marie (femme) Amanda(Femme) Grace(Femme) Laura(Femme) Megan(Femme) Olivia(Femme) Rachel (femme) Stephanie(Femme) Teresa(Femme) Victoria(Femme) Ashley (femme) Adam (homme) Ethan (homme) Henry (homme) Jack (homme) Chris (homme) Marquer (Homme) Paul (homme) Steve (homme) Kevin (homme)	Oui Oui Oui Oui Oui Oui Oui Oui Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre Nombre	Brian (homme) Annabelle(Femme) Bob (homme) Stacy (femme) Phil (femme) Cindy (femme)	Oui Oui Oui Oui Oui Oui	Oui	`MP3` `PCM` `OGG` `JSON`

Anglais — Fonctionnalités prises en charge par la Grande-Bretagne


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Charlotte(Femme) Emily (femme) Sophie(Femme) Isla(Femme) Oliver (homme) Harry (homme) Théo (homme) Arthur (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Espagnol - Espagne - Fonctions prises en charge


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Carmen(Femme) Mateo (Homme) Lucas(Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Portugais — Fonctionnalités prises en charge par le Brésil


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Mariana(Femme) Félix (homme) Miguel(Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Fonctions prises en charge pour la France


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Claire(Femme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Italien - Fonctions prises en charge par l'Italie


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Giulia(Femme) Luca (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Hindi – Fonctions prises en charge par l'Inde


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Asha (femme) Priya (femme) Arjun (Homme) Rahul (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Japonais — Fonctions prises en charge par le Japon


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Aiko (femme) Hana (femme) Sakura(Femme) Yuki (femme) Satoshi (Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Chinois – Chine Mandarin Caractéristiques prises en charge


Naturel (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Flux de blocs	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML?	VoiceId(Sexe)	Prise en charge SSML?	Flux de blocs	Formats de sortie
Jia (femme) Ling(Femme) Mei (femme) Xiu (femme) Jun(Homme) Hao (homme) Ming (homme) Wang(Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Marqueurs SSML

Note

Pour obtenir la liste des langages texte à parole et des modèles vocaux qui prennent en charge les marqueurs SSML, voir Prise en charge des langues et des fonctions.

Balise racine SSML. Tout le texte amélioré par SSML doit être inclus dans une paire de balises <speak>. Des voix naturelles et standard sont disponibles.

Exemple :

<speak> This is the root tag for SSML. </speak>

<break>

Ajoutez une pause dans votre message. Des voix naturelles et standard sont disponibles.

`<break>` Attributs
Attribut	Valeur	Description
`time`	`[number]s`	Durée de la pause, en secondes.
`time`	`[number]ms`	Durée de la pause, en millisecondes.
`strength`	`none`	Pas de pause. Utilisez `none` pour supprimer une pause qui se produit normalement, par exemple après une période. Équivalent à "0ms".
	`x-weak`	A la même force que `none`, aucune pause.
	`weak`	Définit une pause de la même durée que la pause après une virgule. Équivalent à "150ms".
	`medium`	A la même force que `weak`.
	`strong`	Définit une pause de la même durée que la pause après une phrase. Équivalent à "400ms".
	`x-strong`:	Définit une pause de la même durée que la pause après un paragraphe. Équivalent à "800ms".

Exemple 1 :

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Exemple 2 :

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>

<s>

Pour ajouter une pause entre des lignes ou des phrases dans le texte. Même effet que la phrase de fin avec point ou <break strength="strong"/>. Des voix naturelles et standard sont disponibles.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>

<p>

Pour ajouter une pause à la fin des paragraphes de votre texte. Il fournit une pause plus longue que les locuteurs natifs placent généralement des virgules ou la fin d'une phrase. Des voix naturelles et standard sont disponibles.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>

Utilisé pour dire comment dire certains caractères, mots et nombres. Des voix naturelles et standard sont disponibles.


Attribut	Valeur	Description
`interpret-as`	`date`	Interprète le texte contenu comme une date de calendrier grégorien. Le format de la date doit être spécifié avec l'attribut `format`. Le séparateur de dates peut être une barre oblique (/), un tiret (-) et un point (.). Aucun espace n'est autorisé dans une chaîne de date.
	`time`	Interprète le texte numérique en tant que durée, en heures, minutes et secondes. Le texte doit être dans `hour:min` ou `hour:min:seconds` . Facultativement, il peut être suivi de "A.M." ou "P.M.". Ici, A.M. peut également être écrit comme AM, a.m., ou AM. Le réglage de `detail` = "1" indique à l'analyseur SSML d'indiquer la sortie de texte au format 24 heures et le réglage de `detail` = "2" indique à l'analyseur SSML d'indiquer la sortie au format 12 heures.
	`fraction`	Interprète le texte numérique en tant que fraction. Il fonctionne pour la fraction commune et mixte.
	`digits`	Définit chaque chiffre individuellement, l'exemple 1234 comme 1-2-3-4.
	`cardinal`	Interprète le texte numérique comme un nombre cardinal.
	`ordinal`	Interprète le texte numérique comme un nombre ordinal. L'exemple '1' est interprété comme 1er, '2' comme '2nd' et ainsi de suite.
	`spell-out`	Affiche chaque caractère du texte inclus entre la balise `say-as`. Cela inclut les signes de ponctuation, les symboles spéciaux et les espaces.
	`unit`	Interprète un texte numérique en tant que mesure. La valeur doit être un nombre ou une fraction, suivie d'une unité sans espace.

Exemple :

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>

<sub>

Utilisé avec l'attribut alias pour remplacer un autre mot (ou prononciation) par un texte sélectionné, tel qu'un acronyme ou une abréviation. Des voix naturelles et standard sont disponibles.

Exemple :

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>

Remplace les phonèmes d'un mot particulier par celui spécifié dans l'attribut ph. Des voix naturelles et standard sont disponibles.


Attribut	Valeur	Description
`alphabet`	`ipa`	Indique que l'alphabet phonétique international (IPA) sera utilisé.
`alphabet`	`x-sampa`	Indique que l'alphabet phonétique des méthodes d'évaluation de la parole étendue (X-SAMPA) sera utilisé.
`ph`		Spécifie les phonèmes pour la prononciation personnalisée

Exemple :

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>

Fait référence aux schémas de stress et d'intonation dans une langue. Seules les voix standard sont disponibles.


Attribut	Valeur	Description
`rate`	`"X%"`	Contrôle la vitesse de la parole. La valeur en pourcentage doit être inférieure à 100 % et l'augmentation ou la diminution du taux est relative au taux de parole par défaut. X indique une augmentation (+X%) ou une diminution (-X%) du taux.
	`default`	Taux de parole par défaut
	`x-slow`	Taux de parole très lent.
	`slow`	Taux de parole lente.
	`medium`	Taux de parole moyen. Taux de parole par défaut.
	`fast`	Taux de parole rapide.
	`x-fast`	Taux de parole très rapide.
`volume`	`"XdB"`	Contrôle le volume du discours. À l'aide de cet attribut, vous n'affectez pas de volume fixe, mais vous le modifiez par rapport au volume courant. X peut être un nombre positif ou négatif selon que vous souhaitez augmenter ou diminuer le volume.
	`default`	Volume par défaut.
	`x-soft`	Très faible volume. Il est environ 12 dB inférieur à la valeur par défaut.
	`soft`	Faible volume. Il est environ 6 dB inférieur à la valeur par défaut.
	`medium`	Taux de volume moyen. Valeur par défaut.
	`loud`	Volume élevé. Il est environ 6 dB de plus que la valeur par défaut.
	`x-loud`	Volume très fort. Il est environ 12 dB de plus que la valeur par défaut.
`pitch`	`default`	Emplacement par défaut.
	`x-low`	Pas très bas.
	`low`	Faible hauteur.
	`medium`	Pas moyen Pas par défaut.
	`high`	Haute hauteur.
	`x-high`	Pas très élevé.

Exemple 1 :

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Exemple 2 :

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

3e exemple :

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>

<voix>

Vous permet d'utiliser plusieurs voix dans une seule demande SSML. Des voix naturelles et standard sont disponibles.

Exemple :

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Traitement des données

Oracle utilise-t-elle le texte d'entrée que je charge dans le service TTS ou les fichiers audio générés par le service à d'autres fins?

Non, nous n'utilisons pas le texte d'entrée que vous téléchargez sur le service TTS, ni les fichiers audio générés, à quelque fin que ce soit, sauf pour vous fournir un rendu vocal du texte d'entrée.

Est-ce qu'Oracle utilise mon texte d'entrée pour former le service TTS?

Non, nous n'utilisons pas le texte d'entrée que vous fournissez pour former le service TTS.

Le texte d'entrée envoyé au service TTS, les résultats ou les autres informations sur la demande elle-même sont-ils stockés sur les serveurs Oracle?

Le texte d'entrée que vous envoyez au service TTS est traité en mémoire lors de la génération du fichier audio. Nous enregistrons temporairement certaines métadonnées sur vos demandes pour améliorer le service, à des fins de facturation et de mesure, et pour lutter contre les abus. Un exemple de métadonnées est l'heure et la taille de la demande.

Documentation sur Oracle Cloud Infrastructure

Utilisation du texte à la parole

Fonction

Prise en charge des langues et des fonctions

Codes de langue

Marqueurs SSML

Traitement des données