Utiliser la synthèse vocale

Apprenez à utiliser Text to Speech.

Text to speech (TTS) transforme le texte écrit en mots parlés, comblant ainsi l'écart entre le mot écrit et la voix parlée.

Les outils TTS offrent plusieurs cas d'utilisation précieux pour les entreprises, améliorant ainsi la productivité et l'expérience utilisateur :

Production de livres audio: La technologie TTS peut automatiser la conversion du contenu écrit en livres audio, ce qui permet d'économiser du temps et des ressources tout en répondant aux préférences d'un public plus large en matière de contenu audio.

Conformité d'accessibilité: Les entreprises peuvent s'assurer que leur contenu numérique est accessible aux personnes ayant une déficience visuelle en utilisant TTS pour convertir du texte en paroles, rendant les sites Web et les documents conformes aux réglementations en matière d'accessibilité.

Systèmes de réponse vocale interactive: TTS est essentiel pour créer des invites vocales à son naturel dans les systèmes IVR améliorant le service à la clientèle en fournissant des interactions automatisées mais de type humain, telles que le routage des appels et la récupération d'informations.

Assistants virtuels et chatbots: L'intégration de TTS dans des assistants virtuels et des chatbots permet aux entreprises de fournir des interactions personnalisées et attrayantes avec les utilisateurs, que ce soit sur des sites Web ou via des applications de messagerie, améliorant ainsi l'engagement et le support des clients.

Démonstrations de produits améliorées: Les équipes de vente peuvent utiliser TTS pour créer des démonstrations de produits ou des tutoriels améliorés audio. Cela permet aux clients potentiels de comprendre plus facilement les fonctionnalités et les avantages du produit, ce qui permet de prendre des décisions d'achat plus éclairées.

Fonctions

API synchrone : la synthèse vocale prend en charge les protocoles API synchrone sur HTTPS. Vous pouvez envoyer du texte et obtenir de l'audio en réponse.
Formats de sortie multiples : le texte vocal peut générer des formats PCM, MP3, OGG et JSON.
Standard and Natural Voices (Voix standard et naturelles) : La synthèse vocale offre des voix standard et naturelles (de type humain) masculines et féminines.
Prise en charge de la transmission en continu de blocs : le service de transmission vocale de texte prend en charge l'encodage de transfert de blocs via le protocole HTTPS. Vous pouvez envoyer une demande avec du texte d'entrée et obtenir une sortie audio en blocs. Cela permet de réduire la latence côté client.
Langage SSML (Speech Synthesis Markup Language) : vous pouvez envoyer le langage SSML (Speech Synthesis Markup Language) de votre demande de texte à la parole pour plus de personnalisation dans votre réponse audio en fournissant des détails sur les pauses et le formatage audio pour les acronymes, les dates, les heures et les abréviations.
Remarque

SSML est uniquement pris en charge pour certains locuteurs anglais (US) et n'est pas pris en charge pour les locuteurs d'une autre langue.
Prise en charge multilingue : le modèle naturel du texte à la parole prend en charge neuf langues, notamment :
- Anglais (Etats-Unis)
- Anglais (britannique)
- espagnol (Espagne)
- Portugais (Brésil)
- Français
- Italien
- Hindi
- Japonais
- Chinois (Mandarin)

Prise en charge des langues et des fonctionnalités

Codes de langue


Langue	Code langue
Anglais - Etats-Unis	`en-US`
Anglais - Grande-Bretagne	`en-GB`
Espagnol - Espagne	`es-ES`
Portugais - Brésil	`pt-BR`
Français - Français	`fr-FR`
Italien - Italie	`it-IT`
Hindi - Inde	`hi-IN`
Japonais - Japon	`ja-JP`
Chinois - Chine Mandarin	`cmn-CN`

Anglais - Etats-Unis - Fonctionnalités prises en charge


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Brian (homme) Annabelle (femme) Bob (Homme) Stacy (femme) Phil (femme) Cindy (femme) Brad (homme) Richard (homme) Marie (femme) Amanda (femme) Grace(Femme) Laura(Femme) Megan (femme) Olivia (femme) Rachel (femme) Stephanie(Femme) Teresa (femme) Victoria (femme) Ashley (femme) Adam (homme) Ethan (homme) Henry (homme) Jack (homme) Chris(Homme) Marquer (homme) Paul (homme) Steve (homme) Kevin(Homme)	Oui Oui Oui Oui Oui Oui Oui Oui Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non Non	Brian (homme) Annabelle (femme) Bob (Homme) Stacy (femme) Phil (femme) Cindy (femme)	Oui Oui Oui Oui Oui Oui	Oui	`MP3` `PCM` `OGG` `JSON`

Anglais - Grande-Bretagne Fonctionnalités prises en charge


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Charlotte (femme) Emily(Femme) Sophie (femme) Isla (femme) Oliver (homme) Harry (homme) Théo (homme) Arthur (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Espagnol - Espagne - Fonctionnalités prises en charge


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Carmen (femme) Mateo (homme) Lucas (Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Fonctionnalités prises en charge par le portugais et le Brésil


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Mariana(Femme) Felix (homme) Miguel (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Fonctionnalités prises en charge par la France


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Claire (femme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Italien - Fonctionnalités prises en charge par l'Italie


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Giulia (femme) Luca (Homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Hindi - Caractéristiques prises en charge par l'Inde


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Asha (femme) Priya (femme) Arjun(Homme) Rahul (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Fonctionnalités prises en charge par le Japon


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Aiko (femme) Hana (femme) Sakura (femme) Yuki (femme) Satoshi (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Fonctionnalités prises en charge par le mandarin chinois


Naturelle (TTS_2_NATURAL)		Standard (TTS_1_STANDARD)		Partage en continu	Formats de sortie
VoiceId(Sexe)	Prise en charge SSML ?	VoiceId(Sexe)	Prise en charge SSML ?	Partage en continu	Formats de sortie
Jia (femme) Ling (femme) Mei (femme) Xiu (femme) Jun(Homme) Hao (homme) Ming (homme) Wang (homme)	Non pris en charge	Non pris en charge	Non pris en charge	Oui	`MP3` `PCM` `OGG` `JSON`

Balises SSML

Remarque

Pour obtenir la liste des langages vocaux de texte à texte et des modèles vocaux prenant en charge les balises SSML, reportez-vous à Prise en charge des langues et des fonctionnalités.

Balise racine SSML. Tout le texte amélioré SSML doit être inclus dans une paire de balises <speak>. Des voix naturelles et standard sont disponibles.

Exemple :

<speak> This is the root tag for SSML. </speak>

<break>

Ajoutez une pause dans votre message. Des voix naturelles et standard sont disponibles.

`<break>` Attributs
Attribut	Valeur	Description
`time`	`[number]s`	Durée de la pause, en secondes.
`time`	`[number]ms`	Durée de la pause, en millisecondes.
`strength`	`none`	Pas de pause. Utilisez `none` pour enlever une pause normale, par exemple après une période. Equivaut à "0ms".
	`x-weak`	A la même force que `none`, pas de pause.
	`weak`	Définit une pause de la même durée que la pause après une virgule. Équivalent à "150ms".
	`medium`	A la même force que `weak`.
	`strong`	Définit une pause de la même durée que la pause après une phrase. Equivaut à "400ms".
	`x-strong`:	Définit une pause de la même durée que la pause après un paragraphe. Equivaut à "800ms".

Exemple 1 :

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Exemple 2 :

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>

<s>

Pour ajouter une pause entre des lignes ou des phrases dans le texte. Même effet que la phrase de fin avec point ou <break strength="strong"/>. Des voix naturelles et standard sont disponibles.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>

<p>

Pour ajouter une pause à la fin des paragraphes de votre texte. Il fournit une pause plus longue que les locuteurs natifs placent généralement en virgule ou à la fin d'une phrase. Des voix naturelles et standard sont disponibles.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>

<say-as>

Utilisé pour dire comment dire certains caractères, mots et chiffres. Des voix naturelles et standard sont disponibles.


Attribut	Valeur	Description
`interpret-as`	`date`	Interprète le texte contenu comme une date du calendrier grégorien. Vous devez indiquer le format de la date avec l'attribut `format`. Le séparateur de date peut être une barre oblique (/), un tiret (-) et un point (.). Les caractères non imprimables ne sont pas autorisés dans une chaîne de date.
	`time`	Interprète le texte numérique sous forme de durée, en heures, minutes et secondes. Le texte doit être dans `hour:min` ou `hour:min:seconds`. Eventuellement, il peut être suivi de "A.M." ou "P.M.". Ici, A.M. peut également être écrit comme AM, a.m., ou AM. La définition de `detail` = "1" indique à l'analyseur SSML d'indiquer la sortie de texte au format 24 heures et la définition de `detail` = "2" indique à l'analyseur SSML d'indiquer la sortie au format 12 heures.
	`fraction`	Interprète le texte numérique sous forme de fraction. Il fonctionne à la fois pour les fractions communes et mixtes.
	`digits`	Décrit chaque chiffre individuellement, par exemple 1234 sous la forme 1-2-3-4.
	`cardinal`	Interprète le texte numérique comme un nombre cardinal.
	`ordinal`	Interprète le texte numérique en tant que nombre ordinal. L'exemple '1' est interprété comme 1er, '2' comme '2e' et ainsi de suite.
	`spell-out`	Exprime chaque caractère du texte entre la balise `say-as`. Cela comprend également des signes de ponctuation, des symboles spéciaux et des espaces.
	`unit`	Interprète un texte numérique comme une mesure. La valeur doit être un nombre ou une fraction, suivi d'une unité sans espace.

Exemple :

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>

<sub>

Utilisé avec l'attribut alias pour substituer un mot (ou une prononciation) différent au texte sélectionné, tel qu'un acronyme ou une abréviation. Des voix naturelles et standard sont disponibles.

Exemple :

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>

Remplace les phonèmes d'un mot particulier par celui spécifié dans l'attribut ph. Des voix naturelles et standard sont disponibles.


Attribut	Valeur	Description
`alphabet`	`ipa`	Indique que l'alphabet phonétique international (IPA) sera utilisé.
`alphabet`	`x-sampa`	Indique que l'alphabet phonétique des méthodes d'évaluation vocale étendue (X-SAMPA) sera utilisé.
`ph`		Spécifie les phonèmes pour la prononciation personnalisée

Exemple :

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>

Fait référence aux schémas de stress et d'intonation dans une langue. Seules les voix standard sont disponibles.


Attribut	Valeur	Description
`rate`	`"X%"`	Contrôle la vitesse de la parole. La valeur en pourcentage doit être inférieure à 100 % et l'augmentation ou la diminution du taux est relative au taux de parole par défaut. X indique une augmentation (+X%) ou une diminution (-X%) du taux.
	`default`	Taux d'expression orale par défaut
	`x-slow`	Taux de parole très lent.
	`slow`	Taux de parole lente.
	`medium`	Taux de parole moyen. Taux d'expression orale par défaut.
	`fast`	Taux de parole rapide.
	`x-fast`	Taux de parole très rapide.
`volume`	`"XdB"`	Contrôle le volume de la parole. A l'aide de cet attribut, vous n'affectez pas de volume fixe, mais vous le modifiez par rapport au volume actuel. X peut être un nombre positif ou négatif selon que vous souhaitez augmenter ou diminuer le volume.
	`default`	Volume par défaut.
	`x-soft`	Très faible volume. Il est inférieur d'environ 12 dB à la valeur par défaut.
	`soft`	Volume faible. Il est inférieur d'environ 6 dB à la valeur par défaut.
	`medium`	Taux de volume moyen. Valeur par défaut.
	`loud`	Volume élevé. Il est supérieur d'environ 6 dB à la valeur par défaut.
	`x-loud`	Volume très fort. Il est supérieur d'environ 12 dB à la valeur par défaut.
`pitch`	`default`	Emplacement par défaut.
	`x-low`	Pas très bas.
	`low`	Pas bas.
	`medium`	Pas moyen Pas par défaut.
	`high`	Pitch élevé.
	`x-high`	Emplacement très élevé.

Exemple 1 :

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Exemple 2 :

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Exemple 3 :

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>

<voice>

Permet d'utiliser plusieurs voix dans une seule demande SSML. Des voix naturelles et standard sont disponibles.

Exemple :

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Gestion des données

Oracle utilise-t-il le texte d'entrée que je télécharge vers le service TTS ou les fichiers audio générés par le service à d'autres fins ?

Non, nous n'utilisons pas le texte d'entrée que vous téléchargez vers le service TTS, ni les fichiers audio générés, à quelque fin que ce soit, sauf pour vous fournir un rendu vocal du texte d'entrée.

Oracle utilise-t-il mon texte d'entrée pour entraîner le service TTS ?

Non, nous n'utilisons pas le texte d'entrée que vous fournissez pour former le service TTS.

Le texte d'entrée envoyé au service TTS, les résultats ou les autres informations concernant la demande sont-ils stockés sur les serveurs Oracle ?

Le texte d'entrée que vous envoyez au service TTS est traité en mémoire lors de la génération du fichier audio. Nous enregistrons temporairement des métadonnées sur vos demandes pour améliorer le service, à des fins de facturation et de mesure, et pour lutter contre les abus. L'heure et la taille de la demande sont des exemples de métadonnées.

Documentation Oracle Cloud Infrastructure

Utiliser la synthèse vocale

Fonctions

Prise en charge des langues et des fonctionnalités

Codes de langue

Balises SSML

Gestion des données