Utiliser la synthèse vocale
Apprenez à utiliser Text to Speech.
Text to speech (TTS) transforme le texte écrit en mots parlés, comblant ainsi l'écart entre le mot écrit et la voix parlée.
Les outils TTS offrent plusieurs cas d'utilisation précieux pour les entreprises, améliorant ainsi la productivité et l'expérience utilisateur :
- Production de livres audio
- La technologie TTS peut automatiser la conversion du contenu écrit en livres audio, ce qui permet d'économiser du temps et des ressources tout en répondant aux préférences d'un public plus large en matière de contenu audio.
- Conformité d'accessibilité
- Les entreprises peuvent s'assurer que leur contenu numérique est accessible aux personnes ayant une déficience visuelle en utilisant TTS pour convertir du texte en paroles, rendant les sites Web et les documents conformes aux réglementations en matière d'accessibilité.
- Systèmes de réponse vocale interactive
- TTS est essentiel pour créer des invites vocales à son naturel dans les systèmes IVR améliorant le service à la clientèle en fournissant des interactions automatisées mais de type humain, telles que le routage des appels et la récupération d'informations.
- Assistants virtuels et chatbots
- L'intégration de TTS dans des assistants virtuels et des chatbots permet aux entreprises de fournir des interactions personnalisées et attrayantes avec les utilisateurs, que ce soit sur des sites Web ou via des applications de messagerie, améliorant ainsi l'engagement et le support des clients.
- Démonstrations de produits améliorées
- Les équipes de vente peuvent utiliser TTS pour créer des démonstrations de produits ou des tutoriels améliorés audio. Cela permet aux clients potentiels de comprendre plus facilement les fonctionnalités et les avantages du produit, ce qui permet de prendre des décisions d'achat plus éclairées.
Fonctions
- API synchrone : Text to Speech prend en charge les API synchrones via les protocoles HTTPS. Vous pouvez envoyer de la saisie de texte et obtenir de l'audio en tant que réponse.
- Formats de sortie multiples : la synthèse vocale peut générer des formats PCM, MP3, OGG et JSON.
- Voix standard et naturelles : Text to Speech propose des voix standard et naturelles (humaines) masculines et féminines.
- Prise en charge de la transmission en continu de blocs : le service de messagerie vocale prend en charge le codage de transfert de blocs via le protocole HTTPS. Vous pouvez envoyer une demande avec du texte d'entrée et obtenir une sortie audio en morceaux. Cela permet de réduire la latence côté client.
- SSML (Speech Synthesis Markup Language) : vous pouvez envoyer le langage SSML (Speech Synthesis Markup Language) de votre demande de synthèse vocale pour plus de personnalisation dans votre réponse audio en fournissant des détails sur les pauses et le formatage audio pour les acronymes, les dates, les heures et les abréviations.
Balises SSML
Balise racine SSML. Tout le texte amélioré SSML doit être inclus dans une paire de balises <speak>
. Des voix naturelles et standard sont disponibles.
Exemple :
<speak> This is the root tag for SSML. </speak>
Ajoutez une pause dans votre message. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
time |
|
Durée de la pause, en secondes. |
|
Durée de la pause, en millisecondes. | |
strength |
none |
Pas de pause. Utilisez none pour enlever une pause normale, par exemple après une période. Equivaut à "0ms". |
x-weak |
A la même force que none , pas de pause. |
|
weak |
Définit une pause de la même durée que la pause après une virgule. Équivalent à "150ms". | |
medium |
A la même force que weak . |
|
strong |
Définit une pause de la même durée que la pause après une phrase. Equivaut à "400ms". | |
x-strong : |
Définit une pause de la même durée que la pause après un paragraphe. Equivaut à "800ms". |
Exemple 1 :
<speak>
Close your eyes, take a deep breath <break time="1s"/>
and let go of all the stress and worries.
Feel the gentle breeze <break time="1500ms"/> as
it caresses your skin, and listen to the
soothing sounds of nature.
</speak>
Exemple 2 :
<speak>
Let me give you a demonstration of the <break strength="x-strong"/> strong pause.
Now, let's try a <break strength="strong"/> medium pause.
Finally, we have a <break strength="weak"/> weak pause.
</speak>
Pour ajouter une pause entre des lignes ou des phrases dans le texte. Même effet que la phrase de fin avec point ou <break strength="strong"/>
. Des voix naturelles et standard sont disponibles.
<speak>
<s>This is the first sentence</s>
<s>This is the second sentence</s>
This is the last sentence.
</speak>
Pour ajouter une pause à la fin des paragraphes de votre texte. Il fournit une pause plus longue que les locuteurs natifs placent généralement en virgule ou à la fin d'une phrase. Des voix naturelles et standard sont disponibles.
<speak>
<p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
<p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
Utilisé pour dire comment dire certains caractères, mots et chiffres. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
interpret-as |
date |
Interprète le texte contenu comme une date du calendrier grégorien. Vous devez indiquer le format de la date avec l'attribut format . Le séparateur de date peut être une barre oblique (/), un tiret (-) et un point (.). Les caractères non imprimables ne sont pas autorisés dans une chaîne de date. |
time |
Interprète le texte numérique sous forme de durée, en heures, minutes et secondes. Le texte doit être dans hour:min ou hour:min:seconds . Eventuellement, il peut être suivi de "A.M." ou "P.M.". Ici, A.M. peut également être écrit comme AM, a.m., ou AM. La définition de detail = "1" indique à l'analyseur SSML d'indiquer la sortie de texte au format 24 heures et la définition de detail = "2" indique à l'analyseur SSML d'indiquer la sortie au format 12 heures. |
|
fraction |
Interprète le texte numérique sous forme de fraction. Il fonctionne à la fois pour les fractions communes et mixtes. | |
digits |
Décrit chaque chiffre individuellement, par exemple 1234 sous la forme 1-2-3-4. | |
cardinal |
Interprète le texte numérique comme un nombre cardinal. | |
ordinal |
Interprète le texte numérique en tant que nombre ordinal. L'exemple '1' est interprété comme 1er, '2' comme '2e' et ainsi de suite. | |
spell-out |
Exprime chaque caractère du texte entre la balise say-as . Cela comprend également des signes de ponctuation, des symboles spéciaux et des espaces. |
|
unit |
Interprète un texte numérique comme une mesure. La valeur doit être un nombre ou une fraction, suivi d'une unité sans espace. |
Exemple :
<speak>
<p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
For Example:
I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
Utilisé avec l'attribut alias
pour substituer un mot (ou une prononciation) différent au texte sélectionné, tel qu'un acronyme ou une abréviation. Des voix naturelles et standard sont disponibles.
Exemple :
<speak>
My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
Remplace les phonèmes d'un mot particulier par celui spécifié dans l'attribut ph
. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
alphabet |
ipa |
Indique que l'alphabet phonétique international (IPA) sera utilisé. |
x-sampa |
Indique que l'alphabet phonétique des méthodes d'évaluation vocale étendue (X-SAMPA) sera utilisé. | |
ph |
Spécifie les phonèmes pour la prononciation personnalisée |
Exemple :
<speak>
Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>.
</speak>
Fait référence aux schémas de stress et d'intonation dans une langue. Seules les voix standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
rate |
"X%" |
Contrôle la vitesse de la parole. La valeur en pourcentage doit être inférieure à 100 % et l'augmentation ou la diminution du taux est relative au taux de parole par défaut. X indique une augmentation (+X%) ou une diminution (-X%) du taux. |
default |
Taux d'expression orale par défaut | |
x-slow |
Taux de parole très lent. | |
slow |
Taux de parole lente. | |
medium |
Taux de parole moyen. Taux d'expression orale par défaut. | |
fast |
Taux de parole rapide. | |
x-fast |
Taux de parole très rapide. | |
volume |
"XdB" |
Contrôle le volume de la parole. A l'aide de cet attribut, vous n'affectez pas de volume fixe, mais vous le modifiez par rapport au volume actuel. X peut être un nombre positif ou négatif selon que vous souhaitez augmenter ou diminuer le volume. |
default |
Volume par défaut. | |
x-soft |
Très faible volume. Il est inférieur d'environ 12 dB à la valeur par défaut. | |
soft |
Volume faible. Il est inférieur d'environ 6 dB à la valeur par défaut. | |
medium |
Taux de volume moyen. Valeur par défaut. | |
loud |
Volume élevé. Il est supérieur d'environ 6 dB à la valeur par défaut. | |
x-loud |
Volume très fort. Il est supérieur d'environ 12 dB à la valeur par défaut. | |
pitch |
default |
Emplacement par défaut. |
x-low |
Pas très bas. | |
low |
Pas bas. | |
medium |
Pas moyen Pas par défaut. | |
high |
Pitch élevé. | |
x-high |
Emplacement très élevé. |
Exemple 1 :
<speak>
<prosody rate="0%">This is the default speaking rate.</prosody>
<prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody>
<prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>
Exemple 2 :
<speak>
<p>
<s>Hi, this is a normal sentence.</s>
<s>
<prosody volume="+10dB">This is a louder sentence!</prosody>
</s>
<s>
<prosody volume="-8dB">This is a quieter sentence.</prosody>
</s>
</p>
</speak>
Exemple 3 :
<speak>
<prosody pitch='default'>This is the default pitch.</prosody>
<prosody pitch='medium'>This is the default pitch.</prosody>
<prosody pitch='x-low'>This is the very low pitch.</prosody>
<prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
Permet d'utiliser plusieurs voix dans une seule demande SSML. Des voix naturelles et standard sont disponibles.
Exemple :
<speak>
<voice name="Bob">Hello Cindy, how are you doing.</voice>
<voice name="Cindy">Hello Bob, I am good, thank you.</voice>
<voice name="Bob">Hope you enjoyed your stay with us.</voice>
<voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>
Gestion des données
Non, nous n'utilisons pas le texte d'entrée que vous téléchargez vers le service TTS, ni les fichiers audio générés, à quelque fin que ce soit, sauf pour vous fournir un rendu vocal du texte d'entrée.
Non, nous n'utilisons pas le texte d'entrée que vous fournissez pour former le service TTS.
Le texte d'entrée que vous envoyez au service TTS est traité en mémoire lors de la génération du fichier audio. Nous enregistrons temporairement des métadonnées sur vos demandes pour améliorer le service, à des fins de facturation et de mesure, et pour lutter contre les abus. L'heure et la taille de la demande sont des exemples de métadonnées.