Utilisation du texte à la parole
Apprenez à utiliser le texte pour parler.
Text to speech (TTS) transforme le texte écrit en mots parlés, comblant l'écart entre le mot écrit et la voix parlée.
Les outils TTS offrent plusieurs cas d'utilisation précieux pour les entreprises, améliorant ainsi la productivité et l'expérience utilisateur :
- Production de livres audio
- La technologie TTS peut automatiser la conversion du contenu écrit en livres audio, ce qui permet d'économiser du temps et des ressources tout en répondant aux préférences d'un public plus large en matière de contenu audio.
- Conformité de l'accessibilité
- Les entreprises peuvent s'assurer que leur contenu numérique est accessible aux personnes ayant une déficience visuelle en utilisant TTS pour convertir le texte en mots-clés, rendant les sites Web et les documents conformes aux réglementations en matière d'accessibilité.
- Systèmes de réponse vocale interactive (RVI)
- TTS est essentiel pour créer des messages vocaux à son naturel dans les systèmes de RVI améliorant le service à la clientèle en fournissant des interactions automatisées mais humaines, telles que le routage des appels et la récupération d'informations.
- Assistants virtuels et agents conversationnels
- L'intégration de TTS dans des assistants virtuels et des agents conversationnels permet aux entreprises de fournir des interactions personnalisées et engageantes avec les utilisateurs, que ce soit sur des sites Web ou via des applications de messagerie, améliorant ainsi l'engagement et le soutien des clients.
- Démonstrations de produits améliorées
- Les équipes de vente peuvent utiliser TTS pour créer des démonstrations ou des tutoriels de produits audio améliorés. Il est ainsi plus facile pour les clients potentiels de comprendre les caractéristiques et les avantages des produits, ce qui permet de prendre des décisions d'achat plus éclairées.
Fonction
- API synchrone : Text to Speech prend en charge l'API synchrone sur les protocoles HTTPS. Vous pouvez envoyer du texte et obtenir de l'audio en réponse.
- Formats de sortie multiples : Du texte à la parole peut générer des formats PCM, MP3, OGG et JSON.
- Voix standard et naturelles : Text to Speech offre aux hommes et aux femmes des voix standard et naturelles (de type humain).
- Prise en charge de la diffusion en continu de bloc : Le service de texte à parole prend en charge l'encodage de transfert de bloc sur le protocole HTTPS. Vous pouvez envoyer une demande avec du texte d'entrée et obtenir une sortie audio en morceaux. Cela permet de réduire la latence côté client.
- Langage de balisage de synthèse vocale (SSML) : Vous pouvez envoyer le langage de balisage de synthèse vocale (SSML) dans votre demande Text to Speech pour plus de personnalisation dans votre réponse audio en fournissant des détails sur les pauses et le formatage audio pour les acronymes, les dates, les heures et les abréviations.
Marqueurs SSML
Balise racine SSML. Tout le texte amélioré par SSML doit être inclus dans une paire de balises <speak>
. Des voix naturelles et standard sont disponibles.
Exemple :
<speak> This is the root tag for SSML. </speak>
Ajoutez une pause dans votre message. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
time |
|
Durée de la pause, en secondes. |
|
Durée de la pause, en millisecondes. | |
strength |
none |
Pas de pause. Utilisez none pour supprimer une pause qui se produit normalement, par exemple après une période. Équivalent à "0ms". |
x-weak |
A la même force que none , aucune pause. |
|
weak |
Définit une pause de la même durée que la pause après une virgule. Équivalent à "150ms". | |
medium |
A la même force que weak . |
|
strong |
Définit une pause de la même durée que la pause après une phrase. Équivalent à "400ms". | |
x-strong : |
Définit une pause de la même durée que la pause après un paragraphe. Équivalent à "800ms". |
Exemple 1 :
<speak>
Close your eyes, take a deep breath <break time="1s"/>
and let go of all the stress and worries.
Feel the gentle breeze <break time="1500ms"/> as
it caresses your skin, and listen to the
soothing sounds of nature.
</speak>
Exemple 2 :
<speak>
Let me give you a demonstration of the <break strength="x-strong"/> strong pause.
Now, let's try a <break strength="strong"/> medium pause.
Finally, we have a <break strength="weak"/> weak pause.
</speak>
Pour ajouter une pause entre des lignes ou des phrases dans le texte. Même effet que la phrase de fin avec point ou <break strength="strong"/>
. Des voix naturelles et standard sont disponibles.
<speak>
<s>This is the first sentence</s>
<s>This is the second sentence</s>
This is the last sentence.
</speak>
Pour ajouter une pause à la fin des paragraphes de votre texte. Il fournit une pause plus longue que les locuteurs natifs placent généralement des virgules ou la fin d'une phrase. Des voix naturelles et standard sont disponibles.
<speak>
<p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
<p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
Utilisé pour dire comment dire certains caractères, mots et nombres. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
interpret-as |
date |
Interprète le texte contenu comme une date de calendrier grégorien. Le format de la date doit être spécifié avec l'attribut format . Le séparateur de dates peut être une barre oblique (/), un tiret (-) et un point (.). Aucun espace n'est autorisé dans une chaîne de date. |
time |
Interprète le texte numérique en tant que durée, en heures, minutes et secondes. Le texte doit être dans hour:min ou hour:min:seconds . Facultativement, il peut être suivi de "A.M." ou "P.M.". Ici, A.M. peut également être écrit comme AM, a.m., ou AM. Le réglage de detail = "1" indique à l'analyseur SSML d'indiquer la sortie de texte au format 24 heures et le réglage de detail = "2" indique à l'analyseur SSML d'indiquer la sortie au format 12 heures. |
|
fraction |
Interprète le texte numérique en tant que fraction. Il fonctionne pour la fraction commune et mixte. | |
digits |
Définit chaque chiffre individuellement, l'exemple 1234 comme 1-2-3-4. | |
cardinal |
Interprète le texte numérique comme un nombre cardinal. | |
ordinal |
Interprète le texte numérique comme un nombre ordinal. L'exemple '1' est interprété comme 1er, '2' comme '2nd' et ainsi de suite. | |
spell-out |
Affiche chaque caractère du texte inclus entre la balise say-as . Cela inclut les signes de ponctuation, les symboles spéciaux et les espaces. |
|
unit |
Interprète un texte numérique en tant que mesure. La valeur doit être un nombre ou une fraction, suivie d'une unité sans espace. |
Exemple :
<speak>
<p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
For Example:
I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
Utilisé avec l'attribut alias
pour remplacer un autre mot (ou prononciation) par un texte sélectionné, tel qu'un acronyme ou une abréviation. Des voix naturelles et standard sont disponibles.
Exemple :
<speak>
My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
Remplace les phonèmes d'un mot particulier par celui spécifié dans l'attribut ph
. Des voix naturelles et standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
alphabet |
ipa |
Indique que l'alphabet phonétique international (IPA) sera utilisé. |
x-sampa |
Indique que l'alphabet phonétique des méthodes d'évaluation de la parole étendue (X-SAMPA) sera utilisé. | |
ph |
Spécifie les phonèmes pour la prononciation personnalisée |
Exemple :
<speak>
Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>.
</speak>
Fait référence aux schémas de stress et d'intonation dans une langue. Seules les voix standard sont disponibles.
Attribut | Valeur | Description |
---|---|---|
rate |
"X%" |
Contrôle la vitesse de la parole. La valeur en pourcentage doit être inférieure à 100 % et l'augmentation ou la diminution du taux est relative au taux de parole par défaut. X indique une augmentation (+X%) ou une diminution (-X%) du taux. |
default |
Taux de parole par défaut | |
x-slow |
Taux de parole très lent. | |
slow |
Taux de parole lente. | |
medium |
Taux de parole moyen. Taux de parole par défaut. | |
fast |
Taux de parole rapide. | |
x-fast |
Taux de parole très rapide. | |
volume |
"XdB" |
Contrôle le volume du discours. À l'aide de cet attribut, vous n'affectez pas de volume fixe, mais vous le modifiez par rapport au volume courant. X peut être un nombre positif ou négatif selon que vous souhaitez augmenter ou diminuer le volume. |
default |
Volume par défaut. | |
x-soft |
Très faible volume. Il est environ 12 dB inférieur à la valeur par défaut. | |
soft |
Faible volume. Il est environ 6 dB inférieur à la valeur par défaut. | |
medium |
Taux de volume moyen. Valeur par défaut. | |
loud |
Volume élevé. Il est environ 6 dB de plus que la valeur par défaut. | |
x-loud |
Volume très fort. Il est environ 12 dB de plus que la valeur par défaut. | |
pitch |
default |
Emplacement par défaut. |
x-low |
Pas très bas. | |
low |
Faible hauteur. | |
medium |
Pas moyen Pas par défaut. | |
high |
Haute hauteur. | |
x-high |
Pas très élevé. |
Exemple 1 :
<speak>
<prosody rate="0%">This is the default speaking rate.</prosody>
<prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody>
<prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>
Exemple 2 :
<speak>
<p>
<s>Hi, this is a normal sentence.</s>
<s>
<prosody volume="+10dB">This is a louder sentence!</prosody>
</s>
<s>
<prosody volume="-8dB">This is a quieter sentence.</prosody>
</s>
</p>
</speak>
3e exemple :
<speak>
<prosody pitch='default'>This is the default pitch.</prosody>
<prosody pitch='medium'>This is the default pitch.</prosody>
<prosody pitch='x-low'>This is the very low pitch.</prosody>
<prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
Vous permet d'utiliser plusieurs voix dans une seule demande SSML. Des voix naturelles et standard sont disponibles.
Exemple :
<speak>
<voice name="Bob">Hello Cindy, how are you doing.</voice>
<voice name="Cindy">Hello Bob, I am good, thank you.</voice>
<voice name="Bob">Hope you enjoyed your stay with us.</voice>
<voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>
Traitement des données
Non, nous n'utilisons pas le texte d'entrée que vous téléchargez sur le service TTS, ni les fichiers audio générés, à quelque fin que ce soit, sauf pour vous fournir un rendu vocal du texte d'entrée.
Non, nous n'utilisons pas le texte d'entrée que vous fournissez pour former le service TTS.
Le texte d'entrée que vous envoyez au service TTS est traité en mémoire lors de la génération du fichier audio. Nous enregistrons temporairement certaines métadonnées sur vos demandes pour améliorer le service, à des fins de facturation et de mesure, et pour lutter contre les abus. Un exemple de métadonnées est l'heure et la taille de la demande.