Verwendung von Text to Speech
Erfahren Sie, wie Sie Text zu Sprache verwenden.
Text to Speech (TTS) verwandelt geschriebenen Text in gesprochene Worte und überbrückt die Lücke zwischen dem geschriebenen Wort und der gesprochenen Stimme.
TTS-Tools bieten mehrere wertvolle Anwendungsfälle für Unternehmen, die Produktivität und Benutzererfahrung verbessern:
- Hörbuchproduktion
- Die TTS-Technologie kann die Konvertierung von geschriebenen Inhalten in Hörbücher automatisieren, wodurch Zeit und Ressourcen gespart werden und gleichzeitig die Präferenzen eines breiteren Publikums für Audioinhalte berücksichtigt werden.
- Einhaltung der Barrierefreiheit
- Unternehmen können sicherstellen, dass ihre digitalen Inhalte für Personen mit Sehbehinderung zugänglich sind, indem sie TTS verwenden, um Text in gesprochene Wörter umzuwandeln und Websites und Dokumente den Barrierefreiheitsbestimmungen entsprechend zu gestalten.
- Interactive Voice Response (IVR)-Systeme
- TTS ist von entscheidender Bedeutung für die Erstellung von natürlich klingenden Sprachaufforderungen in IVR-Systemen, die den Kundenservice verbessern, indem sie automatisierte, aber menschenähnliche Interaktionen wie Anrufweiterleitung und Informationsabruf bereitstellen.
- Virtuelle Assistenten und Chatbots
- Durch die Integration von TTS in virtuelle Assistenten und Chatbots können Unternehmen personalisierte und ansprechende Interaktionen mit Benutzern bereitstellen, sei es auf Websites oder über Messaging-Apps, um die Kundenbindung und den Support zu verbessern.
- Verbesserte Produktdemonstrationen
- Vertriebsteams können TTS verwenden, um audiogestützte Produktdemonstrationen oder Tutorials zu erstellen. Dies erleichtert potenziellen Kunden das Verständnis der Produktfunktionen und -vorteile, was zu fundierteren Kaufentscheidungen führt.
Funktionen
- Synchrone API: Text-zu-Sprache unterstützt synchrone API über HTTPS-Protokolle. Sie können Texteingaben senden und Audio als Antwort erhalten.
- Mehrere Ausgabeformate: Text-zu-Sprache-Format kann PCM-, MP3-, OGG- und JSON-Format generieren.
- Standard- und Natural Voices: Text-to-Speech bietet männliche und weibliche Standard- und natürliche (menschliche) Stimmen.
- Unterstützung von Chunk-Streaming: Der Text-to-Sprachservice unterstützt die Chunk-Übertragungscodierung über das HTTPS-Protokoll. Sie können eine Anfrage mit Eingabetext senden und die Audioausgabe in Blöcken abrufen. Dadurch wird die Latenz auf Clientseite verringert.
- Speech Synthesis Markup Language (SSML): Sie können Speech Synthesis Markup Language (SSML) in Ihrer Text-zu-Sprache-Anfrage senden, um weitere Anpassungen an Ihre Audioantwort vorzunehmen. Geben Sie dazu Details zu Pausen und die Audioformatierung für Akronyme, Datumsangaben, Zeiten und Abkürzungen an. Hinweis
SSML wird nur für einige englischsprachige (US-)Sprecher unterstützt und nicht für Sprecher in einer anderen Sprache unterstützt. - Mehrsprachige Unterstützung: Natürliches Textmodell unterstützt neun Sprachen, darunter:
- Englisch (US)
- Englisch (Britisch)
- Spanisch (Spanien)
- Portugiesisch (Brasilien)
- Französisch
- Italienisch
- Hindi
- Japanisch
- Chinesisch (Mandarin)
Sprach- und Funktionsunterstützung
Sprachschlüssel
Sprache | Sprachschlüssel |
---|---|
Englisch—Vereinigte Staaten | en-US |
Englisch – Großbritannien | en-GB |
Spanisch – Spanien | es-ES |
Portugiesisch-Brasilien | pt-BR |
Französisch - Französisch | fr-FR |
Italienisch – Italien | it-IT |
Hindi-Indien | hi-IN |
Japanisch – Japan | ja-JP |
Chinesisch - China Mandarin | cmn-CN |
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Brian(Männlich) Annabelle (weiblich) Bob (Männlich) Stacy (weiblich) Phil (weiblich) Cindy (weiblich) Brad (Männlich) Richard (Männlich) Mary (weiblich) Amanda (weiblich) Grace (weiblich) Laura (weiblich) Megan (weiblich) Olivia (weiblich) Rachel (weiblich) Stephanie (weiblich) Teresa (weiblich) Victoria(weiblich) Ashley (weiblich) Adam (Männlich) Ethan (männlich) Henry (Männlich) Jack (Männlich) Chris (Männlich) Mark (männlich) Paul (Männlich) Steve (Männlich) Kevin(Männlich) |
Ja Ja Ja Ja Ja Ja Ja Ja Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein |
Brian(Männlich) Annabelle (weiblich) Bob (Männlich) Stacy (weiblich) Phil (weiblich) Cindy (weiblich) |
Ja Ja Ja Ja Ja Ja |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Charlotte (weiblich) Emily (weiblich) Sophie(weiblich) Isla (weiblich) Oliver (Männlich) Harry (Männlich) Theo (Männlich) Arthur (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Carmen (weiblich) Mateo (Männlich) Lucas (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Mariana(Weiblich) Felix (Männlich) Miguel (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Claire (weiblich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Giulia (weiblich) Luca (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Asha (weiblich) Priya (weiblich) Arjun(Männlich) Rahul (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Aiko (weiblich) Hana (weiblich) Sakura(weiblich) Yuki (weiblich) Satoshi(Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
Natürlich (TTS_2_NATURAL) |
Standard (TTS_1_STANDARD) |
Chunk-Streaming | Ausgabeformate | ||
---|---|---|---|---|---|
VoiceId(Geschlecht) | SSML-Unterstützung? | VoiceId(Geschlecht) | SSML-Unterstützung? | ||
Jia (weiblich) Ling (weiblich) Mei (weiblich) Xiu (weiblich) Jun(Männlich) Hao (Männlich) Ming (Männlich) Wang (Männlich) |
Nicht unterstützt |
Nicht unterstützt |
Nicht unterstützt |
Ja |
|
SSML-Tags
Eine Liste der Text-zu-Sprachsprachen und Sprachmodelle, die SSML-Tags unterstützen, finden Sie unter Unterstützung von Sprache und Features.
SSML-Root-Tag. Alle mit SSML erweiterten Texte müssen in ein Paar von <speak>
-Tags eingeschlossen sein. Sowohl natürliche als auch Standardstimmen verfügbar.
Beispiel:
<speak> This is the root tag for SSML. </speak>
Fügen Sie Ihrer Nachricht eine Pause hinzu. Sowohl natürliche als auch Standardstimmen verfügbar.
Attribut | Value | Beschreibung |
---|---|---|
time |
|
Die Dauer der Pause in Sekunden. |
|
Die Dauer der Pause in Millisekunden. | |
strength |
none |
Keine Pause. Verwenden Sie none , um eine normalerweise auftretende Pause zu entfernen, z.B. nach einem Zeitraum. Entspricht "0ms". |
x-weak |
Hat die gleiche Stärke wie none , keine Pause. |
|
weak |
Legt eine Pause von derselben Dauer wie die Pause nach einem Komma fest. Entspricht "150ms". | |
medium |
Hat dieselbe Stärke wie weak . |
|
strong |
Legt eine Pause von derselben Dauer wie die Pause nach einem Satz fest. Entspricht "400ms". | |
x-strong : |
Legt eine Pause von derselben Dauer wie die Pause nach einem Absatz fest. Entspricht "800ms". |
Beispiel 1:
<speak>
Close your eyes, take a deep breath <break time="1s"/>
and let go of all the stress and worries.
Feel the gentle breeze <break time="1500ms"/> as
it caresses your skin, and listen to the
soothing sounds of nature.
</speak>
Beispiel 2:
<speak>
Let me give you a demonstration of the <break strength="x-strong"/> strong pause.
Now, let's try a <break strength="strong"/> medium pause.
Finally, we have a <break strength="weak"/> weak pause.
</speak>
Um eine Pause zwischen Zeilen oder Sätzen im Text hinzuzufügen. Derselbe Effekt wie der Endsatz mit Punkt oder <break strength="strong"/>
. Sowohl natürliche als auch Standardstimmen verfügbar.
<speak>
<s>This is the first sentence</s>
<s>This is the second sentence</s>
This is the last sentence.
</speak>
Um eine Pause am Ende der Absätze in Ihrem Text hinzuzufügen. Es bietet eine längere Pause als Muttersprachler in der Regel an Kommas oder am Ende eines Satzes. Sowohl natürliche als auch Standardstimmen verfügbar.
<speak>
<p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
<p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
Wird verwendet, um zu sagen, wie man bestimmte Zeichen, Wörter und Zahlen sagt. Sowohl natürliche als auch Standardstimmen verfügbar.
Attribut | Value | Beschreibung |
---|---|---|
interpret-as |
date |
Interpretiert den enthaltenen Text als gregorianisches Kalenderdatum. Das Format des Datums muss mit dem Attribut format angegeben werden. Das Datumstrennzeichen kann Schrägstrich (/), Bindestrich (-) und Punkt (.) sein. Leerzeichen sind in einer Datumszeichenfolge nicht zulässig. |
time |
Interpretiert den numerischen Text als Dauer in Stunden, Minuten und Sekunden. Der Text muss in hour:min oder hour:min:seconds sein. Optional kann "A.M." oder "P.M." folgen. Hier kann A.M. auch als AM, A.M. oder AM geschrieben werden. Die Einstellung detail = "1" weist den SSML-Parser an, die Textausgabe im 24-Stunden-Format anzugeben, und die Einstellung detail = "2" weist den SSML-Parser an, die Ausgabe im 12-Stunden-Format zu geben. |
|
fraction |
Interpretiert den numerischen Text als Bruch. Es funktioniert sowohl für gemeinsame als auch für gemischte Fraktionen. | |
digits |
Schreibe jede Ziffer einzeln aus, Beispiel 1234 als 1-2-3-4. | |
cardinal |
Interpretiert den numerischen Text als Kardinalzahl. | |
ordinal |
Interpretiert den numerischen Text als Ordnungszahl. Beispiel '1' wird als 1. interpretiert, '2' als '2.' usw. | |
spell-out |
Speichert jedes Zeichen des Textes, der zwischen dem Tag say-as eingeschlossen ist. Dazu gehören auch Satzzeichen, Sonderzeichen und Leerzeichen. |
|
unit |
Interpretiert einen numerischen Text als Messung. Der Wert muss entweder eine Zahl oder ein Bruchteil gefolgt von einer Einheit ohne Leerzeichen sein. |
Beispiel:
<speak>
<p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
For Example:
I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
Wird mit dem Attribut alias
verwendet, um ein anderes Wort (oder eine andere Aussprache) für ausgewählten Text wie ein Akronym oder eine Abkürzung zu ersetzen. Sowohl natürliche als auch Standardstimmen verfügbar.
Beispiel:
<speak>
My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
Ersetzt die Phoneme eines bestimmten Wortes durch das in Attribut ph
angegebene. Sowohl natürliche als auch Standardstimmen verfügbar.
Attribut | Value | Beschreibung |
---|---|---|
alphabet |
ipa |
Gibt an, dass das internationale phonetische Alphabet (IPA) verwendet wird. |
x-sampa |
Gibt an, dass das Phonetische Alphabet (X-SAMPA) der erweiterten Sprachbewertungsmethoden verwendet wird. | |
ph |
Gibt die Phoneme für die benutzerdefinierte Aussprache an |
Beispiel:
<speak>
Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>.
</speak>
Bezieht sich auf die Muster von Stress und Intonation in einer Sprache. Nur Standardstimmen sind verfügbar.
Attribut | Value | Beschreibung |
---|---|---|
rate |
"X%" |
Steuert die Geschwindigkeit der Sprache. Der Wert in Prozent muss kleiner als 100% sein, und die Erhöhung oder Verringerung der Rate ist relativ zur Standardsprachrate. X bedeutet Erhöhung (+X%) oder Abnahme (-X%) in der Rate. |
default |
Standardsprachrate | |
x-slow |
Sehr langsame Sprechrate. | |
slow |
Langsames Sprechen. | |
medium |
Mittlere Sprechrate. Standardsprachrate. | |
fast |
Schnell sprechende Rate. | |
x-fast |
Sehr schnelle Sprechrate. | |
volume |
"XdB" |
Steuert die Lautstärke der Sprache. Mit Hilfe dieses Attributs weisen Sie kein festes Volume zu, sondern ändern es relativ zum aktuellen Volume. X kann eine positive oder eine negative Zahl sein, je nachdem, ob Sie das Volumen erhöhen oder verringern möchten. |
default |
Standard-Volume. | |
x-soft |
Sehr geringes Volumen. Es ist ca. 12 dB niedriger als Standard. | |
soft |
Niedriges Volumen. Es ist ca. 6 dB niedriger als Standard. | |
medium |
Mittlere Volumenrate. Standardwert. | |
loud |
Lautes Volumen. Es ist ca. 6 dB höher als Standard. | |
x-loud |
Sehr laute Lautstärke. Es ist ca. 12 dB höher als Standard. | |
pitch |
default |
Standard-Pitch. |
x-low |
Sehr niedrige Tonhöhe. | |
low |
Niedrige Tonhöhe. | |
medium |
Mittelneigung Standardneigung. | |
high |
Hohe Tonhöhe. | |
x-high |
Sehr hoher Pitch. |
Beispiel 1:
<speak>
<prosody rate="0%">This is the default speaking rate.</prosody>
<prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody>
<prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>
Beispiel 2:
<speak>
<p>
<s>Hi, this is a normal sentence.</s>
<s>
<prosody volume="+10dB">This is a louder sentence!</prosody>
</s>
<s>
<prosody volume="-8dB">This is a quieter sentence.</prosody>
</s>
</p>
</speak>
Beispiel 3:
<speak>
<prosody pitch='default'>This is the default pitch.</prosody>
<prosody pitch='medium'>This is the default pitch.</prosody>
<prosody pitch='x-low'>This is the very low pitch.</prosody>
<prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
Ermöglicht die Verwendung mehrerer Stimmen in einer einzelnen SSML-Anforderung. Sowohl natürliche als auch Standardstimmen verfügbar.
Beispiel:
<speak>
<voice name="Bob">Hello Cindy, how are you doing.</voice>
<voice name="Cindy">Hello Bob, I am good, thank you.</voice>
<voice name="Bob">Hope you enjoyed your stay with us.</voice>
<voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>
Datenhandling
Nein, wir verwenden weder den Eingabetext, den Sie in den TTS-Dienst hochladen, noch die erzeugten Audiodateien zu irgendeinem Zweck, außer um Ihnen eine Sprachwiedergabe des Eingabetextes bereitzustellen.
Nein, wir verwenden den eingegebenen Text nicht, um den TTS-Service zu trainieren.
Der Eingabetext, den Sie an den TTS-Dienst senden, wird während der Generierung von Audiodateien im Speicher verarbeitet. Wir protokollieren vorübergehend einige Metadaten über Ihre Anfragen zur Verbesserung des Dienstes, zu Abrechnungs- und Messzwecken sowie zur Missbrauchsbekämpfung. Ein Beispiel für Metadaten ist die Zeit und Größe der Anforderung.