Verwendung von Text to Speech

Erfahren Sie, wie Sie Text zu Sprache verwenden.

Text to Speech (TTS) verwandelt geschriebenen Text in gesprochene Worte und überbrückt die Lücke zwischen dem geschriebenen Wort und der gesprochenen Stimme.

TTS-Tools bieten mehrere wertvolle Anwendungsfälle für Unternehmen, die Produktivität und Benutzererfahrung verbessern:

Hörbuchproduktion
Die TTS-Technologie kann die Konvertierung von geschriebenen Inhalten in Hörbücher automatisieren, wodurch Zeit und Ressourcen gespart werden und gleichzeitig die Präferenzen eines breiteren Publikums für Audioinhalte berücksichtigt werden.
Einhaltung der Barrierefreiheit
Unternehmen können sicherstellen, dass ihre digitalen Inhalte für Personen mit Sehbehinderung zugänglich sind, indem sie TTS verwenden, um Text in gesprochene Wörter umzuwandeln und Websites und Dokumente den Barrierefreiheitsbestimmungen entsprechend zu gestalten.
Interactive Voice Response (IVR)-Systeme
TTS ist von entscheidender Bedeutung für die Erstellung von natürlich klingenden Sprachaufforderungen in IVR-Systemen, die den Kundenservice verbessern, indem sie automatisierte, aber menschenähnliche Interaktionen wie Anrufweiterleitung und Informationsabruf bereitstellen.
Virtuelle Assistenten und Chatbots
Durch die Integration von TTS in virtuelle Assistenten und Chatbots können Unternehmen personalisierte und ansprechende Interaktionen mit Benutzern bereitstellen, sei es auf Websites oder über Messaging-Apps, um die Kundenbindung und den Support zu verbessern.
Verbesserte Produktdemonstrationen
Vertriebsteams können TTS verwenden, um audiogestützte Produktdemonstrationen oder Tutorials zu erstellen. Dies erleichtert potenziellen Kunden das Verständnis der Produktfunktionen und -vorteile, was zu fundierteren Kaufentscheidungen führt.

Funktionen

  • Synchrone API: Text-zu-Sprache unterstützt synchrone API über HTTPS-Protokolle. Sie können Texteingaben senden und Audio als Antwort erhalten.
  • Mehrere Ausgabeformate: Text-zu-Sprache-Format kann PCM-, MP3-, OGG- und JSON-Format generieren.
  • Standard- und Natural Voices: Text-to-Speech bietet männliche und weibliche Standard- und natürliche (menschliche) Stimmen.
  • Unterstützung von Chunk-Streaming: Der Text-to-Sprachservice unterstützt die Chunk-Übertragungscodierung über das HTTPS-Protokoll. Sie können eine Anfrage mit Eingabetext senden und die Audioausgabe in Blöcken abrufen. Dadurch wird die Latenz auf Clientseite verringert.
  • Speech Synthesis Markup Language (SSML): Sie können Speech Synthesis Markup Language (SSML) in Ihrer Text-zu-Sprache-Anfrage senden, um weitere Anpassungen an Ihre Audioantwort vorzunehmen. Geben Sie dazu Details zu Pausen und die Audioformatierung für Akronyme, Datumsangaben, Zeiten und Abkürzungen an.
    Hinweis

    SSML wird nur für einige englischsprachige (US-)Sprecher unterstützt und nicht für Sprecher in einer anderen Sprache unterstützt.
  • Mehrsprachige Unterstützung: Natürliches Textmodell unterstützt neun Sprachen, darunter:
    • Englisch (US)
    • Englisch (Britisch)
    • Spanisch (Spanien)
    • Portugiesisch (Brasilien)
    • Französisch
    • Italienisch
    • Hindi
    • Japanisch
    • Chinesisch (Mandarin)

Sprach- und Funktionsunterstützung

Sprachschlüssel

Sprache Sprachschlüssel
Englisch—Vereinigte Staaten en-US
Englisch – Großbritannien en-GB
Spanisch – Spanien es-ES
Portugiesisch-Brasilien pt-BR
Französisch - Französisch fr-FR
Italienisch – Italien it-IT
Hindi-Indien hi-IN
Japanisch – Japan ja-JP
Chinesisch - China Mandarin cmn-CN
English – United States Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Brian(Männlich)

Annabelle (weiblich)

Bob (Männlich)

Stacy (weiblich)

Phil (weiblich)

Cindy (weiblich)

Brad (Männlich)

Richard (Männlich)

Mary (weiblich)

Amanda (weiblich)

Grace (weiblich)

Laura (weiblich)

Megan (weiblich)

Olivia (weiblich)

Rachel (weiblich)

Stephanie (weiblich)

Teresa (weiblich)

Victoria(weiblich)

Ashley (weiblich)

Adam (Männlich)

Ethan (männlich)

Henry (Männlich)

Jack (Männlich)

Chris (Männlich)

Mark (männlich)

Paul (Männlich)

Steve (Männlich)

Kevin(Männlich)

Ja

Ja

Ja

Ja

Ja

Ja

Ja

Ja

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Nein

Brian(Männlich)

Annabelle (weiblich)

Bob (Männlich)

Stacy (weiblich)

Phil (weiblich)

Cindy (weiblich)

Ja

Ja

Ja

Ja

Ja

Ja

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Englisch–Great Britain Supported Features

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Charlotte (weiblich)

Emily (weiblich)

Sophie(weiblich)

Isla (weiblich)

Oliver (Männlich)

Harry (Männlich)

Theo (Männlich)

Arthur (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Spanisch - Spanien Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Carmen (weiblich)

Mateo (Männlich)

Lucas (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Portugiesisch - Brasilien Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Mariana(Weiblich)

Felix (Männlich)

Miguel (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Französisch - Frankreich Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Claire (weiblich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Italienisch – Italienisch unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Giulia (weiblich)

Luca (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Hindi-Indien Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Asha (weiblich)

Priya (weiblich)

Arjun(Männlich)

Rahul (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Japanisch-Japan Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Aiko (weiblich)

Hana (weiblich)

Sakura(weiblich)

Yuki (weiblich)

Satoshi(Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON
Chinesisch - China Mandarin Unterstützte Funktionen

Natürlich

(TTS_2_NATURAL)

Standard

(TTS_1_STANDARD)

Chunk-Streaming Ausgabeformate
VoiceId(Geschlecht) SSML-Unterstützung? VoiceId(Geschlecht) SSML-Unterstützung?

Jia (weiblich)

Ling (weiblich)

Mei (weiblich)

Xiu (weiblich)

Jun(Männlich)

Hao (Männlich)

Ming (Männlich)

Wang (Männlich)

Nicht unterstützt

Nicht unterstützt

Nicht unterstützt

Ja
  • MP3
  • PCM
  • OGG
  • JSON

SSML-Tags

Hinweis

Eine Liste der Text-zu-Sprachsprachen und Sprachmodelle, die SSML-Tags unterstützen, finden Sie unter Unterstützung von Sprache und Features.
<speak>

SSML-Root-Tag. Alle mit SSML erweiterten Texte müssen in ein Paar von <speak>-Tags eingeschlossen sein. Sowohl natürliche als auch Standardstimmen verfügbar.

Beispiel:

<speak> This is the root tag for SSML. </speak>
<break>

Fügen Sie Ihrer Nachricht eine Pause hinzu. Sowohl natürliche als auch Standardstimmen verfügbar.

<break>-Attribute
Attribut Value Beschreibung
time [number]s Die Dauer der Pause in Sekunden.
[number]ms Die Dauer der Pause in Millisekunden.
strength none Keine Pause. Verwenden Sie none, um eine normalerweise auftretende Pause zu entfernen, z.B. nach einem Zeitraum. Entspricht "0ms".
x-weak Hat die gleiche Stärke wie none, keine Pause.
weak Legt eine Pause von derselben Dauer wie die Pause nach einem Komma fest. Entspricht "150ms".
medium Hat dieselbe Stärke wie weak.
strong Legt eine Pause von derselben Dauer wie die Pause nach einem Satz fest. Entspricht "400ms".
x-strong: Legt eine Pause von derselben Dauer wie die Pause nach einem Absatz fest. Entspricht "800ms".

Beispiel 1:

<speak>
    Close your eyes, take a deep breath <break time="1s"/>
    and let go of all the stress and worries.
    Feel the gentle breeze <break time="1500ms"/> as
    it caresses your skin, and listen to the
    soothing sounds of nature.
</speak>

Beispiel 2:

<speak> 
    Let me give you a demonstration of the <break strength="x-strong"/> strong pause. 
    Now, let's try a <break strength="strong"/> medium pause. 
    Finally, we have a <break strength="weak"/> weak pause. 
</speak>
<s>

Um eine Pause zwischen Zeilen oder Sätzen im Text hinzuzufügen. Derselbe Effekt wie der Endsatz mit Punkt oder <break strength="strong"/>. Sowohl natürliche als auch Standardstimmen verfügbar.

<speak>
    <s>This is the first sentence</s>
    <s>This is the second sentence</s>
    This is the last sentence.
</speak>
<p>

Um eine Pause am Ende der Absätze in Ihrem Text hinzuzufügen. Es bietet eine längere Pause als Muttersprachler in der Regel an Kommas oder am Ende eines Satzes. Sowohl natürliche als auch Standardstimmen verfügbar.

<speak>
    <p>Good morning, ladies and gentlemen. I would like to take this opportunity to welcome you all to our annual conference on artificial intelligence.</p>
    <p>Our keynote speaker for this event is Dr. Samantha Johnson, a renowned expert in machine learning and data analytics.</p>
</speak>
<say-as>

Wird verwendet, um zu sagen, wie man bestimmte Zeichen, Wörter und Zahlen sagt. Sowohl natürliche als auch Standardstimmen verfügbar.

Attribut Value Beschreibung
interpret-as date Interpretiert den enthaltenen Text als gregorianisches Kalenderdatum. Das Format des Datums muss mit dem Attribut format angegeben werden. Das Datumstrennzeichen kann Schrägstrich (/), Bindestrich (-) und Punkt (.) sein. Leerzeichen sind in einer Datumszeichenfolge nicht zulässig.
time Interpretiert den numerischen Text als Dauer in Stunden, Minuten und Sekunden. Der Text muss in hour:min oder hour:min:seconds sein. Optional kann "A.M." oder "P.M." folgen. Hier kann A.M. auch als AM, A.M. oder AM geschrieben werden. Die Einstellung detail = "1" weist den SSML-Parser an, die Textausgabe im 24-Stunden-Format anzugeben, und die Einstellung detail = "2" weist den SSML-Parser an, die Ausgabe im 12-Stunden-Format zu geben.
fraction Interpretiert den numerischen Text als Bruch. Es funktioniert sowohl für gemeinsame als auch für gemischte Fraktionen.
digits Schreibe jede Ziffer einzeln aus, Beispiel 1234 als 1-2-3-4.
cardinal Interpretiert den numerischen Text als Kardinalzahl.
ordinal Interpretiert den numerischen Text als Ordnungszahl. Beispiel '1' wird als 1. interpretiert, '2' als '2.' usw.
spell-out Speichert jedes Zeichen des Textes, der zwischen dem Tag say-as eingeschlossen ist. Dazu gehören auch Satzzeichen, Sonderzeichen und Leerzeichen.
unit Interpretiert einen numerischen Text als Messung. Der Wert muss entweder eine Zahl oder ein Bruchteil gefolgt von einer Einheit ohne Leerzeichen sein.

Beispiel:

<speak>
    <p>Say As tag controls how special types of words are spoken, such as numbers, currencies, units, dates, times and acronyms</p>
    For Example:
    I can speak acronym <say-as interpret-as="spell-out">IRFC</say-as> for Indian Railway Finance Corporation.
    I can speak India currency <say-as interpret-as="currency">₹5200</say-as>.
    I can speak US currency <say-as interpret-as="currency">$5200</say-as>.
    I can speak dimensions <say-as interpret-as="unit">5cm</say-as> length and <say-as interpret-as="unit">10cm</say-as> width.
    I can speak temperature <say-as interpret-as="unit">25°C</say-as>.
    I can speak fraction values <say-as interpret-as="fraction">3/4</say-as>.
    I can speak ordinals <say-as interpret-as="ordinal">1731</say-as> Rank.
    I can speak digits <say-as interpret-as="digits">1234 and 5678</say-as>.
    I can speak date <say-as interpret-as="date" format="ymd">2022-11-13</say-as> and time <say-as interpret-as="time">10:00 AM</say-as>.
</speak>
<sub>

Wird mit dem Attribut alias verwendet, um ein anderes Wort (oder eine andere Aussprache) für ausgewählten Text wie ein Akronym oder eine Abkürzung zu ersetzen. Sowohl natürliche als auch Standardstimmen verfügbar.

Beispiel:

<speak>
    My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny.
</speak>
<phonem>

Ersetzt die Phoneme eines bestimmten Wortes durch das in Attribut ph angegebene. Sowohl natürliche als auch Standardstimmen verfügbar.

Attribut Value Beschreibung
alphabet ipa  Gibt an, dass das internationale phonetische Alphabet (IPA) verwendet wird.
x-sampa Gibt an, dass das Phonetische Alphabet (X-SAMPA) der erweiterten Sprachbewertungsmethoden verwendet wird.
ph Gibt die Phoneme für die benutzerdefinierte Aussprache an

Beispiel:

<speak>
    Para is short for <phoneme alphabet="ipa" ph='pˈæɹəɡɹˌæf'>para</phoneme>. 
</speak>
<Prosody>

Bezieht sich auf die Muster von Stress und Intonation in einer Sprache. Nur Standardstimmen sind verfügbar.

Attribut Value Beschreibung
rate "X%"

Steuert die Geschwindigkeit der Sprache. Der Wert in Prozent muss kleiner als 100% sein, und die Erhöhung oder Verringerung der Rate ist relativ zur Standardsprachrate.

X bedeutet Erhöhung (+X%) oder Abnahme (-X%) in der Rate.

default Standardsprachrate
x-slow Sehr langsame Sprechrate.
slow Langsames Sprechen.
medium Mittlere Sprechrate. Standardsprachrate.
fast Schnell sprechende Rate.
x-fast Sehr schnelle Sprechrate.
volume "XdB"

Steuert die Lautstärke der Sprache. Mit Hilfe dieses Attributs weisen Sie kein festes Volume zu, sondern ändern es relativ zum aktuellen Volume.

X kann eine positive oder eine negative Zahl sein, je nachdem, ob Sie das Volumen erhöhen oder verringern möchten.

default Standard-Volume.
x-soft Sehr geringes Volumen. Es ist ca. 12 dB niedriger als Standard.
soft Niedriges Volumen. Es ist ca. 6 dB niedriger als Standard.
medium Mittlere Volumenrate. Standardwert.
loud Lautes Volumen. Es ist ca. 6 dB höher als Standard.
x-loud Sehr laute Lautstärke. Es ist ca. 12 dB höher als Standard.
pitch default Standard-Pitch.
x-low Sehr niedrige Tonhöhe.
low Niedrige Tonhöhe.
medium Mittelneigung Standardneigung.
high Hohe Tonhöhe.
x-high Sehr hoher Pitch.

Beispiel 1:

<speak>
    <prosody rate="0%">This is the default speaking rate.</prosody> 
    <prosody rate="-50%">Decrease the speaking rate by half the default rate.</prosody> 
    <prosody rate="+50%">Increase the speaking rate by fifty percent of the default rate.</prosody>
</speak>

Beispiel 2:

<speak>
    <p>
        <s>Hi, this is a normal sentence.</s>
        <s>
            <prosody volume="+10dB">This is a louder sentence!</prosody>
        </s> 
        <s>
            <prosody volume="-8dB">This is a quieter sentence.</prosody>
        </s>
    </p>
</speak>

Beispiel 3:

<speak>
    <prosody pitch='default'>This is the default pitch.</prosody>
    <prosody pitch='medium'>This is the default pitch.</prosody> 
    <prosody pitch='x-low'>This is the very low pitch.</prosody> 
    <prosody pitch='x-high'>This is the very high pitch.</prosody>
</speak>
<voice>

Ermöglicht die Verwendung mehrerer Stimmen in einer einzelnen SSML-Anforderung. Sowohl natürliche als auch Standardstimmen verfügbar.

Beispiel:

<speak>
    <voice name="Bob">Hello Cindy, how are you doing.</voice>
    <voice name="Cindy">Hello Bob, I am good, thank you.</voice>
    <voice name="Bob">Hope you enjoyed your stay with us.</voice>
    <voice name="Cindy">Yes, it was lovely. I enjoyed the food and the services a lot. Thank you for hosting me. I would love to be back sometime soon.</voice>
</speak>

Datenhandling

Verwendet Oracle den Eingabetext, den ich in den TTS-Service hochlade, oder die Audiodateien, die der Service generiert, für andere Zwecke?

Nein, wir verwenden weder den Eingabetext, den Sie in den TTS-Dienst hochladen, noch die erzeugten Audiodateien zu irgendeinem Zweck, außer um Ihnen eine Sprachwiedergabe des Eingabetextes bereitzustellen.

Verwendet Oracle meinen Eingabetext, um den TTS-Service zu trainieren?

Nein, wir verwenden den eingegebenen Text nicht, um den TTS-Service zu trainieren.

Werden der an den TTS-Service gesendete Eingabetext, die Ergebnisse oder andere Informationen zur Anforderung selbst auf Oracle-Servern gespeichert?

Der Eingabetext, den Sie an den TTS-Dienst senden, wird während der Generierung von Audiodateien im Speicher verarbeitet. Wir protokollieren vorübergehend einige Metadaten über Ihre Anfragen zur Verbesserung des Dienstes, zu Abrechnungs- und Messzwecken sowie zur Missbrauchsbekämpfung. Ein Beispiel für Metadaten ist die Zeit und Größe der Anforderung.