Live-Transkription verwenden

Erstellen und verwalten Sie Live-Transkriptionsjobs im Speech-Service.

Die Live-Transkriptionsfunktion ermöglicht die Echtzeit-Transkription, mit der Sie Audio-Streams senden und Textergebnisse in Echtzeit empfangen können. Die Echtzeittranskription ist für viele Anwendungsfälle in Branchen wie Gesundheitswesen, Callcentern und Medien erforderlich. Beispielsweise verwenden Ärzte und Pflegekräfte ein medizinisches Diktat, das Echtzeitfunktionen erfordert und die Arbeitseffizienz erhöht. Mit der Veröffentlichung von Live-Transkribieren können Sie in weniger als wenigen Sekunden eine genaue Transkription in Ihrer Anwendung erhalten. Sie können das eingebettete Textfenster verwenden, um eine Live-Transkribierung zu versuchen, oder Sie finden im API-Dokument Informationen zur programmatischen Integration mit dem OCI-Echtzeittranskriptionsdienst.

Live-Transkriptionsjob erstellen

Erstellen und übermitteln Sie einen Sprach-Live-Transkriptionsjob, um einen Live-Audio-Stream in Text zu transkribieren.

  1. Öffnen Sie das Navigationsmenü, und klicken Sie auf Analysen und KI. Klicken Sie unter KI-Services auf Sprache.
  2. Klicken Sie im linken Navigationsmenü auf Live transcribe.
  3. Wählen Sie unter Listenbereich das Compartment aus, in dem Sie arbeiten möchten.
  4. (Optional) Wählen Sie im Abschnitt Transkription konfigurieren Werte für eine oder mehrere der folgenden Optionen aus, um die Transkription anzupassen:
    • Domain auswählen: Wählen Sie die Domain des zu verwendenden Sprachmodells aus.
    • Sprache auswählen: Wählen Sie die Sprache aus, in der transkribiert werden soll.
    • Interpunktion: Konfigurieren Sie Interpunktion in den generierten Transkriptionen. Es stehen drei Optionen zur Verfügung: Keine ohne Satzzeichen (Standardwert), Automatisch, um Satzzeichen automatisch einzufügen, und Gesprochen, um Satzzeichen einzufügen, wenn sie mündlich gesprochen werden.
    • Schwellenwert für partielle Stille: Geben Sie an, wie lange der Service in Millisekunden auf zusätzliche Sprache wartet, nachdem er die Erkennung von Sprachaktivitäten beendet hat, bevor die Spracherkennung beendet wird.
    • Schwellenwert für endgültige Stille: Geben Sie an, wie viele Millisekunden Stille nach dem Sprechen eines Worts vorhanden ist, auf das der Service wartet, um die Session zu beenden.
    • Teilweise Ergebnisstabilität: Wählen Sie den Konfidenzwert aus, der für die neuesten Token erforderlich ist, bevor Sie diese als Teil eines neuen Teilergebnisses zurückgeben.
    • Anpassungen aktivieren: Aktivieren Sie dieses Kontrollkästchen, um die Session anzupassen.
      • Wählen Sie die zu verwendende Anpassung aus. Ändern Sie gegebenenfalls die Compartments.
      • Klicken Sie auf Entitys überschreiben. Nur Anpassungen mit mehreren Entitylisten können außer Kraft gesetzt werden
  5. Um eine Session zu starten, klicken Sie auf Session starten, und beginnen Sie zu sprechen.
  6. Um eine Session zu stoppen, stoppen Sie das Sprechen, und klicken Sie auf Session stoppen.
  7. (Optional) Klicken Sie auf JSON anzeigen, um die JSON-Datei anzuzeigen.
  8. (Optional) Um die Session zurückzusetzen, klicken Sie auf Zurücksetzen.