Transkriptionsjobs erstellen

Erstellen Sie einen Job, und leiten Sie ihn weiter, um eine oder mehrere Mediendateien in Textdateien im Speech-Service zu transkribieren.

Bevor Sie beginnen

  • Speichern Sie die Mediendateien, die Sie transkribieren möchten, in einem Object Storage-Bucket.

  • Informationen zum Vergleich der Whisper- und Oracle ASR-Modelle zur Erstellung von Transkriptionsjobs finden Sie unter Flüster- und Oracle ASR-Modelle vergleichen.

Vergleich von Whisper- und Oracle ASR-Modellen

Vergleichen Sie das Whisper-Modell und das Oracle ASR-Modell zum Erstellen von Transkriptionsjobs.

Neben dem nativen Oracle ASR-Sprachmodell unterstützt Speech das Whisper-Modell von OpenAI. Whisper wird auf einem großen Korpus mehrsprachiger Daten trainiert, die aus dem Web gesammelt werden, und unterstützt die dateibasierte Sprach-zu-Text-Transkription für über 50 Sprachen. Dieses Modell verwendet dieselben Serviceendpunkte und API- und SDK-Schnittstellen wie das Oracle ASR-Modell, um Ihnen Flexibilität und Kompatibilität zu bieten. Darüber hinaus verwendet das Whisper-Modell Diarisation, um einzelne Lautsprecher in der Aufnahme zu kennzeichnen.

Verwenden Sie den folgenden Vergleich der Whisper- und Oracle ASR-Modelle, um das richtige Modell beim Erstellen eines Transkriptionsjobs auszuwählen.

Feature Oracle ASR-Modell Flüstermodell in OCI Speech
Echtzeit-Transkriptionen Unterstützt Nicht unterstützt
Große Datei Bis zu 2 GB Bis zu 2 GB
Zeitstempel auf Word-Ebene Unterstützt Unterstützt
Dateiformat AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM
Mehrsprachiger Support Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch und Hindi Entspricht dem Oracle ASR-Modell und 50 anderen Sprachen*
Diarisierung Unterstützt Unterstützt

* OpenAI Flüstern – Häufig gestellte Fragen

  • So erstellen Sie einen Transkriptionsjob:
    1. Öffnen Sie das Navigationsmenü, und klicken Sie auf Analysen und KI. Klicken Sie unter KI-Services auf Sprache.
    2. Klicken Sie im linken Navigationsmenü auf Transkriptionsjobs.
    3. Wählen Sie unter Geltungsbereich auflisten das Compartment aus, in dem Sie arbeiten möchten.
    4. Klicken Sie auf Job erstellen.
    5. Geben Sie auf der Basisinformationsseite einen eindeutigen Namen (maximal 255 Zeichen) für das Projekt ein. Der Name muss mindestens ein alphanumerisches Zeichen, Bindestriche oder Unterstriche in beliebiger Reihenfolge enthalten. Wenn Sie keinen Namen angeben, wird ein Name automatisch generiert.

      Beispiele:

      AiSpeechTranscriptionJob20220804134759

    6. (Optional) Geben Sie eine Beschreibung (mit maximal 400 Zeichen) für den Job ein.
    7. Wählen Sie das Compartment aus, in dem der Job erstellt werden soll, sofern es sich von dem angezeigten Compartment unterscheidet.
    8. Wählen Sie unter Eingabe einen Dateneingabe-Bucket aus, der die Mediendatei enthält, die Sie transkribieren möchten.

      Wenn sich der gewünschte Bucket nicht im ausgewählten Compartment befindet, ändern Sie das Compartment.

    9. Wählen Sie unter Ausgabe aus, wo die Ausgabedateien gespeichert werden sollen, entweder im Eingabe-Bucket oder in einem anderen Bucket. Um einen anderen Bucket zu verwenden, wählen Sie ihn aus.
    10. (Optional) Geben Sie ein Ausgabepräfix ein, um die Dateien im Bucket zu trennen und zu sortieren.

      Beispiel: Sie können call_ctr für Call Center-Mediendateien eingeben.

      Sie können auch einen Ausgabeordner in Ihrem Bucket mit einem Schrägstrich (/) erstellen. Beispiel: MyResults/ speichert alle transkribierten Dateien in einem MyResults-Ordner im Bucket.

    11. Wählen Sie den Modelltyp des Jobs aus, den Sie erstellen.
      Hinweis

      Unter Flüster- und Oracle ASR-Modelle vergleichen wird der zu verwendende Modelltyp bestimmt.
    12. Wenn Sie im vorherigen Schritt ein Whisper-Modell ausgewählt haben, wählen Sie den Modellsubtyp aus. Ansonsten gehen Sie weiter zum nächsten Schritt.
    13. Wählen Sie die Sprache der Mediendatei aus.

      Sie können die entsprechende Sprache nach Sprache oder nach Sprachcode (für das Oracle-Modell) suchen. US-Englisch ist die Standardeinstellung.

    14. (Optional) Um sowohl das SRT- als auch das JSON-Format in die Transkription aufzunehmen, wählen Sie SRT-Transkriptionsformat abrufen aus.
    15. Wenn Sie nicht möchten, dass Ihre Transkription unterbrochen wird, deaktivieren Sie Interpunktion aktivieren.
      Hinweis

      Interpunktion aktivieren ist für Whisper-Modelle ausgewählt und kann nicht gelöscht werden.
    16. (Optional) Um die Lautsprecher in der Eingabedatei zu identifizieren, wählen Sie Diarisierung aktivieren aus.

      Sie können den Sprachdienst automatisch die Anzahl der eindeutigen Lautsprecher in der Eingabedatei erkennen lassen oder eine Zahl eingeben. Die Mindestanzahl an Lautsprechern beträgt 2 und die maximale Anzahl 16.

      Hinweis

      Durch die Diarisierung wird die Latenzzeit der Transkriptionsaufgabe erhöht. Aus diesem Grund ist diese Option standardmäßig deaktiviert.

    17. Um Filter hinzuzufügen, die das Generieren der Ausgabedatei ändern, klicken Sie auf Filter hinzufügen.
      1. Wählen Sie einen Filtertyp. Profanität ist die Standardeinstellung.
      2. Wählen Sie den Filtermodus aus:

        Beispiel: Der Profilfilter bietet folgende Modi:

        • Maske: Jede erkannte Ausführlichkeit wird in der Transkription mit Sternchen außer dem ersten Buchstaben maskiert.

        • Entfernen: Alle erkannten Fehler werden in der Transkription durch ein Sternchen ersetzt.

        • Tag: Profanity wird nicht maskiert oder entfernt, sondern in der Transkription als TYPE: "Profanity" markiert.

    18. (Optional) Klicken Sie auf Erweiterte Optionen anzeigen, um dem Job Tags zuzuweisen. Mit Tags können Sie Ressourcen einfach finden und verfolgen, indem Sie einen Tag-Namespace auswählen und dann Schlüssel und Wert eingeben.

      Unter Tagging werden die verschiedenen Tags beschrieben, mit denen Sie Ressourcen organisieren und suchen können, einschließlich Kostenverfolgungstags.

    19. Klicken Sie auf Weiter, um die Dateien für den Job auszuwählen.
    20. Aktivieren Sie die Kontrollkästchen für die Mediendateien, die Sie transkribieren möchten, oder wählen Sie sie alle aus, indem Sie das Kontrollkästchen neben Name aktivieren.
      Hinweis

      • Die maximale Dateigröße beträgt 2 GB.

      • Die Dateidauer beträgt maximal 4 Stunden.

    21. Klicken Sie auf Weiterleiten, um den Job zu starten.

      Ein Job kann je nach Größe und Anzahl der ausgewählten Dateien in Sekunden oder Stunden ausgeführt werden. Während der Ausführung befindet sich der Job in einem in Bearbeitung befindlichen Status, der sich nach Abschluss in "Erfolgreich" oder "Nicht erfolgreich" ändert. Sie können einen Job auswählen, um zur Detailseite zu gelangen.

      • Jeder Job kann bis zu 100 Aufgaben enthalten.

      • Jobs werden 90 Tage aufbewahrt.

  • Verwenden Sie den Befehl create und die erforderlichen Parameter, um einen Transkriptionsjob zu erstellen.

    oci speech transcription-job create [OPTIONS]

    Geben Sie dabei keine vertraulichen Informationen ein.

    Eine vollständige Liste der Flaggen und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.

  • Erstellen Sie einen Job mit den Vorgängen CreateTranscriptionJob und ChangeTranscriptionJobCompartment.