Création d'un travail de retranscription

Créez et soumettez un travail pour transcrire un ou plusieurs fichiers multimédias dans des fichiers texte du service Speech.

Avant de commencer

  • Stockez les fichiers multimédias à transcrire dans un bucket Object Storage.

  • Pour comparer les modèles Whisper et Oracle ASR pour la création de travaux de transcription, reportez-vous à Comparaison des modèles Whisper et Oracle ASR.

  • Pour créer une tâche de transcription, procédez comme suit :
    1. Ouvrez le menu de navigation et cliquez sur Analytics et IA. Sous Services d'IA, cliquez sur Discours.
    2. Dans le menu de navigation de gauche, cliquez sur Travaux de transcription.
    3. Sous Portée de la liste, sélectionnez le compartiment dans lequel vous voulez travailler.
    4. Cliquez sur Créer un travail.
    5. Sur la page d'informations de base, entrez un nom unique (255 caractères au maximum) pour le projet. Le nom doit inclure un ou plusieurs caractères alphanumériques, tirets ou traits de soulignement dans n'importe quel ordre. Si vous n'indiquez aucun nom, un nom est automatiquement généré.

      Par exemple :

      AiSpeechTranscriptionJob20220804134759

    6. (Facultatif) Saisissez une description pour le travail (limite de 400 caractères).
    7. Sélectionnez le compartiment dans lequel créer le travail, s'il est différent de celui affiché.
    8. Sous Entrée, sélectionnez un bucket d'entrée de données contenant le fichier média à transcrire.

      Si le bucket souhaité ne se trouve pas dans le compartiment sélectionné, changez de compartiment.

    9. Sous Sortie, sélectionnez l'emplacement de stockage des fichiers de sortie, soit dans le bucket d'entrée, soit dans un autre bucket. Pour utiliser un autre bucket, sélectionnez-le.
    10. (Facultatif) Entrez un préfixe de sortie pour séparer et trier les fichiers du bucket.

      Par exemple, vous pouvez entrer call_ctr pour les fichiers multimédias du centre d'appels.

      Vous pouvez également créer un dossier de sortie dans votre bucket à l'aide d'une barre oblique (/). Par exemple, MyResults/ stocke tous les fichiers transcrits dans un dossier MyResults du bucket.

    11. Sélectionnez le type de modèle de l'emploi que vous créez.
      Remarque

      Les types de modèle pris en charge sont Oracle, Whisper Medium, Whisper Large V2 (sur demande d'assistance) et Whisper Large V3 Turbo (nouveau). Pour déterminer le type de modèle à utiliser, reportez-vous à Comparaison des modèles Whisper et Oracle ASR.
    12. Sélectionnez la langue du fichier média.

      Vous pouvez rechercher la langue appropriée par langue. English (US English for ORACLE) est la valeur par défaut.

      Les modèles Whisper prennent en charge l'identification de la langue et peuvent être utilisés en sélectionnant auto comme code de langue dans la liste déroulante.

    13. (Facultatif) Pour inclure les formats SRT et JSON dans la transcription, sélectionnez Obtenir le format de transcription SRT.
    14. Si vous ne souhaitez pas que votre transcription soit ponctuée, désélectionnez Activer la ponctuation.
      Remarque

      L'option Activer la ponctuation est sélectionnée pour les modèles Whisper et ne peut pas être effacée.
    15. (Facultatif) Pour identifier les haut-parleurs dans le fichier d'entrée, sélectionnez Activer la diarisation.

      Vous pouvez laisser le service Speech détecter automatiquement le nombre de locuteurs uniques dans le fichier d'entrée ou saisir un nombre. Le nombre minimum de haut-parleurs est de 2 et le nombre maximum est de 16.

      Remarque

      L'utilisation de la diarisation augmente la latence de la tâche de transcription, c'est pourquoi cette option est désactivée par défaut.

    16. Pour ajouter des filtres afin de modifier la façon dont le fichier de sortie est généré, cliquez sur Ajouter un filtre.
      1. Sélectionnez un type de filtre. Le profil est la valeur par défaut.
      2. Sélectionnez le mode de filtrage :

        Par exemple, le filtre de profanité offre les modes suivants :

        • Masque : toute profanité détectée est masquée dans la transcription par des astérisques, à l'exception de la première lettre.

        • Enlever : toute profanité détectée est remplacée par un astérisque dans la transcription.

        • Balise : le profil n'est ni masqué ni enlevé, mais est marqué comme TYPE: "Profanity" dans la transcription.

    17. (Facultatif) Pour ajouter d'autres paramètres, cliquez sur Ajouter des paramètres supplémentaires, puis entrez une clé et sa valeur.
      Exemple :
      • Clé : il s'agit de la valeur de clé, par exemple, whisperPrompt.

        Vous pouvez ajouter autant de clés que nécessaire. Pour supprimer une clé, sélectionnez la croix en regard du champ Valeur.

        Si le modèle Whisper est sélectionné, ce champ peut être utilisé pour transmettre une invite pour aider à la transcription. La seule clé prise en charge est whisperPrompt. Si d'autres clés sont transmises, la demande échoue, car elle est considérée comme une entrée non valide.

        La longueur maximale de l'invite de valeur est de 4000 caractères, autorise uniquement les caractères alphanumériques et la ponctuation (. , ! ? - : ; ' "), et est spécifique à Whisper. La validation est effectuée en arrière-plan et le travail échoue si l'invite dépasse cette limite.

      • Valeur : valeur d'invite pouvant être plusieurs mots. Le champ est un exemple pour afficher tout le texte saisi.
      Remarque

      L'ajout d'une invite au modèle chuchoté peut parfois donner des résultats inattendus.
    18. (Facultatif) Cliquez sur Afficher les options avancées pour affecter des balises au travail. Les balises vous aident à localiser et à suivre facilement les ressources en sélectionnant un espace de noms de balise, puis en saisissant la clé et la valeur.

      La rubrique consacrée à Tagging décrit les différentes balises que vous pouvez utiliser pour organiser et rechercher des ressources, notamment les balises de suivi des coûts.

    19. Cliquez sur Suivant pour choisir les fichiers du travail.
    20. Cochez les cases correspondant aux fichiers multimédias que vous souhaitez retranscrire ou sélectionnez-les tous en cochant la case en regard de Nom.
      Remarque

      • La taille de fichier maximale est de 2 Go.

      • La durée du fichier est de 4 heures au maximum.

    21. Cliquez sur Soumettre pour démarrer le travail.

      Un travail peut être exécuté en secondes ou en heures en fonction de la taille et du nombre de fichiers que vous sélectionnez. En cours d'exécution, le travail est dans un état en cours et passe à l'état Succès ou Echec à la fin. Vous pouvez sélectionner un travail pour accéder à sa page de détails.

      • Chaque travail peut comporter jusqu'à 100 tâches.

      • Les emplois sont conservés pendant 90 jours.

  • Utilisez la commande create et les paramètres requis pour créer un travail de transcription.

    oci speech transcription-job create [OPTIONS]

    Evitez de saisir des informations confidentielles.

    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.

  • Utilisez les opérations CreateTranscriptionJob et ChangeTranscriptionJobCompartment pour créer un travail.