Création d'un travail de retranscription

Créez et soumettez un travail pour transcrire un ou plusieurs fichiers multimédias dans des fichiers texte du service Speech.

Avant de commencer

  • Stockez les fichiers multimédias à transcrire dans un bucket Object Storage.

  • Afin de comparer les modèles Whisper et Oracle ASR pour la création de travaux de transcription, reportez-vous à Comparaison des modèles Whisper et Oracle ASR.

Comparaison des modèles Whisper et Oracle ASR

Comparez le modèle Whisper et le modèle Oracle ASR pour créer des travaux de transcription.

Outre le modèle vocal Oracle ASR natif, Speech prend en charge le modèle Whisper à partir de OpenAI. Whisper est formé sur un grand nombre de données multilingues collectées sur le Web et prend en charge la transcription vocale-texte basée sur des fichiers pour plus de 50 langues. Ce modèle utilise les mêmes adresses de service et interfaces d'API et de kit SDK que le modèle Oracle ASR pour vous offrir flexibilité et compatibilité. En outre, le modèle Whisper utilise la diarisation pour étiqueter les haut-parleurs individuels dans l'enregistrement.

Utilisez la comparaison suivante des modèles Whisper et Oracle ASR pour choisir le modèle approprié lors de la création d'un travail de transcription.

Caractéristique Modèle ASR Oracle Modèle Whisper dans OCI Speech
Transcriptions en temps réel Prise en charge Non pris en charge
Taille de fichier volumineuse Jusqu'à 2 Go Jusqu'à 2 Go
Horodatage au niveau du mot pris en charge pris en charge
Format de fichier AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM
Support multilingue Anglais, espagnol, français, allemand, italien, portugais et hindi Identique au modèle Oracle ASR plus 50 autres langues*
Diarisation pris en charge pris en charge

* OpenAI FAQ Whisper

  • Pour créer une tâche de transcription, procédez comme suit :
    1. Ouvrez le menu de navigation et cliquez sur Analytics et IA. Sous Services d'IA, cliquez sur Discours.
    2. Dans le menu de navigation de gauche, cliquez sur Travaux de transcription.
    3. Sous Portée de la liste, sélectionnez le compartiment dans lequel vous voulez travailler.
    4. Cliquez sur Créer un travail.
    5. Sur la page d'informations de base, entrez un nom unique (255 caractères au maximum) pour le projet. Le nom doit inclure un ou plusieurs caractères alphanumériques, tirets ou traits de soulignement dans n'importe quel ordre. Si vous n'indiquez aucun nom, un nom est automatiquement généré.

      Par exemple :

      AiSpeechTranscriptionJob20220804134759

    6. (Facultatif) Saisissez une description pour le travail (limite de 400 caractères).
    7. Sélectionnez le compartiment dans lequel créer le travail, s'il est différent de celui affiché.
    8. Sous Entrée, sélectionnez un bucket d'entrée de données contenant le fichier média à transcrire.

      Si le bucket souhaité ne se trouve pas dans le compartiment sélectionné, changez de compartiment.

    9. Sous Sortie, sélectionnez l'emplacement de stockage des fichiers de sortie, soit dans le bucket d'entrée, soit dans un autre bucket. Pour utiliser un autre bucket, sélectionnez-le.
    10. (Facultatif) Entrez un préfixe de sortie pour séparer et trier les fichiers du bucket.

      Par exemple, vous pouvez entrer call_ctr pour les fichiers multimédias du centre d'appels.

      Vous pouvez également créer un dossier de sortie dans votre bucket à l'aide d'une barre oblique (/). Par exemple, MyResults/ stocke tous les fichiers transcrits dans un dossier MyResults du bucket.

    11. Sélectionnez le type de modèle de l'emploi que vous créez.
      Remarque

      Pour déterminer le type de modèle à utiliser, reportez-vous à Comparaison des modèles Whisper et Oracle ASR.
    12. Si vous avez sélectionné un modèle Whisper à l'étape précédente, sélectionnez le sous-type de modèle. Sinon, passez à l'étape suivante.
    13. Sélectionnez la langue du fichier média.

      Vous pouvez rechercher la langue appropriée par langue ou par code de langue (pour le modèle Oracle). L'anglais américain est la langue par défaut.

    14. (Facultatif) Pour inclure les formats SRT et JSON dans la transcription, sélectionnez Obtenir le format de transcription SRT.
    15. Si vous ne souhaitez pas que votre transcription soit ponctuée, désélectionnez Activer la ponctuation.
      Remarque

      L'option Activer la ponctuation est sélectionnée pour les modèles Whisper et ne peut pas être effacée.
    16. (Facultatif) Pour identifier les haut-parleurs dans le fichier d'entrée, sélectionnez Activer la diarisation.

      Vous pouvez laisser le service Speech détecter automatiquement le nombre de locuteurs uniques dans le fichier d'entrée ou saisir un nombre. Le nombre minimum de haut-parleurs est de 2 et le nombre maximum est de 16.

      Remarque

      L'utilisation de la diarisation augmente la latence de la tâche de transcription, c'est pourquoi cette option est désactivée par défaut.

    17. Pour ajouter des filtres afin de modifier la façon dont le fichier de sortie est généré, cliquez sur Ajouter un filtre.
      1. Sélectionnez un type de filtre. Le profil est la valeur par défaut.
      2. Sélectionnez le mode de filtrage :

        Par exemple, le filtre de profanité offre les modes suivants :

        • Masque : toute profanité détectée est masquée dans la transcription par des astérisques, à l'exception de la première lettre.

        • Enlever : toute profanité détectée est remplacée par un astérisque dans la transcription.

        • Balise : le profil n'est ni masqué ni enlevé, mais est marqué comme TYPE: "Profanity" dans la transcription.

    18. (Facultatif) Cliquez sur Afficher les options avancées pour affecter des balises au travail. Les balises vous aident à localiser et à suivre facilement les ressources en sélectionnant un espace de noms de balise, puis en saisissant la clé et la valeur.

      La rubrique consacrée à Tagging décrit les différentes balises que vous pouvez utiliser pour organiser et rechercher des ressources, notamment les balises de suivi des coûts.

    19. Cliquez sur Suivant pour choisir les fichiers du travail.
    20. Cochez les cases correspondant aux fichiers multimédias que vous souhaitez retranscrire ou sélectionnez-les tous en cochant la case en regard de Nom.
      Remarque

      • La taille de fichier maximale est de 2 Go.

      • La durée du fichier est de 4 heures au maximum.

    21. Cliquez sur Soumettre pour démarrer le travail.

      Un travail peut être exécuté en secondes ou en heures en fonction de la taille et du nombre de fichiers que vous sélectionnez. En cours d'exécution, le travail est dans un état en cours et passe à l'état Succès ou Echec à la fin. Vous pouvez sélectionner un travail pour accéder à sa page de détails.

      • Chaque travail peut comporter jusqu'à 100 tâches.

      • Les emplois sont conservés pendant 90 jours.

  • Utilisez la commande create et les paramètres requis pour créer un travail de transcription.

    oci speech transcription-job create [OPTIONS]

    Evitez de saisir des informations confidentielles.

    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.

  • Utilisez les opérations CreateTranscriptionJob et ChangeTranscriptionJobCompartment pour créer un travail.