Aperçu du service de reconnaissance de la parole
Vous pouvez utiliser le service Speech pour convertir des fichiers multimédias en texte lisible qui est stocké au format JSON et SRT.
La parole exploite la puissance de la langue parlée, ce qui vous permet de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions de texte très exactes. Le service est une application native Oracle Cloud Infrastructure (OCI) à laquelle vous pouvez accéder à l'aide de la console, de l'API REST, de l'interface de ligne de commande et de la trousse SDK. En outre, vous pouvez utiliser le service de reconnaissance de la parole dans une session de carnet du service de science des données.
Speech utilise la technologie de reconnaissance vocale automatique (ASR) pour fournir une transcription grammaticalement correcte. Speech gère les enregistrements médiatiques de faible fidélité et transcrit les enregistrements difficiles tels que les réunions ou les appels des centres d'appels. À l'aide de Speech, vous pouvez transformer des fichiers stockés dans le stockage d'objets ou une ressource de données en texte exact, normalisé, horodaté et filtré par profanité. Cette fonctionnalité n'est disponible qu'avec le Discours. Par exemple, vous pouvez indexer la sortie de la parole (un fichier texte) à l'aide du lac de données. Sans les services en aval, cette capacité n'existe pas dans Speech.
Les modèles Speech sont robustes aux environnements acoustiques et aux canaux d'enregistrement qui garantissent qu'il s'agit d'un service de transcription de bonne qualité.
Prise en charge de plusieurs formats de médias par langue
Les formats de média suivants sont pris en charge pour toutes les langues prises en charge dans le service Speech :
AACAC3AMRAUFLACM4AMKVMP3MP4OGAOGGOPUSWAVWEBM
| Langue | Code de la langue | Fréquence d'échantillonnage |
|---|---|---|
| Anglais - États-Unis | en-US |
>= 8 kHz |
| Espagnol - Espagne | es-ES |
>= 8 kHz |
| Portugais - Brésil | pt-BR |
>= 8 kHz |
| Anglais-Grande-Bretagne | en-GB |
>= 16 kHz |
| Anglais - Australie | en-AU |
>= 16 kHz |
| Anglais - Inde | en-IN |
>= 16 kHz |
| Hindi-Inde | hi-IN |
>= 16 kHz |
| Français-Français | fr-FR |
>= 16 kHz |
| Allemand - Allemagne | de-DE |
>= 16 kHz |
| Italien - Italie | it-IT |
>= 16 kHz |
Pour de meilleurs résultats :
- Utilisez un format sans perte tel que FLAC ou WAV avec encodage PCM 16 bits.
- Utilisez un taux d'échantillonnage de 8 000 Hz pour les médias de faible fidélité et de 16 000 à 48 000 Hz pour les médias de haute fidélité.
Vous pouvez utiliser des fichiers multimédias PCM WAV monocanal 16 bits avec un taux d'échantillonnage de 8 kHz ou 16 kHz. Nous recommandons Audacity (GUI) ou FFmpeg (ligne de commande) pour le transcodage multimédia. Un fichier multimédia de quatre heures maximum et jusqu'à 2 Go est pris en charge.
La parole est sensible à la qualité des fichiers multimédias d'entrée. Différents accents, bruits de fond, passer d'une langue à une autre, utiliser des langues de fusion, ou plusieurs locuteurs en même temps ont un impact sur la qualité de la transcription.
La parole fournit ces capacités
-
Transcriptions exactes - Génère des fichiers JSON et SubRip Subtitle (SRT) précis et faciles à utiliser écrits directement dans le seau de stockage d'objets de votre choix. Vous pouvez profiter de la transcription et l'intégrer directement aux applications, et l'utiliser pour les sous-titres ou la recherche et l'analyse de contenu.
- Modèle Whisper - Les données multilingues sont collectées sur le Web et prennent en charge la transcription vocale à texte basée sur des fichiers pour plus de 50 langues.
-
JSON horodaté - La transcription fournit un horodatage pour chaque jeton (mot). Vous pouvez utiliser l'horodatage pour rechercher et trouver le texte que vous recherchez dans le fichier multimédia, puis passer rapidement à cet emplacement.
-
Multilingue - Produit des transcriptions précises en anglais, anglais - Grande-Bretagne, anglais - Australie, anglais - Inde, espagnol, portugais, français, italien, allemand et hindi.
-
API asynchrone - API asynchrones hétérogènes avec traitement par lots des tâches de transcription. Les API permettent d'annuler des tâches qui ne sont pas encore traitées, ce qui permet d'économiser du temps et de l'argent.
-
Normalisations de texte - Fournit des normalisations de texte pour les nombres, les adresses, les devises, etc. Avec les normalisations de texte, vous obtenez une transcription de meilleure qualité à partir de l'intelligence artificielle qui est plus facile à lire et à comprendre.
-
Filtrage de la probabilité - Permet de supprimer, masquer ou marquer des mots offensants dans la transcription.
-
Note de confiance par mot et transcription-Produit des notes de confiance de mot et de transcription dans le fichier JSON généré. Vous pouvez utiliser les notes de confiance pour identifier rapidement les mots qui nécessitent une attention particulière.
-
Légendes fermées - Fournit un fichier SRT en tant que format de sortie supplémentaire. Utilisez le SRT pour ajouter des légendes fermées aux fichiers vidéo.
-
Punctuation-Le texte long nécessite une ponctuation, de sorte que la parole ponctue automatiquement le contenu de la transcription.
-
Téléphone prêt - Les fichiers peuvent être 8 kHz ou 16 kHz et sont automatiquement détectés pour que le modèle correct soit appliqué. Grâce à cette fonctionnalité, vous pouvez transcrire des enregistrements téléphoniques.
-
Diarisation des intervenants - Associe le texte de transcription à des locuteurs particuliers à l'aide de scénarios de compréhension en langage naturel, comme l'extraction d'une prescription à partir du son médical en identifiant le fournisseur de services par rapport au patient. La diarisation des haut-parleurs est une combinaison de segmentation des haut-parleurs et de regroupement des haut-parleurs. La segmentation des haut-parleurs recherche les points de changement des haut-parleurs dans un flux audio. Les groupes de mise en grappe de haut-parleurs regroupent des segments de discours en fonction des caractéristiques des haut-parleurs.
Concepts clés
Voici les concepts clés du service Speech :
- Tâches de transcription
-
Une tâche est une demande asynchrone unique provenant de la console ou de l'API de reconnaissance de la parole. Chaque tâche est identifiée de manière unique par un ID, que vous pouvez utiliser pour extraire le statut et les résultats de la tâche.
Un travail dans un locataire est traité d'une manière stricte en premier. Chaque tâche peut contenir jusqu'à 100 tâches. Si vous soumettez une tâche qui dépasse le nombre maximal de tâches, cette tâche échoue. Les emplois sont conservés pendant 90 jours.
- Transcrire en temps réel
- Vous permet d'envoyer un flux audio au service et de recevoir les résultats en texte (format JSON et SRT) en temps réel.
- Tâches
-
Une tâche est le résultat d'un seul fichier traité dans un travail. Les tâches peuvent comporter plusieurs tâches en fonction de ce qui est stocké dans le seau de stockage d'objets que vous spécifiez pour une tâche.
- Modèles
-
Les modèles acoustiques et linguistiques préentraînés, y compris les modèles Whisper, alimentent le processus de transcription du travail.
L'authentification et l'autorisation
Chaque service d'OCI s'intègre au service IAM aux fins d'authentification et d'autorisation, pour toutes les interfaces (console, trousse SDK ou interface de ligne de commande, et API REST).
Un administrateur de votre organisation doit configurer les groupes, les compartiments et les politiques qui déterminent les utilisateurs pouvant accéder aux services et aux ressources, ainsi que le type d'accès. Par exemple, les politiques contrôlent qui peut créer des utilisateurs, créer et gérer le réseau en nuage, lancer des instances, créer des seaux, télécharger des objets, etc. Pour plus d'informations, voir Introduction aux politiques.
- Pour plus de détails sur l'écriture de politiques de reconnaissance de la parole, voir À propos des politiques de reconnaissance de la parole.
- Pour plus de détails sur l'écriture de politiques pour d'autres services, voir Informations de référence sur les politiques.
Si vous êtes un simple utilisateur (pas un administrateur) qui doit utiliser les ressources OCI de votre société, demandez à l'administrateur de configurer un ID utilisateur pour vous. L'administrateur vous confirmera les compartiments que vous pouvez utiliser.
Identificateurs de ressource
Le service de reconnaissance de la parole prend en charge les tâches et les tâches en tant que ressources OCI. La plupart des types de ressource ont un identificateur unique affecté par Oracle, appelé un OCID (identificateur Oracle Cloud). Pour plus d'informations sur le format des OCID et sur les autres moyens d'identifier vos ressources, voir Identificateurs de ressource.
Régions et domaines de disponibilité
La parole est disponible dans toutes les régions commerciales d'OCI. Voir À propos des régions et des domaines de disponibilité pour obtenir la liste des régions disponibles pour OCI, avec les emplacements, les identificateurs de région, les clés de région et les domaines de disponibilité associés.
Le texte à la parole est disponible uniquement dans la région commerciale États-Unis - Ouest (Phoenix).
Méthodes d'accès
Vous pouvez accéder à Speech à l'aide de la console (interface basée sur un navigateur), de l'interface de ligne de commande (CLI) ou de l'API REST. Les instructions relatives à la console, à l'interface de ligne de commande et à l'API sont incluses dans les rubriques de ce guide.
Pour accéder à la console, vous devez utiliser un navigateur pris en charge. Pour aller à la page de connexion de la console, ouvrez le menu de navigation en haut de cette page et cliquez sur Console Infrastructure. Vous êtes invité à entrer votre location Oracle Cloud, votre nom d'utilisateur et votre mot de passe.
Pour obtenir la liste des trousses SDK disponibles, voir Trousses SDK et interface de ligne de commande. Pour des informations générales sur l'utilisation des API, voir API REST.
Limites de service
Dans chaque région activée pour votre location, ces limites s'appliquent :
Limites des fichiers
-
La taille maximale du fichier est de 2 Go.
-
La durée du fichier est de 4 heures au maximum.
Limites de tâche
Du texte à la parole
Le texte à la parole prend en charge un maximum de 10000 caractères par demande.
Transcrire en temps réel
La transcription en direct prend en charge un maximum de 10 sessions simultanées par location. La limite peut être augmentée en ouvrant une demande de service auprès du soutien technique d'Oracle. Pour plus d'informations, voir Demande d'une augmentation de limite de service.
Comparaison des modèles Whisper et ASR Oracle
Comparez le modèle Whisper et le modèle Oracle ASR pour créer des tâches de transcription.
En plus du modèle vocal Oracle ASR natif, Speech prend en charge le modèle Whisper à partir de OpenAI. Whisper est formé sur un grand corpus de données multilingues collectées sur le Web, et il prend en charge la transcription voix-texte basée sur des fichiers pour plus de 50 langues. Ce modèle utilise les mêmes points d'extrémité de service, les mêmes API et les mêmes interfaces de trousse SDK que le modèle Oracle ASR pour vous offrir flexibilité et compatibilité. En outre, le modèle Whisper utilise la diarisation pour étiqueter les haut-parleurs individuels dans l'enregistrement.
Utilisez la comparaison suivante des modèles Whisper et ASR Oracle pour sélectionner le modèle correct lors de la création d'une tâche de transcription.
| Fonction | Modèle Oracle ASR | Modèle Whisper dans le service de reconnaissance de la parole pour OCI |
|---|---|---|
| Transcriptions en temps réel | pris en charge | pris en charge |
| Taille de fichier volumineuse | Jusqu'à 2 Go | Jusqu'à 2 Go |
| Horodatage au niveau du mot | pris en charge | pris en charge |
| Format de fichier | AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM | AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM |
| Soutien multilingue | Anglais, espagnol, français, allemand, italien, portugais et hindi | Identique au modèle ASR Oracle plus 50 autres langues* |
| Identification du locuteur | pris en charge | pris en charge |