Panoramica vocale

È possibile utilizzare il servizio di sintesi vocale per convertire i file multimediali in testo leggibile memorizzato in formato JSON e SRT.

Il linguaggio sfrutta la potenza del linguaggio parlato consentendo di convertire facilmente i file multimediali contenenti il linguaggio umano in trascrizioni di testo altamente esatte. Il servizio è un'applicazione nativa Oracle Cloud Infrastructure (OCI) a cui puoi accedere utilizzando la console, l'API REST, l'interfaccia CLI e l'SDK. Inoltre, è possibile utilizzare il servizio Speech in una sessione notebook Data Science.

Speech utilizza la tecnologia di riconoscimento vocale automatico (ASR) per fornire una trascrizione grammaticalmente corretta. Speech gestisce registrazioni multimediali a bassa fedeltà e trascrive registrazioni impegnative come riunioni o chiamate ai call center. Con Speech, puoi trasformare i file memorizzati nello storage degli oggetti o in un asset di dati in testo esatto, normalizzato, con indicatore orario e filtrato in profondità. Questa funzionalità è disponibile solo con il discorso. Ad esempio, è possibile indicizzare l'output vocale (un file di testo) utilizzando Data Lake. Senza i servizi a valle, questa funzionalità non esiste in Speech.

Mostra il processo del motore vocale, dal supporto al front-end, dal backend ai risultati.

I modelli Speech sono robusti per ambienti acustici e canali di registrazione che garantiscono un servizio di trascrizione di buona qualità.

Supporto di più formati multimediali per lingua

Questi formati multimediali sono supportati per tutte le lingue supportate nel servizio vocale:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • OPUS
  • WAV
  • WEBM
Lingua Codice lingua Percentuale campione
Inglese - Stati Uniti en-US >= 8 khz
Spagna es-ES >= 8 khz
Portogallo - Brasile pt-BR >= 8 khz
Inglese - Gran Bretagna en-GB >= 16 khz
Inglese - Australia en-AU >= 16 khz
Inglese - India en-IN >= 16 khz
India-Hindi hi-IN >= 16 khz
Francese-Francese fr-FR >= 16 khz
Tedesco - Germania de-DE >= 16 khz
Italiano - Italia it-IT >= 16 khz

Per risultati ottimali:

  • Utilizzare un formato lossless come FLAC o WAV con codifica PCM a 16 bit.
  • Utilizzare una frequenza di campionamento di 8.000 Hz per supporti a bassa fedeltà e da 16.000 a 48.000 Hz per supporti ad alta fedeltà.

È possibile utilizzare file multimediali WAV PCM a 16 bit a canale singolo con una frequenza di esempio 8 kHz o 16 kHz. Si consiglia Audacity (GUI) o FFmpeg (riga di comando) per la transcodifica dei supporti. È supportata una lunghezza massima di quattro ore per i file multimediali e fino a 2 GB.

Il discorso è suscettibile alla qualità dei file multimediali di input. Accenti diversi, rumori di fondo, il passaggio da una lingua all'altra, l'uso di linguaggi di fusione o più altoparlanti contemporaneamente influiscono sulla qualità della trascrizione.

Il discorso fornisce queste funzionalità

  • Trascrizioni accurate: offre file JSON e SubRip Subtitle (SRT) accurati e facili da usare scritti direttamente nel bucket di storage degli oggetti scelto. Puoi sfruttare la trascrizione e integrarla direttamente con le applicazioni e utilizzarla per la ricerca e l'analisi di sottotitoli o contenuti.

  • Modello sussurro: i dati multilingue vengono raccolti dal Web e supportano la trascrizione da voce a testo basata su file per oltre 50 lingue.
  • JSON con indicatore orario: la trascrizione fornisce un indicatore orario per ogni token (parola). È possibile utilizzare l'indicatore orario per cercare e trovare il testo che si sta cercando all'interno del file multimediale, quindi passare rapidamente a tale posizione.

  • Multilingue: produce trascrizioni accurate in inglese, inglese-gran Bretagna, inglese-Australia, inglese-India, spagnolo, portoghese, francese, italiano, tedesco e hindi.

  • API asincrona: consente di inoltrare facilmente le API asincrone con il batch di task di trascrizione. Le API consentono di annullare i processi non ancora elaborati, risparmiando tempo e denaro.

  • Normalizzazioni testo: fornisce normalizzazione del testo per numeri, indirizzi, valute e così via. Con le normalizzazione del testo, ottieni una trascrizione di qualità superiore dall'intelligenza artificiale che è più facile da leggere e comprendere.

  • Filtro fanity: consente di rimuovere, mascherare o etichettare le parole offensive dalla trascrizione.

  • Punteggio di affidabilità per parola e trascrizione: produce punteggi di affidabilità per parola e trascrizione nel file JSON generato. È possibile utilizzare i punteggi di affidabilità per identificare rapidamente le parole che richiedono attenzione.

  • Caption chiuse: fornisce un file SRT come formato di output aggiuntivo. Utilizzare l'SRT per aggiungere didascalie chiuse ai file video.

  • Punteggiatura: il testo lungo richiede punteggiatura in modo che Speech punteggi automaticamente il contenuto della trascrizione.

  • Telephoney ready: i file possono essere 8 kHz o 16 kHz e vengono rilevati automaticamente in modo da applicare il modello corretto. Con questa capacità, è possibile trascrivere registrazioni telefoniche.

  • Diarizzazione degli altoparlanti: associa il testo di trascrizione a specifici altoparlanti utilizzando scenari di comprensione in linguaggio naturale, come l'estrazione di una prescrizione dall'audio medico identificando il fornitore di servizi rispetto al paziente. La diarizzazione degli altoparlanti è una combinazione di segmentazione degli altoparlanti e clustering degli altoparlanti. La segmentazione degli altoparlanti trova i punti di svolta degli altoparlanti in un flusso audio. Il raggruppamento degli altoparlanti raggruppa i segmenti vocali in base alle caratteristiche degli altoparlanti.

Concetti chiave

Questi sono i concetti chiave del servizio vocale:

Job di trascrizione

Un job è una singola richiesta asincrona dalla console o dall'API vocale. Ogni job è identificato in modo univoco da un ID, che è possibile utilizzare per recuperare lo stato e i risultati del job.

Un job in un tenant viene elaborato in modo rigoroso in primo luogo in primo luogo. Ogni job può contenere fino a 100 task. Se si sottomette un job che supera il numero massimo di task, tale job non riesce. I job vengono conservati per 90 giorni.

Trascrizione in tempo reale
Consente di inviare un flusso audio al servizio e ricevere i risultati in testo (formato JSON e SRT) in tempo reale.
Attività

Un task è il risultato di un singolo file elaborato in un job. I job possono avere più task in base agli elementi memorizzati nel bucket di storage degli oggetti specificato per un job.

Modelli

Modelli acustici e linguistici pre-addestrati, inclusi i modelli Whisper, alimentano il processo di trascrizione del lavoro.

Autenticazione e autorizzazione

Ogni servizio in OCI si integra con IAM per l'autenticazione e l'autorizzazione, per tutte le interfacce (console, SDK o CLI e API REST).

Un amministratore dell'organizzazione deve impostare i gruppi , i compartimenti e i criteri che controllano gli utenti che possono accedere ai servizi, alle risorse e al tipo di accesso. Ad esempio, i criteri controllano chi può creare nuovi utenti, creare e gestire la rete cloud, avviare istanze, creare bucket, scaricare oggetti e così via. Per ulteriori informazioni, consulta la guida introduttiva ai criteri.

Se si è un utente normale (non un amministratore) che deve utilizzare le risorse OCI di proprietà dell'azienda, contattare l'amministratore per impostare un ID utente. L'amministratore può confermare quale compartimento o compartimenti utilizzare.

Identificativi risorsa

Il servizio vocale supporta job e task come risorse OCI. La maggior parte dei tipi di risorse dispone di un identificativo univoco assegnato da Oracle denominato OID (Oracle Cloud ID). Per informazioni sul formato OCID e su altri modi per identificare le risorse, vedere Identificativi risorsa.

Aree e domini di disponibilità

Il discorso è disponibile in tutte le region commerciali OCI. Consulta la sezione relativa alle aree e ai domini di disponibilità per la lista delle aree disponibili per OCI, insieme alle posizioni associate, agli identificativi delle aree, alle chiavi delle aree e ai domini di disponibilità.

Nota

Text to Speech è disponibile solo nell'area commerciale occidentale degli Stati Uniti (Phoenix).

Modalità di accesso

Puoi accedere a Speech utilizzando la console (un'interfaccia basata su browser), l'interfaccia della riga di comando (CLI, Command Line Interface) o l'API REST. Le istruzioni per la console, l'interfaccia CLI e l'API sono incluse negli argomenti di questa guida.

Per accedere alla console, è necessario utilizzare un browser supportato. Per andare alla pagina di accesso della console, aprire il menu di navigazione nella parte superiore di questa pagina e fare clic su Console dell'infrastruttura. Viene richiesto di immettere il tenant cloud, il nome utente e la password.

Per un elenco dei kit SDK disponibili, vedere SDK e CLI. Per informazioni generali sull'uso delle interfacce API, vedere API REST.

Limiti del servizio

In ogni area abilitata per la tenancy, si applicano i seguenti limiti:

Limiti file

  • La dimensione massima del file è di 2 GB.

  • La durata del file è massima di 4 ore.

Limiti job

  • Ogni mansione può avere fino a 100 task.

  • I job vengono conservati per 90 giorni.

Text to speech

Text to speech supporta al massimo 10000 caratteri per richiesta.

Trascrizione in tempo reale

La trascrizione attiva supporta al massimo 10 sessioni concorrenti per ogni tenancy. È possibile aumentare il limite aprendo una richiesta di servizio con il supporto Oracle. Per ulteriori informazioni, vedere Richiesta di un aumento del limite del servizio.