Visão Geral do Speech

Você pode usar o serviço Speech para converter arquivos de mídia em texto legível armazenado no formato JSON e SRT.

A fala aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia contendo fala humana em transcrições de texto altamente exatas. O serviço é um aplicativo nativo do OCI (Oracle Cloud Infrastructure) que você pode acessar usando a Console, a API REST, a CLI e o SDK. Além disso, você pode usar o serviço Speech em uma sessão de notebook do serviço Data Science.

O Speech usa a tecnologia de reconhecimento automático de fala (ASR) para fornecer uma transcrição gramaticalmente correta. O Speech lida com gravações de mídia de baixa fidelidade e transcreve gravações desafiadoras, como reuniões ou chamadas de call centers. Usando Speech, você pode transformar arquivos armazenados no Object Storage ou em um ativo de dados em texto exato, normalizado, com timestamp e filtrado por palavrões. Essa funcionalidade só está disponível com o Speech. Por exemplo, você pode indexar a saída de fala (um arquivo de texto) usando o Data Lake. Sem os serviços downstream, esse recurso não existe no Speech.

Mostra o processo do mecanismo de fala, mídia para front-end, backend para resultados.

Os modelos Speech são robustos para ambientes acústicos e canais de gravação que garantem que este seja um serviço de transcrição de boa qualidade.

Suporte a vários formatos de mídia por idioma

Esses formatos de mídia são suportados para todos os idiomas suportados no serviço Speech:

AAC
AC3
AMR
AU
FLAC
M4A
MKV
MP3
MP4
OGA
OGG
OPUS
WAV
WEBM


Idioma	Código do idioma	Amostra de Taxa
Inglês-Estados Unidos	`en-US`	>= 8 khz
Espanhol-Espanha	`es-ES`	>= 8 khz
Português-Brasil	`pt-BR`	>= 8 khz
Inglês-Grã-Bretanha	`en-GB`	>= 16 khz
Inglês-Austrália	`en-AU`	>= 16 khz
Inglês - Índia	`en-IN`	>= 16 khz
Índia	`hi-IN`	>= 16 khz
Francês	`fr-FR`	>= 16 khz
Alemão-Alemanha	`de-DE`	>= 16 khz
Italiano-Itália	`it-IT`	>= 16 khz

Para obter melhores resultados:

Use um formato sem perdas, como FLAC ou WAV, com codificação PCM de 16 bits.
Use uma taxa de amostragem de 8.000 Hz para mídia de baixa fidelidade e de 16.000 a 48.000 Hz para mídia de alta fidelidade.

Você pode usar arquivos de mídia WAV PCM de canal único de 16 bits com uma taxa de amostragem 8 kHz ou 16 kHz. Recomendamos o Audacity (GUI) ou FFmpeg (linha de comando) para transcodificação de mídia. Há suporte para um tamanho máximo de arquivo de mídia de quatro horas e até 2 GB.

A fala é suscetível à qualidade dos arquivos de mídia de entrada. Acentos diferentes, ruídos de fundo, alternar de um idioma para outro, usar idiomas de fusão ou vários alto-falantes ao mesmo tempo afetam a qualidade da transcrição.

O discurso fornece esses recursos

Transcrições precisas—Produz arquivos JSON e SubRip Subtitle (SRT) precisos e fáceis de usar gravados diretamente no bucket de Armazenamento de Objetos que você escolher. Você pode aproveitar a transcrição e integrá-la diretamente aos aplicativos e usá-la para legendas ou pesquisa e análise de conteúdo.
Modelo Whisper — Os dados multilíngues são coletados da Web e suportam a transcrição de voz para texto baseada em arquivo para mais de 50 idiomas.
JSON com timestamp—A transcrição fornece um timestamp para cada token (palavra). Você pode usar o timestamp para pesquisar e encontrar o texto que está procurando no arquivo de mídia e, em seguida, pular rapidamente para esse local.
Multilíngue—Produz transcrições precisas em inglês, inglês-Grã-Bretanha, inglês-Austrália, inglês-Índia, espanhol, português, francês, italiano, alemão e hindi.
API Assíncrona—APIs assíncronas diretas com lote de tarefas de transcrição. As APIs permitem o cancelamento de tarefas que ainda não foram processadas, economizando tempo e dinheiro.
Normalizações de texto—Fornece normalizações de texto para números, endereços, moedas etc. Com as normalizações de texto, você obtém uma transcrição de inteligência artificial de maior qualidade que é mais fácil de ler e entender.
Filtragem de profissionalidade—Permite remover, mascarar ou marcar palavras que sejam ofensivas da transcrição.
Pontuação de confiança por palavra e transcrição—Produz pontuações de confiança de palavra e transcrição no arquivo JSON gerado. Você pode usar as pontuações de confiança para identificar rapidamente palavras que exigem atenção.
Legendas fechadas — Fornece um arquivo SRT como um formato de saída extra. Use o SRT para adicionar legendas a arquivos de vídeo.
Punção — Texto longo requer pontuação para que Speech pontue o conteúdo da transcrição automaticamente.
Pronto para Telefones — Os arquivos podem ser 8 kHz ou 16 kHz e cada um é detectado automaticamente para que o modelo correto seja aplicado. Com esse recurso, você pode transcrever gravações de telefone.
Diários de alto-falante — Associa texto de transcrição a alto-falantes específicos usando cenários de compreensão de linguagem natural, como extrair uma receita do áudio médico identificando o prestador de serviço em comparação com o paciente. A diarização de alto-falantes é uma combinação de segmentação de alto-falantes e agrupamento de alto-falantes. A segmentação do alto-falante encontra os pontos de alteração do alto-falante em um fluxo de áudio. O agrupamento de alto-falantes agrupa segmentos de fala com base nas características do alto-falante.

Principais Conceitos

Estes são os principais conceitos do serviço Speech:

Jobs de Transação

Um job é uma solicitação assíncrona única da Console ou da API de Fala. Cada job é identificado exclusivamente por um id, que você pode usar para recuperar o status e os resultados do job.

Um trabalho em um inquilino é processado de maneira estrita primeiro. Cada job pode conter até 100 tarefas. Se você enviar um job que exceda o máximo de tarefas, esse job falhará. Os trabalhos são retidos por 90 dias.

Transcrição Ativa

Permite enviar um fluxo de áudio para o serviço e receber os resultados em texto (formato JSON e SRT) em tempo real.

Tarefas

Uma tarefa é o resultado de um único arquivo processado em um job. Os jobs podem ter várias tarefas com base no que está armazenado no bucket do Object Storage especificado para um job.

Modelos

Modelos acústicos e linguísticos pré-treinados, incluindo os modelos Whisper, alimentam o processo de transcrição do trabalho.

Autenticação e Autorização de Autenticação

Cada serviço do OCI integra-se ao serviço IAM para autenticação e autorização em relação a todas as interfaces (a Console, SDK ou CLI e API REST).

Um administrador da sua organização precisa configurar grupos, compartimentos e políticas que controlam quais usuários podem acessar quais serviços, quais recursos e o tipo de acesso. Por exemplo, as políticas controlam quem pode criar novos usuários, criar e gerenciar a rede na nuvem, iniciar instâncias, criar buckets, fazer download de objetos e assim por diante. Para obter mais informações, consulte Conceitos Básicos de Políticas.

Para obter detalhes sobre como gravar políticas de Fala, consulte Sobre Políticas de Fala.
Para obter detalhes sobre a criação de políticas para outros serviços, consulte a Referência de Políticas.

Se você for um usuário convencional (não um administrador) que precisa usar os recursos do OCI que sua empresa possui, fale com o administrador para configurar um ID de usuário para você. O administrador pode confirmar o(s) compartimento(s) que você deverá usar.

Identificadores de Recursos

O serviço Speech suporta jobs e tarefas como recursos do OCI. A maioria dos tipos de recursos tem um identificador exclusivo designado pela Oracle chamado OCID (Oracle Cloud ID). Para obter informações sobre o formato do OCID e outras maneiras de identificar seus recursos, consulte Identificadores de Recursos.

Regiões e Domínios de Disponibilidade

A fala está disponível em todas as regiões comerciais da OCI. Consulte Sobre Regiões e Domínios de Disponibilidade para obter a lista de regiões disponíveis para o OCI, com locais associados, identificadores de região, chaves de região e domínios de disponibilidade.

Observação

Texto para Fala só está disponível na região comercial Oeste dos EUA (Phoenix).

maneiras de acessar

Você pode acessar o Speech usando a Console (uma interface baseada em navegador), a interface de linha de comando (CLI) ou a API REST. Instruções para a Console, CLI e API estão incluídas em tópicos ao longo deste guia.

Para acessar a Console, você deve usar um browser suportado. Para ir até a página de acesso da Console, abra o menu de navegação na parte superior desta página e clique em Console de Infraestrutura. Você é solicitado a digitar seu tenant na nuvem, seu nome de usuário e sua senha.

Para obter uma lista dos SDKs disponíveis, consulte SDKs e a CLI. Para obter informações gerais sobre o uso de APIs, consulte API REST.

Limites do Serviço

Em cada região ativada para sua tenancy, estes limites se aplicam:

Limites de Arquivos

O tamanho máximo do arquivo é 2 GB.
A duração do arquivo é de no máximo 4 horas.

Limites do Job

Cada cargo pode ter até 100 tarefas.
Os trabalhos são retidos por 90 dias.

Conversão de Texto em Fala

Texto para fala suporta no máximo 10000 caracteres por solicitação.

Transcrição Ativa

A transcrição ao vivo suporta no máximo 10 sessões simultâneas por tenancy. O limite pode ser aumentado abrindo uma solicitação de serviço com o suporte da Oracle. Para obter mais informações, consulte Solicitando um Aumento de Limite de Serviço.

Comparando Modelos Whisper e Oracle ASR

Compare o modelo Whisper e o modelo Oracle ASR para criar jobs de transcrição.

Além do modelo de fala ASR nativo do Oracle, o Speech suporta o modelo Whisper do OpenAI. O Whisper é treinado em um grande corpus de dados multilíngues coletados da web e suporta transcrição de voz para texto baseada em arquivo para mais de 50 idiomas. Esse modelo usa os mesmos pontos finais de serviço e interfaces de API e SDK do modelo Oracle ASR para oferecer flexibilidade e compatibilidade. Além disso, o modelo Whisper usa diarização para rotular falantes individuais na gravação.

Use a seguinte comparação dos modelos Whisper e Oracle ASR para selecionar o modelo correto ao criar um job de transcrição.


Recurso	Modelo de ASR da Oracle	Modelo Whisper no OCI Speech
Transcrições em tempo real	Suportado	Suportado
Tamanho do arquivo grande	Até 2 GB	Até 2 GB
Timestamp no nível da palavra	Suportado	Suportado
Formato do arquivo	AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM	AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, OPUS, WAV, WEBM
Suporte para vários idiomas	Inglês, espanhol, francês, alemão, italiano, português e hindi	Igual ao modelo Oracle ASR e 50 outros idiomas*
Diarização	Suportado	Suportado

* OpenAI Perguntas Frequentes sobre o Whisper

Documentação do Oracle Cloud Infrastructure