Visão Geral do Speech

Você pode usar o serviço Speech para converter arquivos de mídia em texto legível armazenado no formato JSON e SRT.

A fala aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia contendo fala humana em transcrições de texto altamente exatas. O serviço é um aplicativo nativo do OCI (Oracle Cloud Infrastructure) que você pode acessar usando a Console, a API REST, a CLI e o SDK. Além disso, você pode usar o serviço Speech em uma sessão de notebook do serviço Data Science.

O Speech usa a tecnologia de reconhecimento automático de fala (ASR) para fornecer uma transcrição gramaticalmente correta. O Speech lida com gravações de mídia de baixa fidelidade e transcreve gravações desafiadoras, como reuniões ou chamadas de call centers. Usando Speech, você pode transformar arquivos armazenados no Object Storage ou em um ativo de dados em texto exato, normalizado, com timestamp e filtrado por palavrões. Essa funcionalidade só está disponível com o Speech. Por exemplo, você pode indexar a saída de fala (um arquivo de texto) usando o Data Lake. Sem os serviços downstream, esse recurso não existe no Speech.

Mostra o processo do mecanismo de fala, mídia para front-end, backend para resultados.

Os modelos Speech são robustos para ambientes acústicos e canais de gravação que garantem que este seja um serviço de transcrição de boa qualidade.

Suporte a vários formatos de mídia por idioma

Esses formatos de mídia são suportados para todos os idiomas suportados no serviço Speech:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • OPUS
  • WAV
  • WEBM
Idioma Código do idioma Amostra de Taxa
Inglês-Estados Unidos en-US >= 8 khz
Espanhol-Espanha es-ES >= 8 khz
Português-Brasil pt-BR >= 8 khz
Inglês-Grã-Bretanha en-GB >= 16 khz
Inglês-Austrália en-AU >= 16 khz
Inglês - Índia en-IN >= 16 khz
Índia hi-IN >= 16 khz
Francês fr-FR >= 16 khz
Alemão-Alemanha de-DE >= 16 khz
Italiano-Itália it-IT >= 16 khz

Para obter melhores resultados:

  • Use um formato sem perdas, como FLAC ou WAV, com codificação PCM de 16 bits.
  • Use uma taxa de amostragem de 8.000 Hz para mídia de baixa fidelidade e de 16.000 a 48.000 Hz para mídia de alta fidelidade.

Você pode usar arquivos de mídia WAV PCM de canal único de 16 bits com uma taxa de amostragem 8 kHz ou 16 kHz. Recomendamos o Audacity (GUI) ou FFmpeg (linha de comando) para transcodificação de mídia. Há suporte para um tamanho máximo de arquivo de mídia de quatro horas e até 2 GB.

A fala é suscetível à qualidade dos arquivos de mídia de entrada. Acentos diferentes, ruídos de fundo, alternar de um idioma para outro, usar idiomas de fusão ou vários alto-falantes ao mesmo tempo afetam a qualidade da transcrição.

O discurso fornece esses recursos

  • Transcrições precisas—Produz arquivos JSON e SubRip Subtitle (SRT) precisos e fáceis de usar gravados diretamente no bucket de Armazenamento de Objetos que você escolher. Você pode aproveitar a transcrição e integrá-la diretamente aos aplicativos e usá-la para legendas ou pesquisa e análise de conteúdo.

  • Modelo Whisper — Os dados multilíngues são coletados da Web e suportam a transcrição de voz para texto baseada em arquivo para mais de 50 idiomas.
  • JSON com timestamp—A transcrição fornece um timestamp para cada token (palavra). Você pode usar o timestamp para pesquisar e encontrar o texto que está procurando no arquivo de mídia e, em seguida, pular rapidamente para esse local.

  • Multilíngue—Produz transcrições precisas em inglês, inglês-Grã-Bretanha, inglês-Austrália, inglês-Índia, espanhol, português, francês, italiano, alemão e hindi.

  • API Assíncrona—APIs assíncronas diretas com lote de tarefas de transcrição. As APIs permitem o cancelamento de tarefas que ainda não foram processadas, economizando tempo e dinheiro.

  • Normalizações de texto—Fornece normalizações de texto para números, endereços, moedas etc. Com as normalizações de texto, você obtém uma transcrição de inteligência artificial de maior qualidade que é mais fácil de ler e entender.

  • Filtragem de profissionalidade—Permite remover, mascarar ou marcar palavras que sejam ofensivas da transcrição.

  • Pontuação de confiança por palavra e transcrição—Produz pontuações de confiança de palavra e transcrição no arquivo JSON gerado. Você pode usar as pontuações de confiança para identificar rapidamente palavras que exigem atenção.

  • Legendas fechadas — Fornece um arquivo SRT como um formato de saída extra. Use o SRT para adicionar legendas a arquivos de vídeo.

  • Punção — Texto longo requer pontuação para que Speech pontue o conteúdo da transcrição automaticamente.

  • Pronto para Telefones — Os arquivos podem ser 8 kHz ou 16 kHz e cada um é detectado automaticamente para que o modelo correto seja aplicado. Com esse recurso, você pode transcrever gravações de telefone.

  • Diários de alto-falante — Associa texto de transcrição a alto-falantes específicos usando cenários de compreensão de linguagem natural, como extrair uma receita do áudio médico identificando o prestador de serviço em comparação com o paciente. A diarização de alto-falantes é uma combinação de segmentação de alto-falantes e agrupamento de alto-falantes. A segmentação do alto-falante encontra os pontos de alteração do alto-falante em um fluxo de áudio. O agrupamento de alto-falantes agrupa segmentos de fala com base nas características do alto-falante.

Principais Conceitos

Estes são os principais conceitos do serviço Speech:

Jobs de Transação

Um job é uma solicitação assíncrona única da Console ou da API de Fala. Cada job é identificado exclusivamente por um id, que você pode usar para recuperar o status e os resultados do job.

Um trabalho em um inquilino é processado de maneira estrita primeiro. Cada job pode conter até 100 tarefas. Se você enviar um job que exceda o máximo de tarefas, esse job falhará. Os trabalhos são retidos por 90 dias.

Transcrição Ativa
Permite enviar um fluxo de áudio para o serviço e receber os resultados em texto (formato JSON e SRT) em tempo real.
Tarefas

Uma tarefa é o resultado de um único arquivo processado em um job. Os jobs podem ter várias tarefas com base no que está armazenado no bucket do Object Storage especificado para um job.

Modelos

Modelos acústicos e linguísticos pré-treinados, incluindo os modelos Whisper, alimentam o processo de transcrição do trabalho.

Autenticação e Autorização de Autenticação

Cada serviço do OCI integra-se ao serviço IAM para autenticação e autorização em relação a todas as interfaces (a Console, SDK ou CLI e API REST).

Um administrador da sua organização precisa configurar grupos, compartimentos e políticas que controlam quais usuários podem acessar quais serviços, quais recursos e o tipo de acesso. Por exemplo, as políticas controlam quem pode criar novos usuários, criar e gerenciar a rede na nuvem, iniciar instâncias, criar buckets, fazer download de objetos e assim por diante. Para obter mais informações, consulte Conceitos Básicos de Políticas.

Se você for um usuário convencional (não um administrador) que precisa usar os recursos do OCI que sua empresa possui, fale com o administrador para configurar um ID de usuário para você. O administrador pode confirmar o(s) compartimento(s) que você deverá usar.

Identificadores de Recursos

O serviço Speech suporta jobs e tarefas como recursos do OCI. A maioria dos tipos de recursos tem um identificador exclusivo designado pela Oracle chamado OCID (Oracle Cloud ID). Para obter informações sobre o formato do OCID e outras maneiras de identificar seus recursos, consulte Identificadores de Recursos.

Regiões e Domínios de Disponibilidade

A fala está disponível em todas as regiões comerciais da OCI. Consulte Sobre Regiões e Domínios de Disponibilidade para obter a lista de regiões disponíveis para o OCI, com locais associados, identificadores de região, chaves de região e domínios de disponibilidade.

Observação

Texto para Fala só está disponível na região comercial Oeste dos EUA (Phoenix).

maneiras de acessar

Você pode acessar o Speech usando a Console (uma interface baseada em navegador), a interface de linha de comando (CLI) ou a API REST. Instruções para a Console, CLI e API estão incluídas em tópicos ao longo deste guia.

Para acessar a Console, você deve usar um browser suportado. Para ir até a página de acesso da Console, abra o menu de navegação na parte superior desta página e clique em Console de Infraestrutura. Você é solicitado a digitar seu tenant na nuvem, seu nome de usuário e sua senha.

Para obter uma lista dos SDKs disponíveis, consulte SDKs e a CLI. Para obter informações gerais sobre o uso de APIs, consulte API REST.

Limites do Serviço

Em cada região ativada para sua tenancy, estes limites se aplicam:

Limites de Arquivos

  • O tamanho máximo do arquivo é 2 GB.

  • A duração do arquivo é de no máximo 4 horas.

Limites do Job

  • Cada cargo pode ter até 100 tarefas.

  • Os trabalhos são retidos por 90 dias.

Conversão de Texto em Fala

Texto para fala suporta no máximo 10000 caracteres por solicitação.

Transcrição Ativa

A transcrição ao vivo suporta no máximo 10 sessões simultâneas por tenancy. O limite pode ser aumentado abrindo uma solicitação de serviço com o suporte da Oracle. Para obter mais informações, consulte Solicitando um Aumento de Limite de Serviço.