Tradução de Documento Assíncrono
O modelo de Tradução Assíncrona de Documentos do serviço OCI Language traduz texto em um idioma escolhido
A OCI Asynchronous Document Translation é um serviço baseado em nuvem que permite a tradução perfeita e eficiente de vários formatos de documentos em escala de maneira assíncrona em seus próprios locais de Armazenamento de Objetos, preservando a estrutura e o formato dos documentos originais. A OCI Asynchronous Document Translation usa modelos de Tradução de Máquina pré-treinados da Oracle para executar tradução de idioma e outras operações relacionadas a idioma.
A Tradução Assíncrona de Documentos traduz vários tipos de documentos. Word, Excel, Power Point e outros podem ser traduzidos enquanto mantêm sua formatação original. Texto simples, formatos HTML e JSON são suportados, ideais para traduzir conteúdo on-line ou integrar a tradução de aplicativos globais. Além disso, formatos para legendas e legendas são suportados, melhorando a acessibilidade do conteúdo de vídeo.
O serviço também oferece a capacidade de transformar arquivos em arquivos JSON ou CSV compatíveis com LLM AI adequados para tarefas como treinamento e ajuste fino de modelos de ML ou criação de índices RAG.
Casos de Uso
- Abordagem simplificada para superar as barreiras linguísticas
-
- Traduza guias de usuário, blogs e artigos da base de conhecimento para alcançar um público mais amplo.
- Melhore a comunicação interna e o compartilhamento de conhecimento entre as equipes globais.
- Expanda o alcance de suas campanhas de vendas e marketing, fornecendo apresentações e ativos de marketing em vários idiomas.
- Torne seu conteúdo de treinamento mais inclusivo para falantes não nativos, adicionando legendas ao conteúdo de vídeo gravado.
- Desenvolva suporte multilíngue para produtos e serviços, incluindo a expansão de seus modelos de machine learning para serem usados com conteúdo de entrada que não seja em inglês.
- Prepare seus dados empresariais multilíngues para processamento de LLM
- A eficácia dos LLMs básicos e dos Modelos de IA pode ser melhorada usando seus dados corporativos. O fato de que uma grande proporção desses dados Enterprise existe em vários formatos e idiomas pode ser um desafio. Alguns LLMs e Modelos de IA suportam apenas idiomas específicos e modelos multilíngues podem ter um desempenho diferente, dependendo do idioma.
- Traduza e transforme seu conteúdo Enterprise multilíngue de vários formatos em JSON ou CSV
- Segmente por sentença, parte ou os limites naturais do formato de arquivo.
- Use o JSON para criar índices RAG, ajustar modelos personalizados ou enviar para pipelines de IA para análise e processamento adicionais. Por exemplo, análise de sentimento, NER.
- Traduza e transforme seu conteúdo Enterprise multilíngue de vários formatos em JSON ou CSV
Tipos de Documento Suportados
Tipo de Documento | Extensões |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Texto | .txt |
CSV | Valores separados por vírgulas, .csv |
TSV | Valores separados por tabulações, .tsv |
SRT | SubRip Arquivo de legenda, .srt |
VTT da Web | Formato de Trilhas de Texto de Vídeo Web, .vtt |
Idiomas com Suporte
Para obter uma lista de idiomas suportados, consulte Idiomas Suportados. A detecção automática de um idioma de origem dominante é suportada quando o parâmetro de idioma de origem está definido como automático.
Pré-requisitos
A configuração de Políticas de Job Assíncronas é necessária para usar o serviço Tradução de Documento Assíncrono.
Limites e restrições de tamanho
- O tamanho máximo do documento é de 20 MB. Todos os documentos acima do tamanho são ignorados.
- Todos os formatos de texto (Texto, HTML, CSV, TSV, SRT, WebVTT, JSON) devem ser codificados em UTF-8.
- O tamanho máximo da solicitação única é de 5 GB. No entanto, um tamanho menor de solicitação é recomendado para respostas mais rápidas.
Controlando Recursos de Tradução de Documentos Assíncronos
Com a Tradução Assíncrona de Documentos, você pode controlar e personalizar a tradução por meio de propriedades avançadas, usando um arquivo de glossário ou propriedades de arquivo específicas.
Um glossário é uma lista de termos fornecidos pelo usuário que podem ser usados na Tradução Assíncrona de Documentos para controlar a tradução. Usando um glossário, você pode especificar como traduzir ou não traduzir determinada terminologia.
Os principais casos de uso de glossários incluem:
- Garantir que a terminologia específica do contexto e do domínio seja traduzida de forma consistente em todo o conteúdo.
- Restringir determinados termos ou palavras da tradução. Por exemplo, marcas ou nomes de produtos que você não deseja traduzir.
Para controlar opcionalmente quais elementos de um arquivo são traduzidos, use propriedades específicas do tipo de arquivo. Por exemplo, use colunas para traduzir um arquivo CSV ou elementos para traduzir um arquivo JSON.
Consulte as seguintes propriedades e descrições avançadas:
- Glossários
-
Você pode especificar terminologias personalizadas por job, em que determinadas palavras podem ser traduzidas de forma diferente. O glossário pode ser fornecido como valores separados por vírgulas (CSV) sem cabeçalho.
Valor de amostra para propriedades avançadas:
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Exemplo de conteúdo do arquivo CSV do glossário 1 - Aplicado a todos os idiomas de destino:
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Exemplo de conteúdo do arquivo CSV do glossário 2 - Glossários específicos do idioma
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Melhores práticas para glossários forçados
-
Mantenha o glossário forçado mínimo:
- Inclua apenas termos que você deseja controlar e que são inequívocos.
- Só use termos que você sabe que nunca quer usar um significado alternativo, e você quer que ele só seja traduzido de uma única maneira.
- Limite a lista a nomes adequados, como nomes de marcas e nomes de produtos.
- Os glossários forçados fazem distinção de maiúsculas e minúsculas:
- Se você precisar que versões capitalizadas e não capitalizadas de um termo sejam incluídas, inclua uma entrada para cada versão.
- Da mesma forma, a versão plural de um termo deve ser incluída como uma entrada separada no glossário
- Não inclua traduções diferentes para a mesma frase de origem. Os resultados de MT não podem ser garantidos nesses casos.
Exemplo:
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- Controles CSV
-
Você pode especificar os cabeçalhos e as colunas a serem traduzidos.
columnsToTranslate
: Índice (a partir de 1) da coluna a ser traduzida.hasHeaders
: Especifica se o arquivo CSV tem cabeçalhos, se verdadeiro, a primeira linha permanecerá não traduzida.
Exemplo:
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- Configuração JSON
-
Você pode traduzir elementos específicos definindo
pathsToTranslate
para um array de expressões de caminho JSON válidas.Exemplo:
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Segmentação personalizada com um delimitador
-
Por padrão, cada entrada em JSON/CSV/TSV é traduzida no nível da frase. O delimitador personalizado poderá ser usado se o conteúdo não consistir em frases normais. O delimitador é uma expressão regular válida que pode ser usada para dividir um texto.
Exemplo:
Para traduzir cada linha separadamente:
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- Processador de conteúdo HTML
-
Para tratar o texto em entradas JSON/CSV/TSV como texto HTML, use a propriedade
"contentProcessor"
.Exemplo:
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel: Tradução opcional de nomes de planilhas
-
Por padrão, os nomes das planilhas não são traduzidos. A tradução de nomes de folhas pode quebrar algumas macros ou referências. No entanto, se as planilhas não tiverem uma referência usando nomes de planilha ou macros, o serviço poderá traduzir os nomes de planilha definindo a propriedade
translateSheetNames
como verdadeira.Exemplo:
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Controles de tradução extra para documentos do Office
-
Por padrão, textos ocultos, comentários e propriedades do documento em um documento do Office são excluídos da tradução.
- A propriedade
translateHiddenText
pode ser definida para traduzir textos ocultos nos documentos. - A propriedade
translateDocProperties
pode ser definida para traduzir textos ocultos nos documentos. - A propriedade
translateComments
pode ser definida para traduzir comentários nos documentos.
Exemplo:
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
O valor padrão dessas propriedades é false. As propriedades podem ser definidas de forma diferente para cada tipo de documento do Office, conforme necessário.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- A propriedade
- Controles de tradução para arquivos de legenda
-
Por padrão, a OCI tenta criar uma frase a partir de muitas entradas de subtítulo antes de traduzir o texto. No entanto, às vezes uma entrada de subtítulo deve ser traduzida independentemente ou não existem frases adequadas no texto.
Se cada uma das entradas do subtítulo precisar ser traduzida individualmente, defina o valor como verdadeiro.
maxItemSize
não será efetivo nesse caso. - Formatos de saída (tipos de arquivo)
-
Com esse recurso, você pode especificar o arquivo de saída preferível para texto traduzido. O serviço de tradução detecta automaticamente o tipo de arquivo de entrada com base no arquivo fornecido. Por padrão, o mesmo tipo de arquivo é usado para texto traduzido.
É possível especificar o tipo de arquivo preferível para texto traduzido. Os tipos de arquivos suportados incluem:
- JSON
- CSV
- Nativo (padrão)
Exemplo:
"properties" : { "commonOutputFormat" : "json" }
Observação
Esta propriedade é aplicada a todos os arquivos na origem de entrada. Se vários arquivos forem fornecidos, cada arquivo será traduzido de acordo com o mesmo formato de saída. - Formatos de saída (segmentação)
-
Com esse recurso, você pode especificar opções de segmentação para controlar como o texto é dividido durante a tradução.
As opções de segmentação suportadas são:
- Natural: Nenhuma segmentação é feita.
- Sentença: Cada parágrafo é dividido em frases.
- Chunk-plain: segmentações baseadas em sentenças usadas primeiro e, em seguida, sentenças são unidas em chunks até um tamanho especificado.
- Chunk-natural: O mesmo que chunk-plain, exceto os limites naturais são respeitados. Nenhum bloco contém frases de dois parágrafos diferentes.
Exemplo:
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
As definições de segmentação não são permitidas com
outputFormat
nativo.Observação
Esta propriedade é aplicada a todos os arquivos na origem de entrada. Se vários arquivos forem fornecidos, cada arquivo será traduzido de acordo com o mesmo formato de saída e configurações de segmentação.
Executando Tradução de Documento Assíncrono
Execute a Tradução de Documentos Assíncronos usando o serviço OCI Language.
Para obter informações sobre como criar um job de tradução Assíncrono, consulte Criando Jobs Assíncronos. Use o comando oci ai language batch-language-translation e os parâmetros necessários para traduzir um ou mais arquivos:
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Para obter uma lista completa de flags e opções de variáveis para comandos da CLI, consulte a Referência de Comando da CLI.
Execute a operação CreateJob para traduzir um ou mais arquivos.