Traducción Asíncrona de Documentos
El modelo de traducción asíncrona de documentos del servicio OCI Language traduce el texto a un idioma seleccionado
OCI Asynchronous Document Translation es un servicio basado en la nube que permite una traducción fluida y eficiente de varios formatos de documentos a escala de forma asíncrona dentro de sus propias ubicaciones de Object Storage, al tiempo que conserva la estructura y el formato de los documentos originales. OCI Asynchronous Document Translation utiliza modelos de traducción automática previamente entrenados por Oracle para realizar traducciones de idiomas y otras operaciones relacionadas con el idioma.
La traducción asíncrona de documentos traduce varios tipos de documentos. Word, Excel, Power Point y otros se pueden traducir manteniendo su formato original. Se admiten texto sin formato, formatos HTML y JSON, ideales para traducir contenido en línea o integrar la traducción de aplicaciones globales. Además, se admiten formatos para subtítulos y subtítulos cerrados, lo que mejora la accesibilidad del contenido de video.
El servicio también ofrece la capacidad de transformar archivos en archivos JSON o CSV compatibles con LLM AI adecuados para tareas como entrenar y ajustar modelos de ML o crear índices RAG.
Casos de Uso
- Enfoque simplificado para superar las barreras lingüísticas
-
- Traduce guías de usuario, blogs y artículos de la base de conocimientos para llegar a un público más amplio.
- Mejore las comunicaciones internas y el intercambio de conocimientos entre los equipos globales.
- Amplíe el alcance de sus campañas de ventas y marketing proporcionando presentaciones y activos de marketing en varios idiomas.
- Haz que tu contenido de entrenamiento sea más inclusivo para los hablantes no nativos agregando subtítulos al contenido de video grabado.
- Desarrolle soporte multilingüe para productos y servicios, incluida la expansión de sus modelos de aprendizaje automático para utilizarlos con contenido de entrada que no sea inglés.
- Prepara tus datos empresariales multilingües para el procesamiento de LLM
- La eficacia de los LLM básicos y los modelos de IA se puede mejorar mediante el uso de los datos empresariales. El hecho de que una gran proporción de estos datos de Enterprise exista en varios formatos e idiomas puede suponer un reto. Algunos LLM y modelos de IA solo admiten idiomas particulares, y los modelos multilingües pueden tener un rendimiento diferente según el idioma.
- Traduzca y transforme su contenido empresarial multilingüe de varios formatos en JSON o CSV
- Segmento por frase, fragmento o límites naturales del formato de archivo.
- Utiliza JSON para crear índices RAG, ajustar modelos personalizados o enviarlos a pipelines de IA para realizar más análisis y procesamiento. Por ejemplo, análisis de sentimientos, NER.
- Traduzca y transforme su contenido empresarial multilingüe de varios formatos en JSON o CSV
Tipos de Documento Soportados
Tipo de Documento | Extensiones |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Texto | .txt |
CSV | Valores separados por comas, .csv |
TSV | Valores separados por tabuladores, .tsv |
SRT | SubRip Archivo de subtítulos, .srt |
VTT web | Formato de pistas de texto de vídeo web, .vtt |
Idiomas soportados
Para obtener una lista de los idiomas soportados, consulte Idiomas soportados. La detección automática de un idioma de origen dominante se soporta cuando el parámetro de idioma de origen está definido en automático.
Requisito
Se necesita la configuración de Políticas de Trabajo Asíncronas para utilizar el servicio Traducción de Documentos Asíncronos.
Límites y restricciones de tamaño
- El tamaño máximo del documento es de 20 MB. Se ignoran todos los documentos de mayor tamaño.
- Todos los formatos de texto (texto, HTML, CSV, TSV, SRT, WebVTT, JSON) deben estar codificados en UTF-8.
- El tamaño máximo de una sola solicitud es de 5 GB. Sin embargo, se recomienda un tamaño más pequeño de solicitud para obtener respuestas más rápidas.
Control de Funciones Asíncronas de Traducción de Documentos
Con la traducción asíncrona de documentos, puede controlar y personalizar la traducción mediante propiedades avanzadas, ya sea mediante un archivo de glosario o propiedades de archivo específicas.
Un glosario es una lista de términos proporcionados por el usuario que se pueden utilizar dentro de la traducción asíncrona de documentos para controlar la traducción. Mediante un glosario, puede especificar cómo traducir o no determinada terminología.
Los principales casos de uso de los glosarios incluyen:
- Garantizar que el contexto y la terminología específica del dominio se traduzcan de forma consistente en todo el contenido.
- Restringir ciertos términos o palabras de la traducción. Por ejemplo, nombres de marcas o productos que no desea traducir.
Para controlar opcionalmente qué elementos de un archivo se traducen, utilice propiedades específicas de tipo de archivo. Por ejemplo, utilice columnas para traducir un archivo CSV o elementos para traducir un archivo JSON.
Consulte las siguientes propiedades y descripciones avanzadas:
- Glosarios
-
Puede especificar terminologías personalizadas por trabajo, donde determinadas palabras se pueden traducir de forma diferente. El glosario se puede proporcionar como valores separados por comas (CSV) sin cabecera.
Valor de ejemplo para propiedades avanzadas:
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Ejemplo de contenido de archivo CSV de glosario 1 - Aplicado a todos los idiomas de destino:
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Ejemplo de glosario Contenido de archivo CSV 2 - Glosarios específicos del idioma
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Mejores prácticas para glosarios forzados
-
Mantenga el glosario forzado mínimo:
- Solo incluya términos que desee controlar y que sean inequívocos.
- Utilice sólo términos que sepa que nunca desea utilizar un significado alternativo de, y desea que sólo se traduzca de una sola manera.
- Limite la lista a nombres propios, como nombres de marcas y nombres de productos.
- Los glosarios forzados distinguen entre mayúsculas y minúsculas:
- Si necesita incluir versiones capitalizadas y no capitalizadas de un término, debe incluir una entrada para cada versión.
- Del mismo modo, la versión plural de un término debe incluirse como una entrada independiente en el glosario.
- No incluya traducciones diferentes para la misma frase de origen. Los resultados de MT no se pueden garantizar en estos casos.
Ejemplo:
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- Controles CSV
-
Puede especificar las cabeceras y columnas que desea traducir.
columnsToTranslate
: índice (a partir de 1) de la columna que se va a traducir.hasHeaders
: especifica si el archivo CSV tiene cabeceras; si es verdadero, la primera fila permanece sin traducir.
Ejemplo:
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- Configuración de JSON
-
Puede traducir elementos específicos definiendo
pathsToTranslate
en una matriz de expresiones de ruta de acceso JSON válidas.Ejemplo:
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Segmentación personalizada con un delimitador
-
Por defecto, cada entrada en JSON/CSV/TSV se traduce en el nivel de frase. El delimitador personalizado se puede utilizar si el contenido no está formado por frases normales. El delimitador es una expresión regular válida que se puede utilizar para dividir un texto.
Ejemplo:
Para traducir cada línea por separado:
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- Procesador de contenido HTML
-
Para tratar el texto en las entradas JSON/CSV/TSV como texto HTML, utilice la propiedad
"contentProcessor"
.Ejemplo:
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel: Traducción opcional de nombres de hoja
-
Por defecto, los nombres de hoja no están traducidos. La traducción de nombres de hoja puede romper algunas macros o referencias. Sin embargo, si las hojas de cálculo no tienen una referencia con nombres de hoja o macros, el servicio puede traducir los nombres de hoja definiendo la propiedad
translateSheetNames
en true.Ejemplo:
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Controles de traducción adicionales para documentos de Office
-
De forma predeterminada, los textos ocultos, los comentarios y las propiedades del documento en un documento de Office se excluyen de la traducción.
- La propiedad
translateHiddenText
se puede definir para traducir textos ocultos en los documentos. - La propiedad
translateDocProperties
se puede definir para traducir textos ocultos en los documentos. - La propiedad
translateComments
se puede definir para traducir comentarios en los documentos.
Ejemplo:
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
El valor por defecto de estas propiedades es false. Las propiedades se pueden definir de forma diferente para cada tipo de documento de Office según sea necesario.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- La propiedad
- Controles de traducción para archivos de subtítulos
-
Por defecto, OCI intenta crear una frase a partir de muchas entradas de subtítulos antes de traducir el texto. Sin embargo, a veces una entrada de subtítulo debe ser traducida independientemente o no existen frases adecuadas en el texto.
Si cada una de las entradas de subtítulo se debe traducir individualmente, defina el valor en true.
maxItemSize
no es efectivo en este caso. - Formatos de salida (tipos de archivo)
-
Con esta función, puede especificar el archivo de salida preferible para el texto traducido. El servicio de traducción detecta automáticamente el tipo de archivo de entrada según el archivo que proporcione. Por defecto, se utiliza el mismo tipo de archivo para el texto traducido.
Puede especificar el tipo de archivo preferido para el texto traducido. Entre los tipos de archivo soportados se incluyen:
- JSON
- CSV
- Nativo (por defecto)
Ejemplo:
"properties" : { "commonOutputFormat" : "json" }
Nota
Esta propiedad se aplica a todos los archivos del origen de entrada. Si se proporcionan varios archivos, cada archivo se traduce según el mismo formato de salida. - Formatos de salida (segmentación)
-
Con esta función, puede especificar opciones de segmentación para controlar cómo se divide el texto durante la conversión.
Las opciones de segmentación admitidas son:
- Natural: no se realiza ninguna segmentación.
- Sentencia: cada párrafo se divide en oraciones.
- Chunk-plain: las segmentaciones basadas en frases se utilizan primero y, a continuación, las sentencias se unen en fragmentos hasta un tamaño especificado.
- Chunk-natural: lo mismo que chunk-plain, excepto que se respetan los límites naturales. Ningún fragmento contiene frases de dos párrafos diferentes.
Ejemplo:
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
No se permite la configuración de segmentación con
outputFormat
nativo.Nota
Esta propiedad se aplica a todos los archivos del origen de entrada. Si se proporcionan varios archivos, cada archivo se traduce según el mismo formato de salida y la misma configuración de segmentación.
Ejecución de traducción asíncrona de documentos
Ejecute la traducción asíncrona de documentos mediante el servicio OCI Language.
Para obtener información sobre la creación de un trabajo de traducción asíncrona, consulte Creación de trabajos asíncronos. Utilice el comando oci ai language batch-language-translation y los parámetros necesarios para traducir uno o más archivos:
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.
Ejecute la operación CreateJob para traducir uno o más archivos.