Traducción Asíncrona de Documentos

El modelo de traducción asíncrona de documentos del servicio OCI Language traduce el texto a un idioma seleccionado

OCI Asynchronous Document Translation es un servicio basado en la nube que permite una traducción fluida y eficiente de varios formatos de documentos a escala de forma asíncrona dentro de sus propias ubicaciones de Object Storage, al tiempo que conserva la estructura y el formato de los documentos originales. OCI Asynchronous Document Translation utiliza modelos de traducción automática previamente entrenados por Oracle para realizar traducciones de idiomas y otras operaciones relacionadas con el idioma.

La traducción asíncrona de documentos traduce varios tipos de documentos. Word, Excel, Power Point y otros se pueden traducir manteniendo su formato original. Se admiten texto sin formato, formatos HTML y JSON, ideales para traducir contenido en línea o integrar la traducción de aplicaciones globales. Además, se admiten formatos para subtítulos y subtítulos cerrados, lo que mejora la accesibilidad del contenido de video.

El servicio también ofrece la capacidad de transformar archivos en archivos JSON o CSV compatibles con LLM AI adecuados para tareas como entrenar y ajustar modelos de ML o crear índices RAG.

Casos de Uso

Enfoque simplificado para superar las barreras lingüísticas
  • Traduce guías de usuario, blogs y artículos de la base de conocimientos para llegar a un público más amplio.
  • Mejore las comunicaciones internas y el intercambio de conocimientos entre los equipos globales.
  • Amplíe el alcance de sus campañas de ventas y marketing proporcionando presentaciones y activos de marketing en varios idiomas.
  • Haz que tu contenido de entrenamiento sea más inclusivo para los hablantes no nativos agregando subtítulos al contenido de video grabado.
  • Desarrolle soporte multilingüe para productos y servicios, incluida la expansión de sus modelos de aprendizaje automático para utilizarlos con contenido de entrada que no sea inglés.
Prepara tus datos empresariales multilingües para el procesamiento de LLM
La eficacia de los LLM básicos y los modelos de IA se puede mejorar mediante el uso de los datos empresariales. El hecho de que una gran proporción de estos datos de Enterprise exista en varios formatos e idiomas puede suponer un reto. Algunos LLM y modelos de IA solo admiten idiomas particulares, y los modelos multilingües pueden tener un rendimiento diferente según el idioma.
  • Traduzca y transforme su contenido empresarial multilingüe de varios formatos en JSON o CSV
    • Segmento por frase, fragmento o límites naturales del formato de archivo.
  • Utiliza JSON para crear índices RAG, ajustar modelos personalizados o enviarlos a pipelines de IA para realizar más análisis y procesamiento. Por ejemplo, análisis de sentimientos, NER.

Tipos de Documento Soportados

Tipo de Documento Extensiones
Microsoft Office docx, pptx, xlsx
HTML .html
JSON .json
Texto .txt
CSV Valores separados por comas, .csv
TSV Valores separados por tabuladores, .tsv
SRT SubRip Archivo de subtítulos, .srt
VTT web Formato de pistas de texto de vídeo web, .vtt

Idiomas soportados

Para obtener una lista de los idiomas soportados, consulte Idiomas soportados. La detección automática de un idioma de origen dominante se soporta cuando el parámetro de idioma de origen está definido en automático.

Límites y restricciones de tamaño

  • El tamaño máximo del documento es de 20 MB. Se ignoran todos los documentos de mayor tamaño.
  • Todos los formatos de texto (texto, HTML, CSV, TSV, SRT, WebVTT, JSON) deben estar codificados en UTF-8.
  • El tamaño máximo de una sola solicitud es de 5 GB. Sin embargo, se recomienda un tamaño más pequeño de solicitud para obtener respuestas más rápidas.

Control de Funciones Asíncronas de Traducción de Documentos

Con la traducción asíncrona de documentos, puede controlar y personalizar la traducción mediante propiedades avanzadas, ya sea mediante un archivo de glosario o propiedades de archivo específicas.

Un glosario es una lista de términos proporcionados por el usuario que se pueden utilizar dentro de la traducción asíncrona de documentos para controlar la traducción. Mediante un glosario, puede especificar cómo traducir o no determinada terminología.

Los principales casos de uso de los glosarios incluyen:

  • Garantizar que el contexto y la terminología específica del dominio se traduzcan de forma consistente en todo el contenido.
  • Restringir ciertos términos o palabras de la traducción. Por ejemplo, nombres de marcas o productos que no desea traducir.

Para controlar opcionalmente qué elementos de un archivo se traducen, utilice propiedades específicas de tipo de archivo. Por ejemplo, utilice columnas para traducir un archivo CSV o elementos para traducir un archivo JSON.

Consulte las siguientes propiedades y descripciones avanzadas:

Glosarios

Puede especificar terminologías personalizadas por trabajo, donde determinadas palabras se pueden traducir de forma diferente. El glosario se puede proporcionar como valores separados por comas (CSV) sin cabecera.

Valor de ejemplo para propiedades avanzadas:

{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName":
          "source-bucket", "namespace": "idngwwc5ajp5","prefix":
          "glossary_text.csv"}}}}

Ejemplo de contenido de archivo CSV de glosario 1 - Aplicado a todos los idiomas de destino:

India,India

Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite

Ejemplo de glosario Contenido de archivo CSV 2 - Glosarios específicos del idioma

en,nl,es

India,India,India
Oracle,Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite,Oracle NetSuite

Mejores prácticas para glosarios forzados

  • Mantenga el glosario forzado mínimo:
    • Solo incluya términos que desee controlar y que sean inequívocos.
    • Utilice sólo términos que sepa que nunca desea utilizar un significado alternativo de, y desea que sólo se traduzca de una sola manera.
    • Limite la lista a nombres propios, como nombres de marcas y nombres de productos.
  • Los glosarios forzados distinguen entre mayúsculas y minúsculas:
    • Si necesita incluir versiones capitalizadas y no capitalizadas de un término, debe incluir una entrada para cada versión.
    • Del mismo modo, la versión plural de un término debe incluirse como una entrada independiente en el glosario.
  • No incluya traducciones diferentes para la misma frase de origen. Los resultados de MT no se pueden garantizar en estos casos.

    Ejemplo:

    en,fr
    Oracle MT, Oracle MT
    Oracle MT, Système de traduction automatique de Oracle
Controles CSV

Puede especificar las cabeceras y columnas que desea traducir.

  • columnsToTranslate: índice (a partir de 1) de la columna que se va a traducir.
  • hasHeaders: especifica si el archivo CSV tiene cabeceras; si es verdadero, la primera fila permanece sin traducir.

Ejemplo:

{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
Configuración de JSON

Puede traducir elementos específicos definiendo pathsToTranslate en una matriz de expresiones de ruta de acceso JSON válidas.

Ejemplo:

{"translation":{"json":{"filter":"path","pathsToTranslate":
["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
Segmentación personalizada con un delimitador

Por defecto, cada entrada en JSON/CSV/TSV se traduce en el nivel de frase. El delimitador personalizado se puede utilizar si el contenido no está formado por frases normales. El delimitador es una expresión regular válida que se puede utilizar para dividir un texto.

Ejemplo:

Para traducir cada línea por separado:

{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
Procesador de contenido HTML

Para tratar el texto en las entradas JSON/CSV/TSV como texto HTML, utilice la propiedad "contentProcessor".

Ejemplo:

{"translation":{ "json": {"contentProcessor": "html"} }

{"translation":{ "csv": {"contentProcessor": "html"} }

{"translation":{ "tsv": {"contentProcessor": "html"} }
Excel: Traducción opcional de nombres de hoja

Por defecto, los nombres de hoja no están traducidos. La traducción de nombres de hoja puede romper algunas macros o referencias. Sin embargo, si las hojas de cálculo no tienen una referencia con nombres de hoja o macros, el servicio puede traducir los nombres de hoja definiendo la propiedad translateSheetNames en true.

Ejemplo:

{"translation":{"xlsx": {"translateSheetNames":true} }}
Controles de traducción adicionales para documentos de Office

De forma predeterminada, los textos ocultos, los comentarios y las propiedades del documento en un documento de Office se excluyen de la traducción.

  • La propiedad translateHiddenText se puede definir para traducir textos ocultos en los documentos.
  • La propiedad translateDocProperties se puede definir para traducir textos ocultos en los documentos.
  • La propiedad translateComments se puede definir para traducir comentarios en los documentos.

Ejemplo:

{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}

El valor por defecto de estas propiedades es false. Las propiedades se pueden definir de forma diferente para cada tipo de documento de Office según sea necesario.

{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": 
{ "translateComments": true} }}
Controles de traducción para archivos de subtítulos

Por defecto, OCI intenta crear una frase a partir de muchas entradas de subtítulos antes de traducir el texto. Sin embargo, a veces una entrada de subtítulo debe ser traducida independientemente o no existen frases adecuadas en el texto.

Si cada una de las entradas de subtítulo se debe traducir individualmente, defina el valor en true. maxItemSize no es efectivo en este caso.

Formatos de salida (tipos de archivo)

Con esta función, puede especificar el archivo de salida preferible para el texto traducido. El servicio de traducción detecta automáticamente el tipo de archivo de entrada según el archivo que proporcione. Por defecto, se utiliza el mismo tipo de archivo para el texto traducido.

Puede especificar el tipo de archivo preferido para el texto traducido. Entre los tipos de archivo soportados se incluyen:

  • JSON
  • CSV
  • Nativo (por defecto)

Ejemplo:

"properties" : {
   "commonOutputFormat" : "json"
}
Nota

Esta propiedad se aplica a todos los archivos del origen de entrada. Si se proporcionan varios archivos, cada archivo se traduce según el mismo formato de salida.
Formatos de salida (segmentación)

Con esta función, puede especificar opciones de segmentación para controlar cómo se divide el texto durante la conversión.

Las opciones de segmentación admitidas son:

  • Natural: no se realiza ninguna segmentación.
  • Sentencia: cada párrafo se divide en oraciones.
  • Chunk-plain: las segmentaciones basadas en frases se utilizan primero y, a continuación, las sentencias se unen en fragmentos hasta un tamaño especificado.
  • Chunk-natural: lo mismo que chunk-plain, excepto que se respetan los límites naturales. Ningún fragmento contiene frases de dos párrafos diferentes.

Ejemplo:

"properties" : {
"commonOutputFormat" : "csv:chunk-plain:2000"
}

No se permite la configuración de segmentación con outputFormat nativo.

Nota

Esta propiedad se aplica a todos los archivos del origen de entrada. Si se proporcionan varios archivos, cada archivo se traduce según el mismo formato de salida y la misma configuración de segmentación.

Ejecución de traducción asíncrona de documentos

Ejecute la traducción asíncrona de documentos mediante el servicio OCI Language.