Traduction de document asynchrone

Le modèle de traduction asynchrone de document du service de langue OCI traduit le texte dans une langue choisie

OCI Asynchronous Document Translation est un service cloud qui permet une traduction transparente et efficace de différents formats de documents à grande échelle de manière asynchrone dans vos propres emplacements Object Storage, tout en préservant la structure et le format des documents d'origine. OCI Asynchronous Document Translation utilise des modèles de traduction automatique préentraînés Oracle pour effectuer des traductions linguistiques et d'autres opérations liées aux langues.

La traduction asynchrone de documents traduit différents types de documents. Word, Excel, Power Point et d'autres peuvent être traduits tout en conservant leur formatage d'origine. Le texte brut, les formats HTML et JSON sont pris en charge, ce qui est idéal pour traduire du contenu en ligne ou intégrer la traduction d'applications globales. En outre, les formats de sous-titrage et de sous-titrage sont pris en charge, ce qui améliore l'accessibilité du contenu vidéo.

Le service offre également la possibilité de transformer des fichiers en fichiers JSON ou CSV compatibles LLM AI adaptés à des tâches telles que l'entraînement et le réglage fin des modèles ML ou la création d'indices RAG.

Cas d'emploi

Approche simplifiée pour surmonter les obstacles linguistiques
  • Traduisez les guides des utilisateurs, les blogs et les articles de la base de connaissances pour atteindre un public plus large.
  • Améliorer les communications internes et le partage des connaissances entre les équipes internationales.
  • Étendez la portée de vos campagnes de vente et de marketing en fournissant des présentations et des ressources marketing dans plusieurs langues.
  • Rendez votre contenu de formation plus inclusif pour les locuteurs non natifs en ajoutant des sous-titres au contenu vidéo enregistré.
  • Développer une prise en charge multilingue des produits et services, y compris l'extension de vos modèles de machine learning à utiliser avec du contenu d'entrée non anglais.
Préparez vos données d'entreprise multilingues pour le traitement LLM
L'efficacité des LLM de base et des modèles d'IA peut être améliorée à l'aide de vos données d'entreprise. Le fait qu'une grande partie de ces données d'entreprise existe dans différents formats et langages peut constituer un défi. Certains LLM et modèles d'IA prennent uniquement en charge des langages particuliers et les modèles multilingues peuvent fonctionner différemment en fonction de la langue.
  • Traduisez et transformez votre contenu d'entreprise multilingue de différents formats en JSON ou CSV
    • Segment par phrase, bloc ou limites naturelles du format de fichier.
  • Utilisez le JSON pour créer des index RAG, affiner des modèles personnalisés ou les soumettre aux pipelines d'IA pour une analyse et un traitement ultérieurs. Par exemple, analyse des sentiments, NER.

Types de document pris en charge

Type de document Extensions
Microsoft Office docx, pptx, xlsx
HTML .html
JSON .json
Texte .txt
CSV Valeurs séparées par des virgules, .csv
TSV Valeurs séparées par des tabulations, .tsv
SRT SubRip Fichier de sous-titre, .srt
VTT Web Format de pistes de texte vidéo Web, .vtt

Langues prises en charge

Pour obtenir la liste des langues prises en charge, reportez-vous à Langues prises en charge. La détection automatique d'une langue source dominante est prise en charge lorsque le paramètre de langue source est défini sur auto.

Limites et restrictions de taille

  • La taille maximale du document est de 20 Mo. Tous les documents de taille supérieure sont ignorés.
  • Tous les formats de texte (texte, HTML, CSV, TSV, SRT, WebVTT, JSON) doivent être encodés en UTF-8.
  • La taille maximale d'une seule demande est de 5 Go. Cependant, une taille de demande plus petite est recommandée pour des réponses plus rapides.

Contrôler les fonctionnalités de traduction asynchrone de documents

Avec Asynchronous Document Translation, vous pouvez contrôler et personnaliser la traduction via des propriétés avancées, à l'aide d'un fichier de glossaire ou de propriétés de fichier spécifiques.

Un glossaire est une liste de termes fournis par l'utilisateur qui peuvent être utilisés dans la traduction de document asynchrone pour contrôler la traduction. En utilisant un glossaire, vous pouvez indiquer comment traduire ou non certaines terminologies.

Les principaux cas d'utilisation des glossaires sont les suivants :

  • Garantir la traduction cohérente du contexte et de la terminologie propre au domaine dans l'ensemble du contenu.
  • Limiter certains termes ou mots de la traduction. Par exemple, les noms de marque ou de produit que vous ne voulez pas traduire.

Pour contrôler éventuellement les éléments d'un fichier traduits, utilisez les propriétés spécifiques au type de fichier. Par exemple, utilisez des colonnes pour traduire un fichier CSV ou des éléments pour traduire un fichier JSON.

Reportez-vous aux propriétés avancées et descriptions suivantes :

Glossaires

Vous pouvez spécifier des terminologies personnalisées par travail, où certains mots peuvent être traduits différemment. Le glossaire peut être fourni sous forme de valeurs séparées par des virgules (CSV) sans en-tête.

Exemple de valeur pour les propriétés avancées :

{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName":
          "source-bucket", "namespace": "idngwwc5ajp5","prefix":
          "glossary_text.csv"}}}}

Exemple de contenu de fichier CSV de glossaire 1 - Appliqué à toutes les langues cible :

India,India

Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite

Exemple de contenu de fichier CSV de glossaire 2 - Glossaires spécifiques à la langue

en,nl,es

India,India,India
Oracle,Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite,Oracle NetSuite

Meilleures pratiques pour les glossaires forcés

  • Gardez le glossaire forcé minimal :
    • Incluez uniquement les termes que vous souhaitez contrôler et qui sont sans ambiguïté.
    • Utilisez uniquement des termes dont vous savez que vous ne voulez jamais utiliser une autre signification et que vous voulez qu'ils ne soient jamais traduits d'une seule manière.
    • Limitez la liste aux noms propres, tels que les noms de marque et les noms de produit.
  • Les glossaires forcés respectent la casse :
    • Si vous avez besoin d'inclure des versions capitalisées et non capitalisées d'un terme, vous devez inclure une entrée pour chaque version.
    • De même, la version plurielle d'un terme doit être incluse en tant qu'entrée distincte dans le glossaire
  • N'incluez pas de traductions différentes pour la même expression source. Les résultats MT ne peuvent pas être garantis dans de tels cas.

    Exemple :

    en,fr
    Oracle MT, Oracle MT
    Oracle MT, Système de traduction automatique de Oracle
Contrôles CSV

Vous pouvez indiquer les en-têtes et les colonnes à traduire.

  • columnsToTranslate : index (à partir de 1) de la colonne à traduire.
  • hasHeaders : indique si le fichier CSV comporte des en-têtes, si la valeur est True, la première ligne reste non traduite.

Exemple :

{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
Configuration JSON

Vous pouvez traduire des éléments spécifiques en définissant pathsToTranslate sur un tableau d'expressions de chemin JSON valides.

Exemple :

{"translation":{"json":{"filter":"path","pathsToTranslate":
["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
Segmentation personnalisée avec un délimiteur

Par défaut, chaque entrée dans JSON/CSV/TSV est traduite au niveau de la phrase. Le délimiteur personnalisé peut être utilisé si le contenu ne se compose pas de phrases normales. Le délimiteur est une expression régulière valide qui peut être utilisée pour fractionner un texte.

Exemple :

Pour traduire chaque ligne séparément :

{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
Processeur de contenu HTML

Pour traiter le texte dans les entrées JSON/CSV/TSV en tant que texte HTML, utilisez la propriété "contentProcessor".

Exemple :

{"translation":{ "json": {"contentProcessor": "html"} }

{"translation":{ "csv": {"contentProcessor": "html"} }

{"translation":{ "tsv": {"contentProcessor": "html"} }
Excel : traduction facultative des noms de feuille

Par défaut, les noms des feuilles ne sont pas traduits. La conversion des noms de feuille peut rompre certaines macros ou références. Toutefois, si les feuilles de calcul n'ont pas de référence utilisant des noms de feuille ou des macros, le service peut traduire les noms de feuille en définissant la propriété translateSheetNames sur True.

Exemple :

{"translation":{"xlsx": {"translateSheetNames":true} }}
Contrôles de traduction supplémentaires pour les documents Office

Par défaut, les textes masqués, les commentaires et les propriétés de document dans un document Office sont exclus de la traduction.

  • La propriété translateHiddenText peut être définie pour traduire les textes masqués dans les documents.
  • La propriété translateDocProperties peut être définie pour traduire les textes masqués dans les documents.
  • La propriété translateComments peut être définie pour traduire les commentaires dans les documents.

Exemple :

{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}

La valeur par défaut de ces propriétés est False. Les propriétés peuvent être définies différemment pour chaque type de document Office, si nécessaire.

{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": 
{ "translateComments": true} }}
Contrôles de traduction pour les fichiers de sous-titres

Par défaut, OCI tente de créer une phrase à partir de nombreuses entrées de sous-titre avant de traduire le texte. Cependant, parfois, une entrée de sous-titre doit être traduite indépendamment ou aucune phrase appropriée n'existe dans le texte.

Si chacune des entrées de sous-titre doit être traduite individuellement, définissez la valeur sur True. maxItemSize n'est pas en vigueur dans ce cas.

Formats de sortie (types de fichier)

Avec cette fonctionnalité, vous pouvez spécifier le fichier de sortie préférable pour le texte traduit. Le service de traduction détecte automatiquement le type de fichier d'entrée en fonction du fichier que vous fournissez. Par défaut, le même type de fichier est utilisé pour le texte traduit.

Vous pouvez spécifier le type de fichier préféré pour le texte traduit. Les types de fichier pris en charge sont les suivants :

  • JSON
  • CSV
  • Natif (par défaut)

Exemple :

"properties" : {
   "commonOutputFormat" : "json"
}
Remarque

Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie.
Formats de sortie (segmentation)

Avec cette fonctionnalité, vous pouvez spécifier des options de segmentation pour contrôler la répartition du texte lors de la traduction.

Les options de segmentation prises en charge sont les suivantes :

  • Naturel : aucune segmentation n'est effectuée.
  • Phrase : chaque paragraphe est divisé en phrases.
  • Chunk-plain : segmentations basées sur des phrases utilisées en premier, puis les phrases sont jointes en blocs jusqu'à une taille spécifiée.
  • Chunk-natural : la même chose que chunk-plain, sauf que les limites naturelles sont respectées. Aucun bloc ne contient des phrases de deux paragraphes différents.

Exemple :

"properties" : {
"commonOutputFormat" : "csv:chunk-plain:2000"
}

Les paramètres de segmentation ne sont pas autorisés avec outputFormat natif.

Remarque

Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie et les mêmes paramètres de segmentation.

Exécution de la conversion de document asynchrone

Exécutez la traduction asynchrone de documents à l'aide du service OCI Language.