Traduction de document asynchrone

Le modèle de traduction de document asynchrone du service de langue pour OCI traduit le texte dans une langue sélectionnée

OCI Asynchronous Document Translation est un service en nuage qui permet une traduction transparente et efficace de divers formats de documents à grande échelle de manière asynchrone dans vos propres emplacements de stockage d'objets tout en préservant la structure et le format des documents originaux. OCI Asynchronous Document Translation utilise les modèles de traduction automatique préentraînés d'Oracle pour effectuer la traduction linguistique et d'autres opérations liées à la langue.

La traduction asynchrone de documents traduit divers types de document. Word, Excel, Power Point et d'autres peuvent être traduits tout en conservant leur formatage original. Le texte brut, les formats HTML et JSON sont pris en charge, ce qui est idéal pour traduire du contenu en ligne ou pour intégrer la traduction d'applications globales. De plus, les formats de sous-titrage et de sous-titrage sont pris en charge, ce qui améliore l'accessibilité du contenu vidéo.

Le service offre également la possibilité de transformer des fichiers en fichiers JSON ou CSV compatibles avec l'intelligence artificielle pour le grand modèle de langage, adaptés à des tâches telles que l'entraînement et le réglage de précision des modèles d'apprentissage automatique ou la création d'index RAG.

Cas d'utilisation

Approche simplifiée pour surmonter les barrières linguistiques
  • Traduire des guides de l'utilisateur, des blogs et des articles de base de connaissances pour atteindre un public plus large.
  • Améliorez les communications internes et le partage des connaissances entre les équipes mondiales.
  • Étendez la portée de vos campagnes de vente et de marketing en fournissant des présentations et des ressources marketing en plusieurs langues.
  • Rendez votre contenu de formation plus inclusif pour les locuteurs non natifs en ajoutant des sous-titres au contenu vidéo enregistré.
  • Développez une prise en charge multilingue des produits et services, y compris l'expansion de vos modèles d'apprentissage automatique à utiliser avec du contenu d'entrée non anglais.
Préparer vos données d'entreprise multilingues pour le traitement du LLM
L'efficacité des LLM de base et des modèles d'IA peut être améliorée à l'aide de vos données d'entreprise. Le fait qu'une grande partie de ces données d'entreprise existe dans différents formats et langues peut constituer un défi. Certains LLM et modèles d'IA ne prennent en charge que des langages particuliers et les modèles multilingues peuvent avoir des performances différentes en fonction de la langue.
  • Traduire et transformer votre contenu d'entreprise multilingue de différents formats en JSON ou en CSV
    • Segmentez par phrase, fragment ou limites naturelles du format de fichier.
  • Utilisez le JSON pour créer des index RAG, ajuster des modèles personnalisés ou soumettre des modèles à des pipelines d'IA pour une analyse et un traitement supplémentaires. Par exemple, analyse de sentiments, NER.

Types de documents pris en charge

Type de document Extensions
Microsoft Office docx, pptx, xlsx
HTML .html
JSON .json
Texte .txt
CSV Valeurs séparées par des virgules, .csv
TSV Valeurs séparées par des tabulations, .tsv
SRT SubRip Fichier de sous-titre, .srt
VTT Web Format de pistes de texte vidéo Web, .vtt

Langues prises en charge

Pour obtenir la liste des langues prises en charge, voir Langues prises en charge. La détection automatique d'une langue source dominante est prise en charge lorsque le paramètre de langue source est réglé à Auto.

Limites et restrictions de taille

  • La taille maximale du document est de 20 Mo. Tous les documents sur la taille sont ignorés.
  • Tous les formats de texte (Texte, HTML, CSV, TSV, SRT, WebVTT, JSON) doivent être encodés en UTF-8.
  • La taille maximale d'une demande unique est de 5 Go. Toutefois, une taille de demande plus petite est recommandée pour des réponses plus rapides.

Contrôle des fonctions de traduction de documents asynchrones

Avec la traduction de documents asynchrone, vous pouvez contrôler et personnaliser la traduction au moyen de propriétés avancées, soit à l'aide d'un fichier de glossaire, soit à l'aide de propriétés de fichier spécifiques.

Un glossaire est une liste de termes fournis par l'utilisateur qui peuvent être utilisés dans la traduction asynchrone de documents pour contrôler la traduction. En utilisant un glossaire, vous pouvez spécifier comment traduire ou non certaines terminologies.

Les principaux cas d'utilisation des glossaires sont les suivants :

  • S'assurer que le contexte et la terminologie propre au domaine sont traduits de manière cohérente dans l'ensemble du contenu.
  • Restreindre certains termes ou mots de la traduction. Par exemple, les noms de marque ou de produit que vous ne souhaitez pas traduire.

Pour contrôler facultativement les éléments d'un fichier qui sont traduits, utilisez les propriétés propres au type de fichier. Par exemple, utilisez des colonnes pour traduire un fichier CSV ou des éléments pour traduire un fichier JSON.

Voir les propriétés et descriptions avancées suivantes :

Glossaires

Vous pouvez spécifier des terminologies personnalisées par travail, où certains mots peuvent être traduits différemment. Le glossaire peut être fourni sous forme de valeurs séparées par des virgules (CSV) sans en-tête.

Exemple de valeur pour les propriétés avancées :

{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName":
          "source-bucket", "namespace": "idngwwc5ajp5","prefix":
          "glossary_text.csv"}}}}

Exemple de contenu de fichier CSV de glossaire 1 - Appliqué à toutes les langues cibles :

India,India

Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite

Exemple de glossaire de contenu de fichier CSV 2 - Glossaires propres à une langue

en,nl,es

India,India,India
Oracle,Oracle,Oracle
Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure
Oracle NetSuite,Oracle NetSuite,Oracle NetSuite

Meilleures pratiques pour les glossaires forcés

  • Gardez le glossaire forcé au minimum :
    • N'incluez que les termes que vous voulez contrôler et qui sont sans ambiguïté.
    • N'utilisez que des termes dont vous savez que vous ne voulez jamais utiliser une autre signification, et vous voulez qu'il ne soit jamais traduit d'une seule manière.
    • Limitez la liste aux noms propres, tels que les noms de marque et les noms de produit.
  • Les glossaires forcés sont sensibles à la casse :
    • Si vous devez inclure les versions capitalisées et non capitalisées d'un terme, vous devez inclure une entrée pour chaque version.
    • De même, la version pluriel d'un terme doit être incluse comme une entrée distincte dans le glossaire.
  • N'incluez pas de traductions différentes pour la même phrase source. Les résultats MT ne peuvent pas être garantis dans de tels cas.

    Exemple :

    en,fr
    Oracle MT, Oracle MT
    Oracle MT, Système de traduction automatique de Oracle
Contrôles CSV

Vous pouvez spécifier les en-têtes et les colonnes à traduire.

  • columnsToTranslate : Index (à partir de 1) de la colonne à traduire.
  • hasHeaders : Spécifie si le fichier CSV contient des en-têtes, si la valeur est Vrai, la première rangée reste non traduite.

Exemple :

{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
JSON configuration

Vous pouvez traduire des éléments spécifiques en réglant pathsToTranslate à un tableau d'expressions de chemin JSON valides.

Exemple :

{"translation":{"json":{"filter":"path","pathsToTranslate":
["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
Segmentation personnalisée avec un délimiteur

Par défaut, chaque entrée dans JSON/CSV/TSV est traduite au niveau de la phrase. Le délimiteur personnalisé peut être utilisé si le contenu n'est pas constitué de phrases normales. Le délimiteur est une expression rationnelle valide qui peut être utilisée pour fractionner un texte.

Exemple :

Pour convertir chaque ligne séparément :

{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} }

{"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
Processeur de contenu HTML

Pour traiter le texte des entrées JSON/CSV/TSV en tant que texte HTML, utilisez la propriété "contentProcessor".

Exemple :

{"translation":{ "json": {"contentProcessor": "html"} }

{"translation":{ "csv": {"contentProcessor": "html"} }

{"translation":{ "tsv": {"contentProcessor": "html"} }
Excel : Traduction facultative des noms de feuille

Par défaut, les noms de feuille ne sont pas traduits. La traduction de noms de feuille peut casser certaines macros ou références. Toutefois, si les feuilles de calcul n'ont pas de référence utilisant des noms de feuille ou des macros, le service peut traduire les noms de feuille en réglant la propriété translateSheetNames à Vrai.

Exemple :

{"translation":{"xlsx": {"translateSheetNames":true} }}
Contrôles de traduction supplémentaires pour les documents Office

Par défaut, les textes masqués, les commentaires et les propriétés d'un document Office sont exclus de la traduction.

  • La propriété translateHiddenText peut être définie pour traduire les textes masqués dans les documents.
  • La propriété translateDocProperties peut être définie pour traduire les textes masqués dans les documents.
  • La propriété translateComments peut être définie pour traduire les commentaires dans les documents.

Exemple :

{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":

{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}

La valeur par défaut de ces propriétés est false. Les propriétés peuvent être définies différemment pour chaque type de document Office, au besoin.

{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": 
{ "translateComments": true} }}
Contrôles de traduction pour les fichiers de sous-titre

Par défaut, OCI tente de créer une phrase à partir de nombreuses entrées de sous-titre avant de traduire le texte. Cependant, parfois, une entrée de sous-titre doit être traduite indépendamment ou aucune phrase appropriée n'existe dans le texte.

Si chacune des entrées de sous-titre doit être traduite individuellement, réglez la valeur à Vrai. maxItemSize n'est pas en vigueur dans ce cas.

Formats de sortie (types de fichier)

Avec cette fonctionnalité, vous pouvez spécifier le fichier de sortie préféré pour le texte traduit. Le service de traduction détecte automatiquement le type de fichier d'entrée en fonction du fichier que vous fournissez. Par défaut, le même type de fichier est utilisé pour le texte traduit.

Vous pouvez spécifier le type de fichier préféré pour le texte traduit. Les types de fichier pris en charge sont les suivants :

  • JSON
  • CSV
  • Natif (par défaut)

Exemple :

"properties" : {
   "commonOutputFormat" : "json"
}
Note

Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie.
Formats de sortie (segmentation)

Avec cette fonction, vous pouvez spécifier des options de segmentation pour contrôler la répartition du texte pendant la conversion.

Les options de segmentation prises en charge sont les suivantes :

  • Naturel : Aucune segmentation n'est effectuée.
  • Sentence : Chaque paragraphe est divisé en phrases.
  • Franche de fragmentation : segmentations basées sur une phrase utilisées en premier, puis phrases jointes en fragments jusqu'à une taille spécifiée.
  • Naturel de la tranche de mémoire : Identique à la tranche de mémoire simple, sauf que les limites naturelles sont respectées. Aucun morceau ne contient des phrases de deux paragraphes différents.

Exemple :

"properties" : {
"commonOutputFormat" : "csv:chunk-plain:2000"
}

Les paramètres de segmentation ne sont pas autorisés avec outputFormat natif.

Note

Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie et les mêmes paramètres de segmentation.

Exécution de la conversion de document asynchrone

Exécuter la traduction de documents asynchrone à l'aide du service de langue pour OCI.