Traduction de document asynchrone
Le modèle de traduction asynchrone de document du service de langue OCI traduit le texte dans une langue choisie
OCI Asynchronous Document Translation est un service cloud qui permet une traduction transparente et efficace de différents formats de documents à grande échelle de manière asynchrone dans vos propres emplacements Object Storage, tout en préservant la structure et le format des documents d'origine. OCI Asynchronous Document Translation utilise des modèles de traduction automatique préentraînés Oracle pour effectuer des traductions linguistiques et d'autres opérations liées aux langues.
La traduction asynchrone de documents traduit différents types de documents. Word, Excel, Power Point et d'autres peuvent être traduits tout en conservant leur formatage d'origine. Le texte brut, les formats HTML et JSON sont pris en charge, ce qui est idéal pour traduire du contenu en ligne ou intégrer la traduction d'applications globales. En outre, les formats de sous-titrage et de sous-titrage sont pris en charge, ce qui améliore l'accessibilité du contenu vidéo.
Le service offre également la possibilité de transformer des fichiers en fichiers JSON ou CSV compatibles LLM AI adaptés à des tâches telles que l'entraînement et le réglage fin des modèles ML ou la création d'indices RAG.
Cas d'emploi
- Approche simplifiée pour surmonter les obstacles linguistiques
-
- Traduisez les guides des utilisateurs, les blogs et les articles de la base de connaissances pour atteindre un public plus large.
- Améliorer les communications internes et le partage des connaissances entre les équipes internationales.
- Étendez la portée de vos campagnes de vente et de marketing en fournissant des présentations et des ressources marketing dans plusieurs langues.
- Rendez votre contenu de formation plus inclusif pour les locuteurs non natifs en ajoutant des sous-titres au contenu vidéo enregistré.
- Développer une prise en charge multilingue des produits et services, y compris l'extension de vos modèles de machine learning à utiliser avec du contenu d'entrée non anglais.
- Préparez vos données d'entreprise multilingues pour le traitement LLM
- L'efficacité des LLM de base et des modèles d'IA peut être améliorée à l'aide de vos données d'entreprise. Le fait qu'une grande partie de ces données d'entreprise existe dans différents formats et langages peut constituer un défi. Certains LLM et modèles d'IA prennent uniquement en charge des langages particuliers et les modèles multilingues peuvent fonctionner différemment en fonction de la langue.
- Traduisez et transformez votre contenu d'entreprise multilingue de différents formats en JSON ou CSV
- Segment par phrase, bloc ou limites naturelles du format de fichier.
- Utilisez le JSON pour créer des index RAG, affiner des modèles personnalisés ou les soumettre aux pipelines d'IA pour une analyse et un traitement ultérieurs. Par exemple, analyse des sentiments, NER.
- Traduisez et transformez votre contenu d'entreprise multilingue de différents formats en JSON ou CSV
Types de document pris en charge
Type de document | Extensions |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Texte | .txt |
CSV | Valeurs séparées par des virgules, .csv |
TSV | Valeurs séparées par des tabulations, .tsv |
SRT | SubRip Fichier de sous-titre, .srt |
VTT Web | Format de pistes de texte vidéo Web, .vtt |
Langues prises en charge
Pour obtenir la liste des langues prises en charge, reportez-vous à Langues prises en charge. La détection automatique d'une langue source dominante est prise en charge lorsque le paramètre de langue source est défini sur auto.
Prérequis
La configuration des stratégies de travail asynchrone est requise pour utiliser le service de traduction de document asynchrone.
Limites et restrictions de taille
- La taille maximale du document est de 20 Mo. Tous les documents de taille supérieure sont ignorés.
- Tous les formats de texte (texte, HTML, CSV, TSV, SRT, WebVTT, JSON) doivent être encodés en UTF-8.
- La taille maximale d'une seule demande est de 5 Go. Cependant, une taille de demande plus petite est recommandée pour des réponses plus rapides.
Contrôler les fonctionnalités de traduction asynchrone de documents
Avec Asynchronous Document Translation, vous pouvez contrôler et personnaliser la traduction via des propriétés avancées, à l'aide d'un fichier de glossaire ou de propriétés de fichier spécifiques.
Un glossaire est une liste de termes fournis par l'utilisateur qui peuvent être utilisés dans la traduction de document asynchrone pour contrôler la traduction. En utilisant un glossaire, vous pouvez indiquer comment traduire ou non certaines terminologies.
Les principaux cas d'utilisation des glossaires sont les suivants :
- Garantir la traduction cohérente du contexte et de la terminologie propre au domaine dans l'ensemble du contenu.
- Limiter certains termes ou mots de la traduction. Par exemple, les noms de marque ou de produit que vous ne voulez pas traduire.
Pour contrôler éventuellement les éléments d'un fichier traduits, utilisez les propriétés spécifiques au type de fichier. Par exemple, utilisez des colonnes pour traduire un fichier CSV ou des éléments pour traduire un fichier JSON.
Reportez-vous aux propriétés avancées et descriptions suivantes :
- Glossaires
-
Vous pouvez spécifier des terminologies personnalisées par travail, où certains mots peuvent être traduits différemment. Le glossaire peut être fourni sous forme de valeurs séparées par des virgules (CSV) sans en-tête.
Exemple de valeur pour les propriétés avancées :
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Exemple de contenu de fichier CSV de glossaire 1 - Appliqué à toutes les langues cible :
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Exemple de contenu de fichier CSV de glossaire 2 - Glossaires spécifiques à la langue
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Meilleures pratiques pour les glossaires forcés
-
Gardez le glossaire forcé minimal :
- Incluez uniquement les termes que vous souhaitez contrôler et qui sont sans ambiguïté.
- Utilisez uniquement des termes dont vous savez que vous ne voulez jamais utiliser une autre signification et que vous voulez qu'ils ne soient jamais traduits d'une seule manière.
- Limitez la liste aux noms propres, tels que les noms de marque et les noms de produit.
- Les glossaires forcés respectent la casse :
- Si vous avez besoin d'inclure des versions capitalisées et non capitalisées d'un terme, vous devez inclure une entrée pour chaque version.
- De même, la version plurielle d'un terme doit être incluse en tant qu'entrée distincte dans le glossaire
- N'incluez pas de traductions différentes pour la même expression source. Les résultats MT ne peuvent pas être garantis dans de tels cas.
Exemple :
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- Contrôles CSV
-
Vous pouvez indiquer les en-têtes et les colonnes à traduire.
columnsToTranslate
: index (à partir de 1) de la colonne à traduire.hasHeaders
: indique si le fichier CSV comporte des en-têtes, si la valeur est True, la première ligne reste non traduite.
Exemple :
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- Configuration JSON
-
Vous pouvez traduire des éléments spécifiques en définissant
pathsToTranslate
sur un tableau d'expressions de chemin JSON valides.Exemple :
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Segmentation personnalisée avec un délimiteur
-
Par défaut, chaque entrée dans JSON/CSV/TSV est traduite au niveau de la phrase. Le délimiteur personnalisé peut être utilisé si le contenu ne se compose pas de phrases normales. Le délimiteur est une expression régulière valide qui peut être utilisée pour fractionner un texte.
Exemple :
Pour traduire chaque ligne séparément :
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- Processeur de contenu HTML
-
Pour traiter le texte dans les entrées JSON/CSV/TSV en tant que texte HTML, utilisez la propriété
"contentProcessor"
.Exemple :
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel : traduction facultative des noms de feuille
-
Par défaut, les noms des feuilles ne sont pas traduits. La conversion des noms de feuille peut rompre certaines macros ou références. Toutefois, si les feuilles de calcul n'ont pas de référence utilisant des noms de feuille ou des macros, le service peut traduire les noms de feuille en définissant la propriété
translateSheetNames
sur True.Exemple :
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Contrôles de traduction supplémentaires pour les documents Office
-
Par défaut, les textes masqués, les commentaires et les propriétés de document dans un document Office sont exclus de la traduction.
- La propriété
translateHiddenText
peut être définie pour traduire les textes masqués dans les documents. - La propriété
translateDocProperties
peut être définie pour traduire les textes masqués dans les documents. - La propriété
translateComments
peut être définie pour traduire les commentaires dans les documents.
Exemple :
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
La valeur par défaut de ces propriétés est False. Les propriétés peuvent être définies différemment pour chaque type de document Office, si nécessaire.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- La propriété
- Contrôles de traduction pour les fichiers de sous-titres
-
Par défaut, OCI tente de créer une phrase à partir de nombreuses entrées de sous-titre avant de traduire le texte. Cependant, parfois, une entrée de sous-titre doit être traduite indépendamment ou aucune phrase appropriée n'existe dans le texte.
Si chacune des entrées de sous-titre doit être traduite individuellement, définissez la valeur sur True.
maxItemSize
n'est pas en vigueur dans ce cas. - Formats de sortie (types de fichier)
-
Avec cette fonctionnalité, vous pouvez spécifier le fichier de sortie préférable pour le texte traduit. Le service de traduction détecte automatiquement le type de fichier d'entrée en fonction du fichier que vous fournissez. Par défaut, le même type de fichier est utilisé pour le texte traduit.
Vous pouvez spécifier le type de fichier préféré pour le texte traduit. Les types de fichier pris en charge sont les suivants :
- JSON
- CSV
- Natif (par défaut)
Exemple :
"properties" : { "commonOutputFormat" : "json" }
Remarque
Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie. - Formats de sortie (segmentation)
-
Avec cette fonctionnalité, vous pouvez spécifier des options de segmentation pour contrôler la répartition du texte lors de la traduction.
Les options de segmentation prises en charge sont les suivantes :
- Naturel : aucune segmentation n'est effectuée.
- Phrase : chaque paragraphe est divisé en phrases.
- Chunk-plain : segmentations basées sur des phrases utilisées en premier, puis les phrases sont jointes en blocs jusqu'à une taille spécifiée.
- Chunk-natural : la même chose que chunk-plain, sauf que les limites naturelles sont respectées. Aucun bloc ne contient des phrases de deux paragraphes différents.
Exemple :
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
Les paramètres de segmentation ne sont pas autorisés avec
outputFormat
natif.Remarque
Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie et les mêmes paramètres de segmentation.
Exécution de la conversion de document asynchrone
Exécutez la traduction asynchrone de documents à l'aide du service OCI Language.
Pour plus d'informations sur la création d'un travail de traduction asynchrone, reportez-vous à Création de travaux asynchrones. Utilisez la commande oci ai language batch-language-translation et les paramètres requis pour traduire des fichiers :
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
Exécutez l'opération CreateJob pour convertir un ou plusieurs fichiers.