Traduction de document asynchrone
Le modèle de traduction de document asynchrone du service de langue pour OCI traduit le texte dans une langue sélectionnée
OCI Asynchronous Document Translation est un service en nuage qui permet une traduction transparente et efficace de divers formats de documents à grande échelle de manière asynchrone dans vos propres emplacements de stockage d'objets tout en préservant la structure et le format des documents originaux. OCI Asynchronous Document Translation utilise les modèles de traduction automatique préentraînés d'Oracle pour effectuer la traduction linguistique et d'autres opérations liées à la langue.
La traduction asynchrone de documents traduit divers types de document. Word, Excel, Power Point et d'autres peuvent être traduits tout en conservant leur formatage original. Le texte brut, les formats HTML et JSON sont pris en charge, ce qui est idéal pour traduire du contenu en ligne ou pour intégrer la traduction d'applications globales. De plus, les formats de sous-titrage et de sous-titrage sont pris en charge, ce qui améliore l'accessibilité du contenu vidéo.
Le service offre également la possibilité de transformer des fichiers en fichiers JSON ou CSV compatibles avec l'intelligence artificielle pour le grand modèle de langage, adaptés à des tâches telles que l'entraînement et le réglage de précision des modèles d'apprentissage automatique ou la création d'index RAG.
Cas d'utilisation
- Approche simplifiée pour surmonter les barrières linguistiques
-
- Traduire des guides de l'utilisateur, des blogs et des articles de base de connaissances pour atteindre un public plus large.
- Améliorez les communications internes et le partage des connaissances entre les équipes mondiales.
- Étendez la portée de vos campagnes de vente et de marketing en fournissant des présentations et des ressources marketing en plusieurs langues.
- Rendez votre contenu de formation plus inclusif pour les locuteurs non natifs en ajoutant des sous-titres au contenu vidéo enregistré.
- Développez une prise en charge multilingue des produits et services, y compris l'expansion de vos modèles d'apprentissage automatique à utiliser avec du contenu d'entrée non anglais.
- Préparer vos données d'entreprise multilingues pour le traitement du LLM
- L'efficacité des LLM de base et des modèles d'IA peut être améliorée à l'aide de vos données d'entreprise. Le fait qu'une grande partie de ces données d'entreprise existe dans différents formats et langues peut constituer un défi. Certains LLM et modèles d'IA ne prennent en charge que des langages particuliers et les modèles multilingues peuvent avoir des performances différentes en fonction de la langue.
- Traduire et transformer votre contenu d'entreprise multilingue de différents formats en JSON ou en CSV
- Segmentez par phrase, fragment ou limites naturelles du format de fichier.
- Utilisez le JSON pour créer des index RAG, ajuster des modèles personnalisés ou soumettre des modèles à des pipelines d'IA pour une analyse et un traitement supplémentaires. Par exemple, analyse de sentiments, NER.
- Traduire et transformer votre contenu d'entreprise multilingue de différents formats en JSON ou en CSV
Types de documents pris en charge
Type de document | Extensions |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Texte | .txt |
CSV | Valeurs séparées par des virgules, .csv |
TSV | Valeurs séparées par des tabulations, .tsv |
SRT | SubRip Fichier de sous-titre, .srt |
VTT Web | Format de pistes de texte vidéo Web, .vtt |
Langues prises en charge
Pour obtenir la liste des langues prises en charge, voir Langues prises en charge. La détection automatique d'une langue source dominante est prise en charge lorsque le paramètre de langue source est réglé à Auto.
Préalable
La configuration des politiques de tâche asynchrone est requise pour utiliser le service de traduction de documents asynchrone.
Limites et restrictions de taille
- La taille maximale du document est de 20 Mo. Tous les documents sur la taille sont ignorés.
- Tous les formats de texte (Texte, HTML, CSV, TSV, SRT, WebVTT, JSON) doivent être encodés en UTF-8.
- La taille maximale d'une demande unique est de 5 Go. Toutefois, une taille de demande plus petite est recommandée pour des réponses plus rapides.
Contrôle des fonctions de traduction de documents asynchrones
Avec la traduction de documents asynchrone, vous pouvez contrôler et personnaliser la traduction au moyen de propriétés avancées, soit à l'aide d'un fichier de glossaire, soit à l'aide de propriétés de fichier spécifiques.
Un glossaire est une liste de termes fournis par l'utilisateur qui peuvent être utilisés dans la traduction asynchrone de documents pour contrôler la traduction. En utilisant un glossaire, vous pouvez spécifier comment traduire ou non certaines terminologies.
Les principaux cas d'utilisation des glossaires sont les suivants :
- S'assurer que le contexte et la terminologie propre au domaine sont traduits de manière cohérente dans l'ensemble du contenu.
- Restreindre certains termes ou mots de la traduction. Par exemple, les noms de marque ou de produit que vous ne souhaitez pas traduire.
Pour contrôler facultativement les éléments d'un fichier qui sont traduits, utilisez les propriétés propres au type de fichier. Par exemple, utilisez des colonnes pour traduire un fichier CSV ou des éléments pour traduire un fichier JSON.
Voir les propriétés et descriptions avancées suivantes :
- Glossaires
-
Vous pouvez spécifier des terminologies personnalisées par travail, où certains mots peuvent être traduits différemment. Le glossaire peut être fourni sous forme de valeurs séparées par des virgules (CSV) sans en-tête.
Exemple de valeur pour les propriétés avancées :
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Exemple de contenu de fichier CSV de glossaire 1 - Appliqué à toutes les langues cibles :
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Exemple de glossaire de contenu de fichier CSV 2 - Glossaires propres à une langue
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Meilleures pratiques pour les glossaires forcés
-
Gardez le glossaire forcé au minimum :
- N'incluez que les termes que vous voulez contrôler et qui sont sans ambiguïté.
- N'utilisez que des termes dont vous savez que vous ne voulez jamais utiliser une autre signification, et vous voulez qu'il ne soit jamais traduit d'une seule manière.
- Limitez la liste aux noms propres, tels que les noms de marque et les noms de produit.
- Les glossaires forcés sont sensibles à la casse :
- Si vous devez inclure les versions capitalisées et non capitalisées d'un terme, vous devez inclure une entrée pour chaque version.
- De même, la version pluriel d'un terme doit être incluse comme une entrée distincte dans le glossaire.
- N'incluez pas de traductions différentes pour la même phrase source. Les résultats MT ne peuvent pas être garantis dans de tels cas.
Exemple :
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- Contrôles CSV
-
Vous pouvez spécifier les en-têtes et les colonnes à traduire.
columnsToTranslate
: Index (à partir de 1) de la colonne à traduire.hasHeaders
: Spécifie si le fichier CSV contient des en-têtes, si la valeur est Vrai, la première rangée reste non traduite.
Exemple :
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- JSON configuration
-
Vous pouvez traduire des éléments spécifiques en réglant
pathsToTranslate
à un tableau d'expressions de chemin JSON valides.Exemple :
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Segmentation personnalisée avec un délimiteur
-
Par défaut, chaque entrée dans JSON/CSV/TSV est traduite au niveau de la phrase. Le délimiteur personnalisé peut être utilisé si le contenu n'est pas constitué de phrases normales. Le délimiteur est une expression rationnelle valide qui peut être utilisée pour fractionner un texte.
Exemple :
Pour convertir chaque ligne séparément :
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- Processeur de contenu HTML
-
Pour traiter le texte des entrées JSON/CSV/TSV en tant que texte HTML, utilisez la propriété
"contentProcessor"
.Exemple :
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel : Traduction facultative des noms de feuille
-
Par défaut, les noms de feuille ne sont pas traduits. La traduction de noms de feuille peut casser certaines macros ou références. Toutefois, si les feuilles de calcul n'ont pas de référence utilisant des noms de feuille ou des macros, le service peut traduire les noms de feuille en réglant la propriété
translateSheetNames
à Vrai.Exemple :
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Contrôles de traduction supplémentaires pour les documents Office
-
Par défaut, les textes masqués, les commentaires et les propriétés d'un document Office sont exclus de la traduction.
- La propriété
translateHiddenText
peut être définie pour traduire les textes masqués dans les documents. - La propriété
translateDocProperties
peut être définie pour traduire les textes masqués dans les documents. - La propriété
translateComments
peut être définie pour traduire les commentaires dans les documents.
Exemple :
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
La valeur par défaut de ces propriétés est false. Les propriétés peuvent être définies différemment pour chaque type de document Office, au besoin.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- La propriété
- Contrôles de traduction pour les fichiers de sous-titre
-
Par défaut, OCI tente de créer une phrase à partir de nombreuses entrées de sous-titre avant de traduire le texte. Cependant, parfois, une entrée de sous-titre doit être traduite indépendamment ou aucune phrase appropriée n'existe dans le texte.
Si chacune des entrées de sous-titre doit être traduite individuellement, réglez la valeur à Vrai.
maxItemSize
n'est pas en vigueur dans ce cas. - Formats de sortie (types de fichier)
-
Avec cette fonctionnalité, vous pouvez spécifier le fichier de sortie préféré pour le texte traduit. Le service de traduction détecte automatiquement le type de fichier d'entrée en fonction du fichier que vous fournissez. Par défaut, le même type de fichier est utilisé pour le texte traduit.
Vous pouvez spécifier le type de fichier préféré pour le texte traduit. Les types de fichier pris en charge sont les suivants :
- JSON
- CSV
- Natif (par défaut)
Exemple :
"properties" : { "commonOutputFormat" : "json" }
Note
Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie. - Formats de sortie (segmentation)
-
Avec cette fonction, vous pouvez spécifier des options de segmentation pour contrôler la répartition du texte pendant la conversion.
Les options de segmentation prises en charge sont les suivantes :
- Naturel : Aucune segmentation n'est effectuée.
- Sentence : Chaque paragraphe est divisé en phrases.
- Franche de fragmentation : segmentations basées sur une phrase utilisées en premier, puis phrases jointes en fragments jusqu'à une taille spécifiée.
- Naturel de la tranche de mémoire : Identique à la tranche de mémoire simple, sauf que les limites naturelles sont respectées. Aucun morceau ne contient des phrases de deux paragraphes différents.
Exemple :
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
Les paramètres de segmentation ne sont pas autorisés avec
outputFormat
natif.Note
Cette propriété est appliquée à tous les fichiers de la source d'entrée. Si plusieurs fichiers sont fournis, chaque fichier est traduit selon le même format de sortie et les mêmes paramètres de segmentation.
Exécution de la conversion de document asynchrone
Exécuter la traduction de documents asynchrone à l'aide du service de langue pour OCI.
Pour plus d'informations sur la création d'une tâche de traduction asynchrone, voir Création de tâches asynchrones. Utilisez la commande oci ai language batch-language-translation et les paramètres requis pour traduire un ou plusieurs fichiers :
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Pour la liste complète des indicateurs et des options de variable pour les commandes de l'interface de ligne de commande, voir Informations de référence sur les commandes de l'interface de ligne de commande.
Exécutez l'opération CreateJob pour traduire un ou plusieurs fichiers.