Traduzione documento asincrono
Il modello di traduzione documenti asincrona del servizio OCI Language traduce il testo in una lingua scelta
OCI Asynchronous Document Translation è un servizio basato su cloud che consente la traduzione fluida ed efficiente di vari formati di documenti su larga scala in modo asincrono all'interno delle proprie posizioni di storage degli oggetti, conservando al contempo la struttura e il formato dei documenti originali. OCI Asynchronous Document Translation utilizza i modelli di traduzione automatica pre-addestrati da Oracle per eseguire la traduzione della lingua e altre operazioni correlate alla lingua.
Traduzione documento asincrona traduce vari tipi di documento. Word, Excel, Power Point e altri possono essere tradotti mantenendo la formattazione originale. Sono supportati testi semplici, formati HTML e JSON, ideali per tradurre contenuti online o integrare la traduzione di applicazioni globali. Inoltre, sono supportati formati per sottotitoli e sottotitoli chiusi, migliorando l'accessibilità dei contenuti video.
Il servizio offre anche la possibilità di trasformare i file in file JSON o CSV compatibili con AI LLM adatti ad attività come la formazione e la messa a punto di modelli ML o la creazione di indici RAG.
Casi d'uso
- Approccio semplificato al superamento delle barriere linguistiche
-
- Traduci guide per l'utente, blog e articoli della knowledge base per raggiungere un pubblico più ampio.
- Migliora le comunicazioni interne e la condivisione delle conoscenze tra i team globali.
- Espandi la portata delle tue campagne di vendita e marketing fornendo presentazioni e risorse di marketing in più lingue.
- Rendi i tuoi contenuti di formazione più inclusivi per gli altoparlanti non nativi aggiungendo sottotitoli ai contenuti video registrati.
- Sviluppa un supporto multilingue per prodotti e servizi, inclusa l'espansione dei modelli di machine learning da utilizzare con contenuti di input non inglesi.
- Prepara i tuoi dati aziendali multilingue per l'elaborazione LLM
- LLM di base e l'efficacia dei modelli AI possono essere migliorati utilizzando i dati aziendali. Il fatto che una gran parte di questi dati Enterprise esista in vari formati e lingue può rappresentare una sfida. Alcuni LLM e modelli AI supportano solo linguaggi specifici e modelli multilingue potrebbero funzionare in modo diverso a seconda della lingua.
- Traduci e trasforma i contenuti aziendali multilingue da vari formati in JSON o CSV
- Segmento per frase, chunk o limiti naturali del formato di file.
- Utilizza il JSON per creare indici RAG, perfezionare i modelli personalizzati o inviarli alle pipeline AI per ulteriori analisi ed elaborazione. Ad esempio, sentiment analysis, NER.
- Traduci e trasforma i contenuti aziendali multilingue da vari formati in JSON o CSV
Tipi di documento supportati
Tipo di documento. | Estensioni |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Text | .txt |
CSV | Valori separati da virgole, .csv |
TSV | valori separati da schede, .tsv |
SRT | SubRip File sottotitolo, .srt |
VTT Web | Formato tracce di testo video Web, .vtt |
Lingue supportate
Per l'elenco delle lingue supportate, vedere Lingue supportate. Il rilevamento automatico di una lingua di origine dominante è supportato quando il parametro della lingua di origine è impostato su automatico.
Requisito
Per utilizzare il servizio Traduzione documenti asincrona è necessario impostare Criteri job asincroni.
Limiti e restrizioni di dimensione
- La dimensione massima del documento è 20 MB. I documenti di dimensioni superiori vengono ignorati.
- Tutti i formati di testo (Testo, HTML, CSV, TSV, SRT, WebVTT, JSON) devono essere codificati in UTF-8.
- La dimensione massima di una singola richiesta è 5 GB. Tuttavia, si consiglia di ridurre le dimensioni della richiesta per ottenere risposte più rapide.
Controllo delle funzioni di traduzione dei documenti asincroni
Con la traduzione di documenti asincroni è possibile controllare e personalizzare la traduzione mediante proprietà avanzate, utilizzando un file glossario o proprietà di file specifiche.
Un glossario è un elenco di termini forniti dall'utente che possono essere utilizzati all'interno della traduzione di documenti asincroni per controllare la traduzione. Utilizzando un glossario, è possibile specificare come tradurre o meno una determinata terminologia.
I principali casi d'uso per i glossari includono:
- Garantire che la terminologia specifica del contesto e del dominio sia tradotta in modo coerente in tutto il contenuto.
- Impedisci alla traduzione di termini o parole specifiche. Ad esempio, i nomi dei marchi o dei prodotti che non si desidera tradurre.
Per controllare facoltativamente quali elementi di un file vengono tradotti, utilizzare proprietà specifiche del tipo di file. Ad esempio, utilizzare le colonne per tradurre uno o più elementi CSV per tradurre un file JSON.
Vedere le proprietà e le descrizioni avanzate riportate di seguito.
- Glossari
-
È possibile specificare terminologie personalizzate per mansione, in cui determinate parole possono essere tradotte in modo diverso. Il glossario può essere fornito come valori separati da virgole (CSV) senza intestazione.
Valore di esempio per le proprietà avanzate:
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Esempio di contenuto del file CSV del glossario 1 - Applicato a tutte le lingue di destinazione:
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Esempio di contenuto del file CSV del glossario 2 - Glossari specifici della lingua
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Best practice per i glossari forzati
-
Mantenere il glossario forzato minimo:
- Includere solo i termini che si desidera controllare e che sono inequivocabili.
- Usa solo termini che sai di non voler mai usare un significato alternativo e vuoi che vengano tradotti solo in un unico modo.
- Limitare l'elenco ai nomi appropriati, ad esempio i nomi dei marchi e dei prodotti.
- Per i glossari forzati viene fatta distinzione tra maiuscole e minuscole:
- Se è necessario includere versioni maiuscole e non capitalizzate di un termine, è necessario includere una voce per ogni versione.
- Allo stesso modo, la versione plurale di un termine deve essere inclusa come voce separata nel glossario.
- Non includere traduzioni diverse per la stessa frase di origine. I risultati MT non possono essere garantiti in questi casi.
esempio:
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- Controlli CSV
-
È possibile specificare le intestazioni e le colonne da tradurre.
columnsToTranslate
: indice (a partire da 1) della colonna da tradurre.hasHeaders
: specifica se il file CSV contiene intestazioni, se true la prima riga rimane non tradotta.
esempio:
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- Configurazione JSON
-
È possibile tradurre elementi specifici impostando
pathsToTranslate
su un array di espressioni di percorso JSON valide.esempio:
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Segmentazione personalizzata con un delimitatore
-
Per impostazione predefinita, ogni voce in JSON/CSV/TSV viene tradotta a livello di frase. Il delimitatore personalizzato può essere utilizzato se il contenuto non è costituito da frasi normali. Il delimitatore è un'espressione regolare valida che può essere utilizzata per dividere un testo.
esempio:
Per tradurre ciascuna riga separatamente:
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- Processore contenuti HTML
-
Per considerare il testo nelle voci JSON/CSV/TSV come testo HTML, utilizzare la proprietà
"contentProcessor"
.esempio:
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel: traduzione facoltativa dei nomi dei fogli
-
Per impostazione predefinita, i nomi dei fogli non vengono tradotti. La traduzione dei nomi dei fogli può interrompere alcune macro o riferimenti. Tuttavia, se i fogli di calcolo non contengono un riferimento utilizzando i nomi dei fogli o le macro, il servizio può tradurre i nomi dei fogli impostando la proprietà
translateSheetNames
su true.esempio:
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Controlli di traduzione aggiuntivi per documenti Office
-
Per impostazione predefinita, i testi, i commenti e le proprietà dei documenti nascosti in un documento di Office sono esclusi dalla traduzione.
- La proprietà
translateHiddenText
può essere impostata per tradurre i testi nascosti nei documenti. - La proprietà
translateDocProperties
può essere impostata per tradurre i testi nascosti nei documenti. - La proprietà
translateComments
può essere impostata per tradurre i commenti nei documenti.
esempio:
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
Il valore predefinito di queste proprietà è false. Le proprietà possono essere impostate in modo diverso per ogni tipo di documento di Office in base alle esigenze.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- La proprietà
- Controlli di traduzione per i file dei sottotitoli
-
Per impostazione predefinita, OCI tenta di creare una frase da molte voci di sottotitoli prima di tradurre il testo. Tuttavia, a volte una voce di sottotitolo deve essere tradotta in modo indipendente o non esistono frasi appropriate nel testo.
Se ogni voce del sottotitolo deve essere tradotta singolarmente, impostare il valore su true. In questo caso,
maxItemSize
non è efficace. - Formati di output (tipi di file)
-
Questa funzione consente di specificare il file di output preferibile per il testo tradotto. Il servizio di traduzione rileva automaticamente il tipo di file di input in base al file fornito. Per impostazione predefinita, per il testo tradotto viene utilizzato lo stesso tipo di file.
È possibile specificare il tipo di file preferibile per il testo tradotto. Di seguito sono riportati i tipi di file supportati.
- JSON
- CSV
- Nativo (predefinito)
esempio:
"properties" : { "commonOutputFormat" : "json" }
Nota
Questa proprietà viene applicata a tutti i file nell'origine di input. Se vengono forniti più file, ogni file viene tradotto in base allo stesso formato di output. - Formati di output (segmentazione)
-
Questa funzione consente di specificare le opzioni di segmentazione per controllare la divisione del testo durante la traduzione.
Le opzioni di segmentazione supportate sono:
- Naturale: non viene eseguita alcuna segmentazione.
- Pentenza: ogni paragrafo viene suddiviso in frasi.
- Chunk-plain: vengono utilizzate prima le segmentazioni basate su frasi, quindi le frasi vengono unite in blocchi fino a una dimensione specificata.
- Chunk-natural: vengono rispettati gli stessi limiti di chunk-plain, ad eccezione dei limiti naturali. Nessun chunk contiene frasi da due paragrafi diversi.
esempio:
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
Le impostazioni di segmentazione non sono consentite con
outputFormat
nativo.Nota
Questa proprietà viene applicata a tutti i file nell'origine di input. Se vengono forniti più file, ogni file viene tradotto in base allo stesso formato di output e alle stesse impostazioni di segmentazione.
Esecuzione traduzione documenti asincroni
Eseguire la traduzione dei documenti asincroni utilizzando il servizio OCI Language.
Per informazioni sulla creazione di un job di traduzione asincrona, vedere Creazione di job asincroni. Utilizzare il comando oci ai language batch-language-translation e i parametri richiesti per tradurre uno o più file:
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.
Eseguire l'operazione CreateJob per tradurre uno o più file.