Asynchrone Dokumentübersetzung
Das asynchrone Dokumentübersetzungsmodell des OCI Language-Service übersetzt Text in eine ausgewählte Sprache
OCI Asynchronous Document Translation ist ein cloud-basierter Service, der eine nahtlose und effiziente Übersetzung verschiedener Dokumentformate in verschiedenen skalierbaren Formaten asynchron innerhalb Ihrer eigenen Object Storage-Standorte ermöglicht und dabei die Struktur und das Format der ursprünglichen Dokumente bewahrt. OCI Asynchronous Document Translation verwendet vortrainierte maschinelle Übersetzungsmodelle von Oracle, um Sprachübersetzungen und andere sprachbezogene Vorgänge auszuführen.
Die asynchrone Dokumentübersetzung übersetzt verschiedene Dokumenttypen. Word, Excel, Power Point und andere können übersetzt werden, während die ursprüngliche Formatierung beibehalten wird. Nur Text, HTML-Formate und JSON werden unterstützt, ideal für die Übersetzung von Online-Inhalten oder die Integration von Übersetzungen globaler Anwendungen. Außerdem werden Formate für geschlossene Untertitel und Untertitel unterstützt, wodurch die Zugänglichkeit von Videoinhalten verbessert wird.
Der Service bietet auch die Möglichkeit, Dateien in LLM AI-kompatible JSON- oder CSV-Dateien zu transformieren, die für Aufgaben wie Training und Feinabstimmung von ML-Modellen oder das Erstellen von RAG-Indizes geeignet sind.
Anwendungsfälle
- Optimierter Ansatz zur Überwindung von Sprachbarrieren
-
- Übersetzen Sie Benutzerhandbücher, Blogs und Wissensdatenbankartikel, um ein breiteres Publikum zu erreichen.
- Verbessern Sie die interne Kommunikation und den Wissensaustausch über globale Teams hinweg.
- Erweitern Sie die Reichweite Ihrer Vertriebs- und Marketingkampagnen, indem Sie Präsentationen und Marketingressourcen in mehreren Sprachen bereitstellen.
- Machen Sie Ihre Schulungsinhalte für Nicht-Muttersprachler integrativer, indem Sie Untertitel zu aufgezeichneten Videoinhalten hinzufügen.
- Entwickeln Sie mehrsprachigen Support für Produkte und Services, einschließlich der Erweiterung Ihrer Modelle für maschinelles Lernen, die mit nicht-englischen Eingabeinhalten verwendet werden können.
- Bereiten Sie Ihre mehrsprachigen Unternehmensdaten für die LLM-Verarbeitung vor
- Die Effektivität von Foundation LLMs und AI Models kann durch die Verwendung Ihrer Unternehmensdaten verbessert werden. Die Tatsache, dass ein großer Teil dieser Enterprise-Daten in verschiedenen Formaten und Sprachen vorhanden ist, kann eine Herausforderung darstellen. Einige LLMs und KI-Modelle unterstützen nur bestimmte Sprachen, und mehrsprachige Modelle können je nach Sprache unterschiedlich funktionieren.
- Übersetzen und transformieren Sie Ihre mehrsprachigen Enterprise-Inhalte aus verschiedenen Formaten in JSON oder CSV
- Segmentieren Sie nach Satz, Chunk oder den natürlichen Grenzen des Dateiformats.
- Mit JSON können Sie RAG-Indizes erstellen, benutzerdefinierte Modelle optimieren oder zur weiteren Analyse und Verarbeitung an AI-Pipelines weiterleiten. Beispiel: Sentimentanalyse, NER.
- Übersetzen und transformieren Sie Ihre mehrsprachigen Enterprise-Inhalte aus verschiedenen Formaten in JSON oder CSV
Unterstützte Dokumenttypen
Dokumenttyp | Erweiterungen |
---|---|
Microsoft Office | docx, pptx, xlsx |
HTML | .html |
JSON | .json |
Text | .txt |
CSV | Kommagetrennte Werte, .csv |
TSV | Durch Tabulator getrennte Werte, .tsv |
SRT | SubRip Untertiteldatei, .srt |
Web-VTT | Web Video Text Tracks Format, .vtt |
Unterstützte Sprachen
Eine Liste der unterstützten Sprachen finden Sie unter Unterstützte Sprachen. Die automatische Erkennung einer dominanten Quellsprache wird unterstützt, wenn der Quellsprachenparameter auf "Automatisch" gesetzt ist.
Erforderlich
Das Setup von Asynchronen Job-Policys ist erforderlich, um den asynchronen Dokumentübersetzungsservice zu verwenden.
Größenbeschränkungen und -einschränkungen
- Die maximale Dokumentgröße beträgt 20 MB. Alle Dokumente über dieser Größe werden ignoriert.
- Alle Textformate (Text, HTML, CSV, TSV, SRT, WebVTT, JSON) müssen in UTF-8 codiert sein.
- Die maximale Größe einer einzelnen Anforderung beträgt 5 GB. Für schnellere Antworten wird jedoch eine kleinere Anforderungsgröße empfohlen.
Features für die asynchrone Dokumentübersetzung steuern
Mit Asynchronous Document Translation können Sie die Übersetzung über erweiterte Eigenschaften steuern und anpassen, indem Sie entweder eine Glossardatei oder bestimmte Dateieigenschaften verwenden.
Ein Glossar ist eine Liste von vom Benutzer bereitgestellten Begriffen, die in der asynchronen Dokumentübersetzung zur Steuerung der Übersetzung verwendet werden können. Mit einem Glossar können Sie festlegen, wie bestimmte Begriffe übersetzt oder nicht übersetzt werden sollen.
Zu den wichtigsten Anwendungsfällen für Glossare gehören:
- Sicherstellen, dass kontext- und domänenspezifische Terminologie konsistent im gesamten Inhalt übersetzt wird.
- Beschränken Sie bestimmte Begriffe oder Wörter von der Übersetzung. Beispiel: Marken- oder Produktnamen, die Sie nicht übersetzen möchten.
Um optional zu steuern, welche Elemente einer Datei übersetzt werden, verwenden Sie dateietypspezifische Eigenschaften. Beispiel: Verwenden Sie Spalten zum Übersetzen einer CSV-Datei oder Elemente zum Übersetzen einer JSON-Datei.
Weitere Informationen finden Sie in den folgenden erweiterten Eigenschaften und Beschreibungen:
- Glossare
-
Sie können benutzerdefinierte Terminologien pro Job angeben, bei denen bestimmte Wörter unterschiedlich übersetzt werden können. Glossar kann als durch Komma getrennte Werte (CSV) ohne Header angegeben werden.
Beispielwert für erweiterte Eigenschaften:
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
Beispielinhalt für CSV-Datei im Glossar 1 - Wird auf alle Zielsprachen angewendet:
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
Beispielinhalt für CSV-Datei im Glossar 2 - Sprachspezifische Glossare
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
Best Practices für erzwungene Glossare
-
Halten Sie das erzwungene Glossar minimal:
- Geben Sie nur Begriffe an, die Sie kontrollieren möchten und die eindeutig sind.
- Verwenden Sie nur Begriffe, von denen Sie wissen, dass Sie niemals eine alternative Bedeutung verwenden möchten, und Sie möchten, dass sie nur auf eine einzige Weise übersetzt werden.
- Beschränken Sie die Liste auf Eigennamen, wie Markennamen und Produktnamen.
- Bei erzwungenen Glossaren muss die Groß-/Kleinschreibung beachtet werden:
- Wenn Sie sowohl die Groß-/Kleinschreibung als auch die nicht aktivierte Version eines Begriffs benötigen, müssen Sie für jede Version einen Eintrag hinzufügen.
- Ebenso muss die Pluralversion eines Begriffs als separater Eintrag in das Glossar aufgenommen werden.
- Fügen Sie keine unterschiedlichen Übersetzungen für dieselbe Quellphrase hinzu. MT-Ergebnisse können in solchen Fällen nicht garantiert werden.
Beispiel::
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- CSV-Steuerelemente
-
Sie können die zu übersetzenden Header und Spalten angeben.
columnsToTranslate
: Index (ab 1) der zu übersetzenden Spalte.hasHeaders
: Gibt an, ob die CSV-Datei Header enthält. Bei "true" bleibt die erste Zeile unübersetzt.
Beispiel::
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- JSON-Konfiguration
-
Sie können bestimmte Elemente übersetzen, indem Sie
pathsToTranslate
in ein Array gültiger JSON-Pfadausdrücke setzen.Beispiel::
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- Benutzerdefinierte Segmentierung mit Trennzeichen
-
Standardmäßig wird jeder Eintrag in JSON/CSV/TSV auf Satzebene übersetzt. Das benutzerdefinierte Trennzeichen kann verwendet werden, wenn der Inhalt nicht aus normalen Sätzen besteht. Das Trennzeichen ist ein gültiger regulärer Ausdruck, mit dem ein Text geteilt werden kann.
Beispiel::
So übersetzen Sie jede Zeile separat:
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- HTML-Inhaltsprozessor
-
Um Text in JSON-/CSV-/TSV-Einträgen als HTML-Text zu behandeln, verwenden Sie die Eigenschaft
"contentProcessor"
.Beispiel::
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel: Optionale Übersetzung von Blattnamen
-
Standardmäßig werden die Blattnamen nicht übersetzt. Durch das Übersetzen von Blattnamen können einige Makros oder Referenzen beschädigt werden. Wenn die Kalkulationstabellen jedoch keine Referenz mit Blattnamen oder Makros haben, kann der Service die Blattnamen übersetzen, indem er die Eigenschaft
translateSheetNames
auf "true" setzt.Beispiel::
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Zusätzliche Übersetzungskontrollen für Office-Dokumente
-
Standardmäßig werden ausgeblendete Texte, Kommentare und Dokumenteigenschaften in einem Office-Dokument von der Übersetzung ausgeschlossen.
- Mit der Eigenschaft
translateHiddenText
können ausgeblendete Texte in den Dokumenten übersetzt werden. - Mit der Eigenschaft
translateDocProperties
können ausgeblendete Texte in den Dokumenten übersetzt werden. - Die Eigenschaft
translateComments
kann so festgelegt werden, dass Kommentare in den Dokumenten übersetzt werden.
Beispiel::
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
Der Standardwert dieser Eigenschaften ist "false". Die Eigenschaften können je nach Bedarf für jeden Office-Dokumenttyp unterschiedlich eingestellt werden.
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- Mit der Eigenschaft
- Übersetzungssteuerungen für Untertiteldateien
-
Standardmäßig versucht OCI, einen Satz aus vielen Untertiteleinträgen zu erstellen, bevor der Text übersetzt wird. Manchmal muss jedoch ein Untertiteleintrag unabhängig übersetzt werden, oder es gibt keine richtigen Sätze im Text.
Wenn jeder Untertiteleintrag einzeln übersetzt werden muss, setzen Sie den Wert auf "true".
maxItemSize
ist in diesem Fall nicht gültig. - Ausgabeformate (Dateitypen)
-
Mit dieser Funktion können Sie die bevorzugte Ausgabedatei für übersetzten Text angeben. Der Übersetzungsservice erkennt den Eingabedateityp automatisch basierend auf der angegebenen Datei. Standardmäßig wird für übersetzten Text derselbe Dateityp verwendet.
Sie können den bevorzugten Dateityp für übersetzten Text angeben. Folgende Dateitypen werden unterstützt:
- JSON
- CSV
- Native (Standard)
Beispiel::
"properties" : { "commonOutputFormat" : "json" }
Hinweis
Diese Eigenschaft wird auf alle Dateien in der Eingabequelle angewendet. Wenn mehrere Dateien bereitgestellt werden, wird jede Datei nach demselben Ausgabeformat übersetzt. - Ausgabeformate (Segmentierung)
-
Mit diesem Feature können Sie Segmentierungsoptionen angeben, um zu steuern, wie Text während der Übersetzung aufgeteilt wird.
Folgende Segmentierungsoptionen werden unterstützt:
- Natürlich: Es wird keine Segmentierung durchgeführt.
- Satz: Jeder Absatz wird in Sätze aufgeteilt.
- Chunk-plain: Satzbasierte Segmentierungen werden zuerst verwendet, und dann werden Sätze zu Blöcken bis zu einer bestimmten Größe verknüpft.
- Chunk-natürlich: Das gleiche wie Chunk-Plain, außer natürliche Grenzen werden eingehalten. Kein Block enthält Sätze aus zwei verschiedenen Absätzen.
Beispiel::
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
Segmentierungseinstellungen sind bei nativem
outputFormat
nicht zulässig.Hinweis
Diese Eigenschaft wird auf alle Dateien in der Eingabequelle angewendet. Wenn mehrere Dateien bereitgestellt werden, wird jede Datei nach demselben Ausgabeformat und denselben Segmentierungseinstellungen übersetzt.
Asynchrone Dokumentübersetzung ausführen
Führen Sie die asynchrone Dokumentübersetzung mit dem OCI Language-Service aus.
Informationen zum Erstellen eines asynchronen Übersetzungsjobs finden Sie unter Asynchrone Jobs erstellen. Verwenden Sie den Befehl oci ai language batch-language-translation und die erforderlichen Parameter, um eine oder mehrere Dateien zu übersetzen:
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
Eine vollständige Liste der Flags und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.
Führen Sie den Vorgang CreateJob aus, um eine oder mehrere Dateien zu übersetzen.