Datasets erstellen

Benutzerdefinierte Dokumentmodelle sind für Document Understanding-Benutzer ohne Data Science-Hintergrund gedacht.

Überblick

Wenn Sie ein Dataset erstellen und Document Understanding anweisen, ein Modell basierend auf dem Dataset zu trainieren, können Sie ein benutzerdefiniertes Modell für Ihr Szenario bereithalten. Bei der benutzerdefinierten Schlüssel/Wert-Extraktion muss eine Gruppe von Dokumenten mit den Feldern gekennzeichnet sein, die Sie im trainierten Modell extrahieren möchten, z.B. Firmencode, Datum oder Summe. Bei der benutzerdefinierten Dokumentklassifizierung wird für jedes Dokument eine Gruppe von Dokumenten mit Anmerkungen zur Dokumentklasse erstellt, z.B. Bewerbung, Empfehlungsschreiben oder Hintergrundprüfungsbericht.

Tools zum Erstellen des Datasets

Der Schlüssel zum Erstellen eines nützlichen benutzerdefinierten Modells besteht darin, es mit einem guten Dataset vorzubereiten und zu trainieren. Es wird empfohlen, das Dataset mit OCI Data Labeling zu erstellen und zu beschriften. Nachfolgend finden Sie eine Übersicht über die zu ergreifenden Schritte:

Sammeln Sie genügend Dokumente, die der Verteilung des beabsichtigten Antrags entsprechen.
Wählen Sie das richtige Annotationsformat für das gewünschte benutzerdefinierte Modell aus. Alle Document Understanding-Modelle werden im Annotationsformat Document unterstützt. Dabei werden Schlüssel/Wert-Annotationen für die benutzerdefinierte Schlüssel/Wert-Extraktion oder Single-Label-Klassifizierung für die benutzerdefinierte Dokumentklassifizierung verwendet.
Beschriften Sie alle Instanzen der Felder oder Dokumentklassen, die im bezogenen Datenset auftreten.

Weitere Informationen finden Sie im Datenlabeling Guide sowie in den Schritten unter Dataset erstellen. Informationen zum Erstellen und Annotieren eines Schlüssel/Wert-Datasets finden Sie auch im Videotutorial.

Richtlinien für das Sammeln von Daten

Erwartete Abweichungen im Trainings-Dataset einschließen

Wenn Sie Variationen erwarten, geben Sie mindestens ein Beispiel für jede Variation im Trainings-Dataset an. Beispiel: Wenn in Mitarbeiterantragsformularen erwartet wird, dass nicht alle Anwendungen das Feld "Referenztelefonnummer" ausgefüllt haben, fügen Sie ein Beispiel hinzu, in dem alle Felder zusätzlich zu einem ausgefüllt sind, in dem alle Felder außer dem Feld "Referenztelefonnummer" ausgefüllt sind.

Dataset-Größe größer als das Minimum machen

Für die benutzerdefinierte Schlüssel/Wert-Extraktion sind mindestens fünf Dokumente erforderlich. Für die benutzerdefinierte Dokumentklassifizierung sind mindestens 10 Dokumente erforderlich. Durch die Erhöhung des Datasets wird die Modellperformance erhöht. Die folgende Tabelle zeigt die empfohlene Mindestanzahl von Dokumenten basierend auf der Zielgenauigkeit, der Variation von Dokumenten und Dokumenttypen:

Empfohlene Anzahl Dokumente nach Typ und Genauigkeit für benutzerdefinierte Schlüssel/Wert-Extraktion
Dokumenttyp	Minimale Zielgenauigkeit (geschätzte Genauigkeit auf Feldebene)	Abweichung in Schulungsdokumenten	Empfohlene Mindestanzahl Dokumente	Weitere Details
Digitale	90%	Alle Labels sind vorhanden.	15	Interessensgebiete sind in allen Dokumenten vorhanden.
Digitale	95%	Alle Labels sind vorhanden.	30	Interessensgebiete sind in allen Dokumenten vorhanden.
Digitale	85%	Es sind nicht alle Labels vorhanden.	15	In einigen Dokumenten können Interessenbereiche fehlen.
Digitale	90%	Es sind nicht alle Labels vorhanden.	30	In einigen Dokumenten können Interessenbereiche fehlen.
Digitale	95%	Es sind nicht alle Labels vorhanden.	50	Wenn Dokumente eine nicht standardmäßige Auflösung und DPI haben können.
Durchsuchen	85%	Alle Labels sind vorhanden. Minimaler oder kein handschriftlicher Text.	15	Interessensgebiete sind in allen Dokumenten mit hoher Lesbarkeit in Dokumenten vorhanden.
Durchsuchen	95%	Alle Labels sind vorhanden.	30	Bilder mit Rotation und grafischen Elementen (Stempel oder Auswahlzeichen).
Mobiltelefonnummer	80%	Alle Labels sind vorhanden. Minimaler oder kein handschriftlicher Text.	15	Interessensgebiete sind in allen Dokumenten mit hoher Lesbarkeit in Dokumenten vorhanden.
Mobiltelefonnummer	85%	Alle Labels sind vorhanden oder nicht alle Labels sind vorhanden. Minimaler oder kein handschriftlicher Text .	30	Bei Dokumenten mit hoher Rotation, nicht standardmäßiger Auflösung und DPI.
Mobiltelefonnummer	90%	Alle Labels sind vorhanden oder nicht alle Labels sind vorhanden. Minimaler oder kein handschriftlicher Text .	50	Bilder mit Rotation und grafischen Elementen (Stempel oder Auswahlzeichen).

Empfohlene Anzahl Dokumente nach Typ und Genauigkeit für Dokumentklassifizierung
Dokumenttyp	Minimale Zielgenauigkeit (geschätzte Genauigkeit auf Feldebene)	Abweichung in Schulungsdokumenten	Empfohlene Mindestanzahl Dokumente	Weitere Details
Digital/Scan/Mobile	90%	Alle Dokumente einer Klasse haben dieselbe Vorlage. Beispiel: Die Klasse "Rechnung" kann Dokumente aus einer Filiale oder Organisation enthalten	15	Alle Dokumente sind beschriftet. Die Anzahl der genannten Dokumente gilt für eine einzelne Klasse. Beispiel: Wenn ein Dataset über 5 zu klassifizierende Klassen verfügt und die empfohlene Anzahl von Dokumenten 15 ist, beträgt die Gesamtanzahl der Dokumente 75 (15*5).
Digital/Scan/Mobile	75%	Dokumente einer Klasse haben verschiedene Vorlagen. Beispiel: Die Rechnungsklasse kann Dokumente aus verschiedenen Shops oder Organisationen enthalten.	20	Alle Dokumente sind beschriftet. Die Anzahl der genannten Dokumente gilt für eine einzelne Klasse. Beispiel: Wenn ein Dataset über 5 zu klassifizierende Klassen verfügt und die empfohlene Anzahl von Dokumenten 15 ist, beträgt die Gesamtanzahl der Dokumente 75 (15*5).
Digital/Scan/Mobile	80%	Dokumente einer Klasse haben verschiedene Vorlagen. Beispiel: Die Rechnungsklasse kann Dokumente aus verschiedenen Shops oder Organisationen enthalten.	25	Alle Dokumente sind beschriftet. Die Anzahl der genannten Dokumente gilt für eine einzelne Klasse. Beispiel: Wenn ein Dataset über 5 zu klassifizierende Klassen verfügt und die empfohlene Anzahl von Dokumenten 15 ist, beträgt die Gesamtanzahl der Dokumente 75 (15*5).
Digital/Scan/Mobile	90%	Dokumente einer Klasse haben verschiedene Vorlagen. Beispiel: Die Rechnungsklasse kann Dokumente aus verschiedenen Shops oder Organisationen enthalten.	35	Alle Dokumente sind beschriftet. Die Anzahl der genannten Dokumente gilt für eine einzelne Klasse. Beispiel: Wenn ein Dataset über 5 zu klassifizierende Klassen verfügt und die empfohlene Anzahl von Dokumenten 15 ist, beträgt die Gesamtanzahl der Dokumente 75 (15*5).

Richtlinien für Anmerkungen zu Daten

Ein benutzerdefiniertes Modell ist nur so gut wie die Qualität der Schulungsdokumente und Anmerkungen, die zum Trainieren verwendet werden. Im Folgenden finden Sie Richtlinien zum Erstellen eines nützlichen benutzerdefinierten Modells:

Dokumente einheitlich und korrekt mit Anmerkungen versehen: Angenommen, Sie erstellen ein benutzerdefiniertes Modell für eine Mitarbeiteranwendung und möchten den Namen des Bewerbers mit dem benutzerdefinierten Modell extrahieren. Wenn Sie erwarten, dass der Vor- und Nachname extrahiert wird, versehen Sie alle Wörter, die sich auf den vollständigen Namen beziehen, z.B. Mary Joe Smith, als Bewerbernamen in den Weiterbildungsdokumenten. Wenn das Feld "Bewerbername" in allen Dokumenten enthalten ist, fügen Sie eine Anmerkung zu allen Dokumenten hinzu. Das Überspringen von Anmerkungen in Schulungsdokumenten oder das teilweise Annotieren eines Feldes wirkt sich negativ auf die Qualität des Modells aus.
Annotieren Sie sowohl Feldnamen als auch Feldwerte: Um das Modell besser zu erlernen, kommentieren Sie die zugehörigen Schlüsselnamen und Wertnamen. Beispiel: Um den Bewerbernamen für ein Dokument zu extrahieren, erstellen Sie zwei Labels. Beispiel: applicant name field und applicant name value. Kommentieren Sie im Schulungsdokument den Feldnamen als applicant name field und die Antwort, z.B. Mary Joe Smith, als applicant name value.

Oracle Cloud Infrastructure-Dokumentation

Datasets erstellen

Überblick

Tools zum Erstellen des Datasets

Richtlinien für das Sammeln von Daten

Richtlinien für Anmerkungen zu Daten