Creare un data set

I modelli personalizzati dei documenti sono destinati agli utenti di Document Understanding senza un background di data science.

Panoramica

La creazione di un data set e l'istruzione di Document Understanding per addestrare un modello basato sul data set consentono di avere un modello personalizzato pronto per lo scenario. Per l'estrazione di valori chiave personalizzati, è necessario disporre di un set di documenti etichettati con i campi che si sta tentando di estrarre nel modello addestrato, ad esempio codice azienda, data o totale. Per la classificazione personalizzata dei documenti, è necessario disporre di un set di documenti con la classe documento annotata per ogni documento, ad esempio candidatura, lettera di suggerimento o report di verifica delle esperienze precedenti.

Strumenti per creare il data set

La chiave per creare un modello personalizzato utile è prepararlo e addestrarlo con un buon set di dati. Si consiglia di creare e assegnare un'etichetta al data set utilizzando OCI Data Labeling. Ecco una descrizione dei passi da intraprendere:

  1. Raccogliere un numero sufficiente di documenti che corrispondono alla distribuzione dell'applicazione prevista.
  2. Selezionare il formato di annotazione corretto per il modello personalizzato desiderato. Tutti i modelli di Document Understanding sono supportati nel formato di annotazione Document, utilizzando annotazioni chiave-valore per l'estrazione di valori chiave personalizzati o classificazione a etichetta singola per la classificazione di documenti personalizzati.
  3. Etichetta tutte le istanze dei campi o delle classi di documenti che si verificano nel set di dati di origine.

Per ulteriori informazioni, vedere la Guida all'etichettatura dei dati e la procedura descritta in Creazione di un data set. Vedere anche l'esercitazione video per la creazione e l'annotazione di un set di dati key-value.

Linee guida per la raccolta dei dati

Includi variazioni previste nel data set di addestramento
Se si prevede una variazione, avere almeno un esempio di ogni variazione nel data set di addestramento. Ad esempio, se si prevede che nei moduli di candidatura dei dipendenti non tutte le applicazioni abbiano completato il campo del numero di telefono di riferimento, includere un esempio in cui tutti i campi vengono compilati oltre a uno in cui vengono compilati tutti i campi, ad eccezione del campo del numero di telefono di riferimento.
Rendi la dimensione del set di dati maggiore del minimo
L'estrazione dei valori delle chiavi personalizzate richiede un minimo di cinque documenti e la classificazione dei documenti personalizzati richiede un minimo di 10 documenti. L'aumento del data set aumenta le prestazioni del modello. La tabella riportata di seguito mostra i numeri minimi consigliati di documenti in base all'accuratezza mirata, alla variazione dei documenti e ai tipi di documento.
Numero consigliato di documenti per tipo e precisione per estrazione valore chiave personalizzata
Tipo di documento. Precisione minima mirata (precisione stimata a livello di campo) Variazione nei documenti di formazione Numero minimo consigliato di documenti Più dettagli
Digital 90% Sono presenti tutte le etichette. 15 I campi di interesse sono presenti in tutti i documenti.
Digital 95% Sono presenti tutte le etichette. 30 I campi di interesse sono presenti in tutti i documenti.
Digital 85% Tutte le etichette non sono presenti. 15 In alcuni documenti possono mancare campi di interesse.
Digital 90% Tutte le etichette non sono presenti. 30 In alcuni documenti possono mancare campi di interesse.
Digital 95% Tutte le etichette non sono presenti. 50 Se i documenti possono avere risoluzione non standard e DPI.
Esegui scansione 85% Sono presenti tutte le etichette.

Testo minimo o nessun testo scritto a mano.

15 I campi di interesse sono presenti in tutti i documenti con elevata leggibilità nei documenti.
Esegui scansione 95% Sono presenti tutte le etichette. 30 Immagini con rotazione ed elementi grafici (stamp o segni di selezione).
Dispositivo portatile 80% Sono presenti tutte le etichette.

Testo minimo o nessun testo scritto a mano.

15 I campi di interesse sono presenti in tutti i documenti con elevata leggibilità nei documenti.
Dispositivo portatile 85% Sono presenti tutte le etichette oppure non sono presenti tutte le etichette.

Testo minimo o nessun testo scritto a mano

.
30 Se i documenti hanno alta rotazione, risoluzione non standard e DPI.
Dispositivo portatile 90% Sono presenti tutte le etichette oppure non sono presenti tutte le etichette.

Testo minimo o nessun testo scritto a mano

.
50 Immagini con rotazione ed elementi grafici (stamp o segni di selezione).

Numero consigliato di documenti per tipo e precisione per classificazione documento
Tipo di documento. Precisione minima mirata (precisione stimata a livello di campo) Variazione nei documenti di formazione Numero minimo consigliato di documenti Più dettagli
Digitale/Scansione/Mobile 90%

Tutti i documenti di una classe hanno lo stesso modello, ad esempio la classe Fattura può contenere documenti di un negozio o di un'organizzazione

15 Tutti i documenti sono etichettati.

Il numero di documenti menzionati è per una singola classe.
Ad esempio, se un set di dati contiene 5 classi da classificare e il numero consigliato di documenti è 15, il numero totale di documenti è 75 (15*5).

Digitale/Scansione/Mobile 75% I documenti di una classe hanno vari modelli. Ad esempio, la classe fattura può contenere documenti di vari negozi o organizzazioni. 20 Tutti i documenti sono etichettati.

Il numero di documenti menzionati è per una singola classe.
Ad esempio, se un set di dati contiene 5 classi da classificare e il numero consigliato di documenti è 15, il numero totale di documenti è 75 (15*5).

Digitale/Scansione/Mobile 80% I documenti di una classe hanno vari modelli. Ad esempio, la classe fattura può contenere documenti di vari negozi o organizzazioni. 25 Tutti i documenti sono etichettati.

Il numero di documenti menzionati è per una singola classe.
Ad esempio, se un set di dati contiene 5 classi da classificare e il numero consigliato di documenti è 15, il numero totale di documenti è 75 (15*5).

Digitale/Scansione/Mobile 90% I documenti di una classe hanno vari modelli. Ad esempio, la classe fattura può contenere documenti di vari negozi o organizzazioni. 35 Tutti i documenti sono etichettati.

Il numero di documenti menzionati è per una singola classe.
Ad esempio, se un set di dati contiene 5 classi da classificare e il numero consigliato di documenti è 15, il numero totale di documenti è 75 (15*5).

Linee guida per l'annotazione di dati

Un modello personalizzato è valido solo quanto la qualità dei documenti e delle annotazioni di formazione utilizzati per addestrarlo. Di seguito sono riportate le linee guida per la creazione di un modello personalizzato utile.
Annotare i documenti in modo coerente e corretto
Si supponga di creare un modello personalizzato per una candidatura dipendente e di voler estrarre il nome del richiedente con il modello personalizzato. Se si prevede di estrarre il nome e il cognome, annotare tutte le parole correlate al nome completo, ad esempio Mary Joe Smith, come nome del richiedente nei documenti di formazione. Se il campo del nome del richiedente è presente in tutti i documenti, annotarlo in tutti i documenti. Ignorare le annotazioni nei documenti di formazione o annotare parzialmente un campo influisce negativamente sulla qualità del modello.
Annota sia i nomi dei campi che i valori dei campi
Per consentire al modello di apprendere meglio, annotare i nomi delle chiavi e dei valori associati. Ad esempio, per estrarre il nome del richiedente per un documento, creare due etichette, ad esempio applicant name field e applicant name value. Nel documento di formazione annotare il nome del campo come applicant name field e la risposta, ad esempio Mary Joe Smith, come applicant name value.