Workflow per modelli personalizzati
La creazione di un modello personalizzato in genere comporta cinque passi.
- Preparazione di un data set formazione
- Formazione di un modello
- Valutazione del modello
- Distribuzione del modello
- Analisi del testo
Dopo aver valutato il modello nel passo 3, ripetere i passi da 1 a 3 finché non si dispone di metriche soddisfacenti, quindi distribuire il modello.
Preparazione di un data set formazione
Per addestrare un modello personalizzato, fornire i dati con etichetta, vedere Informazioni sull'etichettatura dei dati.
Ad esempio, per creare un modello di classificazione del testo, fornire al modello molti esempi di record di testo e assegnare loro un'etichetta con la classe a cui appartengono. Il modello apprende le caratteristiche dei record con etichetta. Il modello addestrato può quindi derivare la classe per i nuovi record.
I dati di formazione devono avere un'etichetta. Ad esempio, per creare un modello di classificazione del testo, è possibile fornire al modello esempi rappresentativi di record di testo con un'etichetta per ogni record. Questi esempi consentono al modello di apprendere e prevedere gli esempi non visualizzati da un modello. Per etichettare i dati, si consiglia di utilizzare l'interfaccia CLI OCI per il servizio di etichettatura dei dati.
- Suggerimenti set di dati per modelli personalizzati
-
Per preparare i set di dati di addestramento, attenersi alle linee guida riportate nella tabella riportata di seguito. Se mancano set di dati per la convalida e il test, viene utilizzato un 60% casuale degli elementi per l'addestramento, il 20% per la convalida e il 20% per il test.
Se non si fornisce un set di dati di convalida o test, il servizio sceglie un 20% casuale dei campioni.
Set formazione Serie di convalida Set di test Riconoscimento personalizzato delle entità denominate
-
Minimo - 10 istanze per entità.
-
Consigliato: 50 istanze per entità.
-
Minimo: 5 istanze per entità o il 20% delle istanze di formazione, a seconda di quale delle due è superiore.
-
Consigliato: 20 istanze per entità.
-
Minimo: 5 istanze per entità o il 20% delle istanze di formazione, a seconda di quale delle due è superiore.
-
Consigliato: 20 istanze per entità.
Classificazione testo personalizzata
-
Minimo - 10 documenti per classe.
-
Consigliato - 100 documenti per classe.
-
Consigliato - 20 documenti per classe.
-
Consigliato - 20 documenti per classe.
-
-
Etichettare correttamente gli esempi di formazione. La qualità del modello dipende dalla qualità dei dati. Quando si addestra un modello, se un tipo di classe o entità non funziona come previsto, aggiungere altri esempi per tale classe o entità. Assicurarsi inoltre che l'entità venga annotata ad ogni occorrenza nel set di addestramento. I dati di formazione di bassa qualità si traducono in metriche di formazione scadenti e producono risultati imprecisi.
-
Avere abbastanza campioni di formazione per i modelli. Più dati sono sempre migliori per migliorare le prestazioni del modello. Si consiglia di addestrare il modello con un piccolo data set, rivedere le metriche di addestramento del modello e aggiungere altri campioni di addestramento in base alle esigenze.
Formazione di un modello
La formazione è il processo in cui il modello apprende dai dati etichettati. La durata e i risultati dell'addestramento dipendono dalle dimensioni del set di dati, dalle dimensioni di ciascun record e dal numero di job di addestramento attivi.
Valutazione del modello
Dopo l'addestramento di un modello, è possibile ottenere metriche di valutazione che descrivono la qualità del modello o la probabilità che il modello preveda correttamente. Il servizio applica il modello al set di test e confronta le etichette previste con le etichette previste. Le metriche si basano sull'accuratezza con cui il modello prevede il set di test.
La console consente di ottenere un set di metriche di valutazione a livello di modello e a livello di classe (o di entità per i modelli NER) elencati nella sezione seguente.
Utilizzando la console è possibile ottenere i seguenti tipi di metriche di valutazione:
- Metriche a livello di classe
- Metriche a livello di modello
- Metriche a livello di entità per i modelli NER
- Matrice di confusione
Utilizzando l'API, puoi ottenere un set più completo di metriche tra cui il richiamo di precisione micro, macro e media ponderata e i punteggi F-1.
Parametri di classe
Le metriche di classe sono metriche a livello di entità.
- Precision
-
Il rapporto tra i veri positivi (gli esempi correttamente previsti) e tutti gli esempi della classe particolare.
Descrive il numero di esempi previsti correttamente. Il valore è compreso tra 0 e 1. Valori più alti migliori.
- Richiamo
-
Il rapporto tra i veri positivi (gli esempi correttamente previsti) e tutti gli esempi previsti.
Descrive quanti esempi corretti sono previsti. Il valore è compreso tra 0 e 1. Valori più alti migliori.
- F1: punteggio
-
Il punteggio F1 è la media armonica di precisione e richiamo, dandoti un unico valore per valutare il modello. Il valore è compreso tra 0 e 1. Valori più alti migliori.
Metriche del modello
Le metriche del modello sono metriche a livello di modello per modelli a più classi. Le metriche a livello di modello descrivono la qualità complessiva di un modello. I valori di precisione, richiamo e F-1 vengono presentati a livello di macro, micro e media ponderata.
- Medie macro
-
Una media macro è la media dei valori delle metriche di tutte le classi.
Ad esempio, la precisione macro viene calcolata come somma di tutti i valori di precisione della classe suddivisi per il numero di classi.
- Medie micro
-
Una micro-media aggrega i contributi di tutti gli esempi per calcolare la metrica media.
- Medie ponderate
-
Calcolato considerando il numero di istanze di ogni classe.
Ad esempio, un punteggio ponderato F1 viene calcolato come somma di (F1-punteggio della classe * proporzione di supporto della classe).
- Accuratezza
-
Una frazione di tutti gli esempi correttamente previsti e non previsti. La frazione viene calcolata come rapporto tra classi correttamente previste e non previste (vero positivo + vero negativo) e tutti gli esempi
- Matrice di confusione
-
Tabella per visualizzare i risultati veri e di previsione di ogni classe.
Distribuzione del modello
Dopo che le metriche del modello soddisfano le aspettative, è possibile mettere il modello in produzione e utilizzarlo per analizzare il testo. Per mettere il modello in produzione, creare un endpoint. Un endpoint assegna risorse di calcolo dedicate per l'inferenza (eseguendo l'analisi del testo) sui modelli personalizzati.
Gli endpoint del modello personalizzato sono privati ed è necessario specificare un compartimento per la distribuzione dell'endpoint. È possibile creare più endpoint per un modello. È possibile creare o eliminare endpoint senza eliminare un modello.
Analisi del testo
Dopo aver creato un endpoint modello, è possibile distribuire il modello e analizzare il testo utilizzando un modello personalizzato. È possibile distribuire un modello a un endpoint nei modi riportati di seguito.
- Console
- API REST
- SDK (Python, Java, C#, JavaScript e Ruby)
- CLIENTE