Workflow per modelli personalizzati

La creazione di un modello personalizzato in genere comporta cinque passi.

Preparazione di un data set di formazione
Addestramento di un modello
Valutazione del modello
Distribuzione del modello
Analisi del testo

Nota

Dopo aver valutato il modello nel passo 3, ripetere i passi da 1 a 3 finché non si dispone di metriche soddisfacenti, quindi distribuire il modello.

Preparazione di un data set formazione

Per addestrare un modello personalizzato, fornire i dati con etichetta, vedere Informazioni sull'etichettatura dei dati.

Ad esempio, per creare un modello di classificazione del testo, fornire al modello molti esempi di record di testo e assegnare loro un'etichetta con la classe a cui appartengono. Il modello apprende le caratteristiche dei record con etichetta. Il modello addestrato può quindi derivare la classe per i nuovi record.

I dati di formazione devono avere un'etichetta. Ad esempio, per creare un modello di classificazione del testo, è possibile fornire al modello esempi rappresentativi di record di testo con un'etichetta per ogni record. Questi esempi consentono al modello di apprendere e prevedere gli esempi non visualizzati da un modello. Per etichettare i dati, si consiglia di utilizzare l'interfaccia CLI OCI per il servizio di etichettatura dei dati.

Suggerimenti set di dati per modelli personalizzati

Per preparare i set di dati di addestramento, attenersi alle linee guida riportate nella tabella riportata di seguito. Se mancano set di dati per la convalida e il test, viene utilizzato un 60% casuale degli elementi per l'addestramento, il 20% per la convalida e il 20% per il test.

Se non si fornisce un set di dati di convalida o test, il servizio sceglie un 20% casuale dei campioni.


	Set formazione	Serie di convalida	Set di test
Riconoscimento personalizzato delle entità denominate	Minimo - 10 istanze per entità. Consigliato: 50 istanze per entità.	Minimo: 5 istanze per entità o il 20% delle istanze di formazione, a seconda di quale delle due è superiore. Consigliato: 20 istanze per entità.	Minimo: 5 istanze per entità o il 20% delle istanze di formazione, a seconda di quale delle due è superiore. Consigliato: 20 istanze per entità.
Classificazione testo personalizzata	Minimo - 10 documenti per classe. Consigliato - 100 documenti per classe.	Consigliato - 20 documenti per classe.	Consigliato - 20 documenti per classe.

Suggerimento

Etichettare correttamente gli esempi di formazione. La qualità del modello dipende dalla qualità dei dati. Quando si addestra un modello, se un tipo di classe o entità non funziona come previsto, aggiungere altri esempi per tale classe o entità. Assicurarsi inoltre che l'entità venga annotata ad ogni occorrenza nel set di addestramento. I dati di formazione di bassa qualità si traducono in metriche di formazione scadenti e producono risultati imprecisi.
Avere abbastanza campioni di formazione per i modelli. Più dati sono sempre migliori per migliorare le prestazioni del modello. Si consiglia di addestrare il modello con un piccolo data set, rivedere le metriche di addestramento del modello e aggiungere altri campioni di addestramento in base alle esigenze.

Formazione di un modello

La formazione è il processo in cui il modello apprende dai dati etichettati. La durata e i risultati dell'addestramento dipendono dalle dimensioni del set di dati, dalle dimensioni di ciascun record e dal numero di job di addestramento attivi.

Valutazione del modello

Dopo l'addestramento di un modello, è possibile ottenere metriche di valutazione che descrivono la qualità del modello o la probabilità che il modello preveda correttamente. Il servizio applica il modello al set di test e confronta le etichette previste con le etichette previste. Le metriche si basano sull'accuratezza con cui il modello prevede il set di test.

La console consente di ottenere un set di metriche di valutazione a livello di modello e a livello di classe (o di entità per i modelli NER) elencati nella sezione seguente.

Utilizzando la console è possibile ottenere i seguenti tipi di metriche di valutazione:

Metriche a livello di classe
Metriche a livello di modello
Metriche a livello di entità per i modelli NER
Matrice di confusione

Utilizzando l'API, puoi ottenere un set più completo di metriche tra cui il richiamo di precisione micro, macro e media ponderata e i punteggi F-1.

Parametri di classe

Le metriche di classe sono metriche a livello di entità.

Precision

Il rapporto tra i veri positivi (gli esempi correttamente previsti) e tutti gli esempi della classe particolare.

Descrive il numero di esempi previsti correttamente. Il valore è compreso tra 0 e 1. Valori più alti migliori.

Richiamo

Il rapporto tra i veri positivi (gli esempi correttamente previsti) e tutti gli esempi previsti.

Descrive quanti esempi corretti sono previsti. Il valore è compreso tra 0 e 1. Valori più alti migliori.

F1: punteggio

Il punteggio F1 è la media armonica di precisione e richiamo, dandoti un unico valore per valutare il modello. Il valore è compreso tra 0 e 1. Valori più alti migliori.

Metriche del modello

Le metriche del modello sono metriche a livello di modello per modelli a più classi. Le metriche a livello di modello descrivono la qualità complessiva di un modello. I valori di precisione, richiamo e F-1 vengono presentati a livello di macro, micro e media ponderata.

Medie macro

Una media macro è la media dei valori delle metriche di tutte le classi.

Ad esempio, la precisione macro viene calcolata come somma di tutti i valori di precisione della classe suddivisi per il numero di classi.

Medie micro

Una micro-media aggrega i contributi di tutti gli esempi per calcolare la metrica media.

Ad esempio, un micro richiamo viene calcolato come (somma di esempi corretti previsti) / (somma di esempi corretti previsti + somma di esempi corretti non previsti).

Medie ponderate

Calcolato considerando il numero di istanze di ogni classe.

Ad esempio, un punteggio ponderato F1 viene calcolato come somma di (F1-punteggio della classe * proporzione di supporto della classe).

Accuratezza

Una frazione di tutti gli esempi correttamente previsti e non previsti. La frazione viene calcolata come rapporto tra classi correttamente previste e non previste (vero positivo + vero negativo) e tutti gli esempi

Matrice di confusione: Tabella per visualizzare i risultati veri e di previsione di ogni classe.

Distribuzione del modello

Dopo che le metriche del modello soddisfano le aspettative, è possibile mettere il modello in produzione e utilizzarlo per analizzare il testo. Per mettere il modello in produzione, creare un endpoint. Un endpoint assegna risorse di calcolo dedicate per l'inferenza (eseguendo l'analisi del testo) sui modelli personalizzati.

Gli endpoint del modello personalizzato sono privati ed è necessario specificare un compartimento per la distribuzione dell'endpoint. È possibile creare più endpoint per un modello. È possibile creare o eliminare endpoint senza eliminare un modello.

Analisi del testo

Dopo aver creato un endpoint modello, è possibile distribuire il modello e analizzare il testo utilizzando un modello personalizzato. È possibile distribuire un modello a un endpoint nei modi riportati di seguito.