Formazione e test degli intenti
L'addestramento di un modello con il corpus di addestramento consente al bot di discernere ciò che gli utenti dicono (o, in alcuni casi, stanno cercando di dire).
È possibile migliorare l'acuità della cognizione attraverso cicli di test dell'intento e di formazione dell'intento. È possibile controllare l'addestramento solo tramite le definizioni degli intenti; lo skill non può imparare da solo dalla chat utente.
Test delle utenze
Ti consigliamo di mettere da parte il 20% del tuo corpus per test di intenti e utilizzare il restante 80% per addestrare i tuoi intenti. Mantieni separati questi due set in modo che le espressioni del test, che incorporerai nei casi di test, rimangano "sconosciute" per la tua abilità.
Applicare il frazionamento 80/20 al set di dati di ciascun intento. Randomizza le tue espressioni prima di fare questa divisione per consentire ai modelli di allenamento di pesare i termini e i modelli nelle espressioni allo stesso modo.
Il Tester dell'Utterance
Il Tester di Utterance è la tua finestra sulla cognizione della tua abilità. Inserendo frasi che non fanno parte del corpus di addestramento, puoi scoprire quanto bene hai creato i tuoi intenti esaminando il ranking di sicurezza degli intenti e il JSON restituito. Questa classifica, che è la stima della competenza per il candidato migliore per risolvere l'input dell'utente, dimostra la sua acutezza al momento corrente.
Descrizione dell'illustrazione utterance-tester-quick-test.png
Utilizzando Utterance Tester, è possibile eseguire test rapidi per i test una tantum, oppure è possibile incorporare un enunciato come caso di test per valutare la risoluzione degli intenti in diverse versioni dei modelli di allenamento.
Test di esempio
Ogni test ha un enunciato e l'intento che si prevede di risolvere, che è noto come una corrispondenza di etichetta. Un caso di test può includere anche i valori di entità corrispondenti e la lingua prevista per l'espressione. È possibile eseguire casi di test quando si sta sviluppando una competenza e, successivamente, quando la competenza è in produzione, è possibile utilizzare i casi di test per i test di regressione. In quest'ultimo caso, è possibile eseguire casi di test per scoprire se una nuova release del modello di addestramento ha influito negativamente sulla risoluzione degli intenti.
Analogamente ai casi di test creati con il Tester conversazione, i casi di test dell'espressione fanno parte della competenza e vengono riportati insieme a ogni versione. Se si estende uno skill, l'estensione eredita i casi di test. Mentre i casi di test di conversazione sono destinati a testare uno scenario, i casi di test di pronuncia sono destinati a testare i frammenti di una conversazione in modo indipendente, assicurando che ogni enunciato si risolva all'intento corretto.
Gestisci casi di test
nluTestSuites
che ospita le suite di test dello skill quando lo skill viene esportato.Crea suite di test
- Fare clic su + Suite di test.
- Nella scheda Generale, sostituire il nome del segnaposto (TestSuite0001, ad esempio) con uno più significativo aggiungendo un valore nel campo Nome visualizzato.
- Facoltativamente, aggiungere una descrizione che spieghi le funzionalità coperte dalla suite di test.
- Popolare la suite di test con i casi di test utilizzando uno qualsiasi (o una combinazione di ) i seguenti metodi:
- Aggiunta manuale di casi di test (creando un caso di test o salvando un'espressione come caso di test dal tester di uterina).
- Importazione dei casi di test.
Nota
Per assegnare un caso di test a una suite di test tramite importazione, il campotestSuite
del file CSV può essere vuoto oppure deve contenere un nome corrispondente alla suite di test selezionata nella finestra di dialogo di importazione. - Modifica di un caso di test per riassegnare la suite di test.
- Se si desidera escludere la suite di test dalle esecuzioni di test avviate utilizzando le opzioni Tutto e Esegui tutto, disattivare Abilita suite di test.
- Se non si desidera includere la suite di test nell'esportazione delle competenze, disattivare Includi nell'esportazione delle competenze. Quando si disattiva questa opzione per una suite di test, questa non verrà inclusa nella cartella
nluTestSuites
che ospita le suite di test dello skill nel file ZIP esportato.
Crea casi di test di utenza
È possibile aggiungere casi di test uno alla volta utilizzando il tester di utenza o la finestra di dialogo Nuovo caso di test (a cui è possibile accedere facendo clic su + caso di test) oppure aggiungerli in blocco caricando un file CSV.
Ogni caso di test deve appartenere a una suite di test, quindi prima di creare un caso di test, è possibile creare una suite di test che rifletta una capacità della competenza o un aspetto del test degli intenti, ad esempio test di errore, test nel dominio o test fuori dominio.
Suggerimento:
Per fornire una copertura adeguata nei tuoi test, crea espressioni della suite di test che non sono solo variate concettualmente, ma anche grammaticamente poiché gli utenti non faranno richieste in modo uniforme. È possibile aggiungere queste dimensioni creando suite di test dal messaggio utente effettivo su cui è stata eseguita una query in Insights Retrainer e anche da input provenienti da gruppi di dati raccolti da Data Manufacturing.Aggiungi casi di test dal tester di utenza
- Fare clic su Test delle utenze.
- Se la competenza è multilingue, selezionare la lingua nativa.
- Immettere l'espressione, quindi fare clic su Test.
- Fare clic su Salva come caso di test, quindi scegliere una suite di test.
Crea un caso di prova
- Fare clic su Vai a casi di test nel tester di utenza.
- Fare clic su + Caso di test.
- Completare la finestra di dialogo Nuovo caso di test:
- Se necessario, disabilitare il caso di test.
- Immettere l'espressione del test.
- Selezionare la suite di test.
- Selezionare l'intento previsto. Se si sta creando un caso di test per il test degli errori, selezionare unresolvedIntent.
- Per le competenze multilingue, selezionare il tag della lingua e la lingua prevista.
- Fare clic su Aggiungi a suite. Nella pagina Casi di test è possibile eliminare un caso di test o modificare un caso di test, che include la riassegnazione del caso di test a una suite di test diversa.
- Per eseguire il test dei valori entità:
- Attivare Entità di test. Quindi fare clic su Continua.
- Evidenziare la parola o le parole, quindi applicare un'etichetta di entità selezionando un'entità dall'elenco. Al termine, fare clic su Aggiungi a suite.
Nota
Dopo aver abilitato Entità di test, selezionare sempre parole o frasi dall'espressione del caso di test. Il caso di test non riuscirà se sono state abilitate le entità di test ma non sono state evidenziate parole.
Importa casi di test per suite di test a livello di skill
testSuite
: il nome della suite di test a cui appartiene il caso di test. Il campotestSuite
in ogni riga del file CSV può avere un nome di suite di test diverso o essere vuoto.- I casi di test con campi
testSuite
vuoti vengono aggiunti a una suite di test selezionata quando si importa il file CSV. Se non si seleziona una suite di test, questa verrà assegnata alla suite di test predefinita. - I casi di test con campi
testSuite
popolati vengono assegnati alla suite di test selezionata quando si importa il file CSV solo quando il nome della suite di test selezionata corrisponde al nome nel campotestSuite
. - Se una suite di test con il nome di quella specificata nel campo
testSuite
non esiste già, verrà creata dopo l'importazione del file CSV.
- I casi di test con campi
utterance
– Un esempio (richiesto). È mappato aquery
nelle versioni precedenti alla 21.04 di Oracle Digital Assistant.expectedIntent
: l'intento corrispondente (obbligatorio). Questo campo è mappato aTopIntent
nelle versioni precedenti alla 21.04 di Oracle Digital Assistant.Suggerimento:
L'importazione delle versioni precedenti alla 21.04 del file CSV indica come riformattare i file CSV precedenti alla 21.04 in modo da poterli utilizzare per i test di massa.enabled
:TRUE
include il caso di test nell'esecuzione del test.FALSE
lo esclude.languageTag
: il tag della lingua (en
, ad esempio). Quando non c'è valore, la lingua rilevata dalle impostazioni della lingua dell'abilità viene utilizzata per impostazione predefinita.expectedLanguageTag
(facoltativo): per le competenze multilingue, questo è il tag della lingua che si desidera utilizzare per il modello quando si risolve l'espressione del test in un intento. Affinché il caso di test venga superato, questo tag deve corrispondere alla lingua rilevata.expectedEntities
: le entità corrispondenti nell'espressione del caso di test, rappresentate come array di oggettientityName
. OgnientityName
identifica la posizione del valore dell'entità nell'espressione utilizzando le proprietàbeginOffset
eendOffset
. Questo offset è determinato dal carattere, non dalla parola, ed è calcolato dal primo carattere dell'espressione (0-1). Ad esempio, l'oggettoentityName
per il valore dell'entità PizzaSize di piccole dimensioni in Voglio ordinare una pizza piccola è:[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
- Fare clic su Altro, quindi selezionare Importa.
- Individuare, quindi selezionare il CSV.
- Scegliere la suite di test. Il caso di test può essere assegnato alla suite di test selezionata solo se il campo
testSuite
è vuoto o corrisponde al nome della suite di test selezionata. - Fare clic su Carica.
Importazione delle versioni precedenti alla 21.04 del CSV
query
e TopIntent
, vengono aggiunti solo alla suite di test predefinita. È possibile riassegnare questi casi di test ad altre suite di test singolarmente modificandoli dopo aver importato il file CSV oppure è possibile aggiornare il file CSV nel formato corrente e quindi modificarlo prima di importarlo come indicato di seguito.
- Fare clic su Altro > Importa.
- Al termine dell'importazione, selezionare Suite di test predefinita, quindi fare clic su Altro > Esporta suite selezionata. Il file esportato verrà convertito nel formato corrente.
- Estrarre il file ZIP e modificare il CSV. Al termine, importare di nuovo il file CSV (Altro > Importa). Potrebbe essere necessario eliminare i casi di test duplicati dalla suite di test predefinita.
Nota
Se si carica lo stesso file CSV più volte con modifiche minori, tutti i dati nuovi o aggiornati verranno uniti al vecchio: vengono applicati nuovi aggiornamenti e vengono inserite nuove righe. Tuttavia, non è possibile eliminare espressioni caricando un nuovo CSV. Se è necessario eliminare le espressioni, è necessario eliminarle manualmente dall'interfaccia utente.
Crea esecuzioni test
Le esecuzioni dei test sono una raccolta di casi di test o suite di test volti a valutare alcuni aspetti della cognizione dell'abilità. Il contenuto (e il volume) di un'esecuzione di test dipende dalla capacità che si desidera testare, pertanto un'esecuzione di test potrebbe includere un sottoinsieme di casi di test da una suite di test, una suite di test completa o più suite di test.
I casi di test inclusi in un'esecuzione di test vengono valutati in base alla soglia di affidabilità impostata per lo skill. Affinché un caso di test venga superato durante l'esecuzione del test complessivo, deve essere risolto in base all'intento previsto pari o superiore alla soglia di affidabilità. Se specificato, il caso di test deve soddisfare anche il valore dell'entità e i criteri di corrispondenza della lingua. Esaminando i risultati dell'esecuzione del test, è possibile scoprire se le modifiche apportate alla piattaforma o all'abilità stessa hanno compromesso l'accuratezza della risoluzione dell'intento.
Oltre a testare il modello, è anche possibile utilizzare i risultati dell'esecuzione del test per valutare l'affidabilità dei test. Ad esempio, i risultati che mostrano che quasi tutti i casi di test sono passati potrebbero, sulla superficie, indicare un funzionamento ottimale del modello. Tuttavia, una revisione dei casi di test superati può rivelare che i casi di test non riflettono l'allenamento corrente perché le loro espressioni sono troppo semplici o hanno una sovrapposizione significativa in termini di concetti e termini per cui stanno testando. Un numero elevato di test falliti, d'altra parte, potrebbe indicare carenze nei dati di addestramento, ma una revisione di questi casi di test potrebbe rivelare che le loro espressioni sono accoppiate con gli intenti previsti sbagliati.
- Fare clic su Esegui tutto per creare un'esecuzione di test per tutti i casi di test in una suite di test selezionata. Oppure, se si desidera eseguire tutte le suite di test, selezionare Tutto, quindi fare clic su Esegui tutto.
- Per creare un'esecuzione di test per una selezione di casi di test all'interno di una suite (o un'esecuzione di test per un subset di tutti i casi di test se è stato selezionato Tutti), filtrare i casi di test aggiungendo una stringa corrispondente al testo dell'espressione e all'intento previsto. Selezionare la voce o le espressioni, quindi fare clic su Esegui.
- Per escludere la suite di test dall'esecuzione del test, selezionare prima la suite di test, aprire la scheda Generale, quindi disattivare Abilita suite di test.
- Per gli skill multilingue, è inoltre possibile filtrare in base alle opzioni Tag lingua e Lingua prevista (accessibili tramite Attributi facoltativi).
- Per creare un'esecuzione di test per una selezione di casi di test all'interno di una suite (o un'esecuzione di test per un subset di tutti i casi di test se è stato selezionato Tutti), filtrare i casi di test aggiungendo una stringa corrispondente al testo dell'espressione e all'intento previsto. Selezionare la voce o le espressioni, quindi fare clic su Esegui.
- Immettere un nome di esecuzione test che rifletta l'oggetto del test. Questo passo è facoltativo.
- Fare clic su Start
- Fare clic su Risultati test, quindi selezionare l'esecuzione del test.
Suggerimento:
Il completamento delle esecuzioni di test contenenti un numero elevato di casi di test potrebbe richiedere alcuni minuti. Per queste esecuzioni di test di grandi dimensioni, potrebbe essere necessario fare clic periodicamente su Refresh fino al completamento del test. Una percentuale sostituisce lo stato In corso per la metrica Precisione e il report Intenti viene visualizzato dopo che tutti i casi di test sono stati valutati.
- Esaminare i report sull'esecuzione dei test. Ad esempio, esaminare prima le metriche di alto livello per l'esecuzione del test fornite dal report Panoramica. Successivamente, convalidare i risultati del test rispetto ai casi di test effettivi filtrando il report Casi di test, che elenca tutti i casi di test inclusi nell'esecuzione del test, per i casi di test passati e non riusciti. È quindi possibile esaminare i risultati dei singoli casi di test. È inoltre possibile confrontare il punteggio di precisione nel rapporto Panoramica con il punteggio di precisione nel report Intenti, che misura la capacità del modello di prevedere gli intenti corretti. Per esaminare i casi di test elencati in questo report, aprire il report Casi di test e filtrare in base agli intenti.
Report sintetico esecuzione test
Il rapporto Sintetico fornisce una valutazione complessiva del modo in cui il modello è in grado di gestire correttamente il tipo di input dell'utente coperto nell'esecuzione del test. Per le suite di test incluse nell'esecuzione del test, mostra il numero totale di casi di test utilizzati per valutare il modello e, da tale totale, sia il numero di casi di test (sia affidabili che inaffidabili) che non sono riusciti insieme al numero di casi di test affidabili e inaffidabili passati. L'accuratezza complessiva del modello, ovvero la capacità di prevedere gli intenti previsti al livello di affidabilità o superiore a quello dello skill, di riconoscere i valori delle entità e di risolvere le espressioni nella lingua dello skill, viene misurata in base al tasso di successo dei test superati nell'esecuzione del test.
Descrizione dell'illustrazione test-run-test-results-summary.png
Metriche report sintetico
- Accuratezza: l'accuratezza del modello in termini di tasso di successo dei casi di test superati (il numero di casi di test superati rispetto al numero totale di casi di test inclusi nell'esecuzione del test).
Nota
I casi di test disabilitati non vengono presi in considerazione nel punteggio di precisione. I test non sono riusciti a causa di errori. Qualsiasi test non riuscito viene invece aggiunto al conteggio degli errori.Un punteggio di precisione basso potrebbe indicare che l'esecuzione del test sta valutando il modello su concetti e linguaggio non adeguatamente supportati dai dati di addestramento. Per aumentare il punteggio di precisione, riaddestrare il modello con espressioni che riflettono i casi di test durante l'esecuzione del test.
Questa metrica Accuratezza si applica all'intera esecuzione del test e fornisce un punteggio separato dalla metrica Accuratezza nel report Intenti. Metrica che indica la percentuale di casi di test in cui il modello ha superato tutti i criteri del caso di test. Il punteggio di precisione nel rapporto Intenti, invece, non è un test end-to-end. È la percentuale di casi di test in cui il modello doveva solo prevedere l'intento previsto in corrispondenza o al di sopra della soglia di affidabilità dello skill. Altri criteri del caso di test (come il valore enity o la lingua skill) non vengono presi in considerazione. Tenuto conto dei diversi criteri che un caso di test di superamento comporta per questi due rapporti, i rispettivi punteggi di precisione potrebbero non essere sempre al passo. Il punteggio di precisione dell'intento può essere superiore al punteggio complessivo dell'esecuzione del test quando i dati del test non sono allineati ai dati dell'addestramento. Ritirare il modello con espressioni che supportano i casi di test gli consentirà di prevedere gli intenti previsti con maggiore sicurezza che, a sua volta, aumenterà il punteggio di precisione per l'esecuzione del test.
Nota
La metrica Precisione non è disponibile fino al completamento dell'esecuzione del test e non è disponibile per le esecuzioni di test completate quando la competenza è stata eseguita su versioni precedenti alla 22.12 della piattaforma Oracle Digital Assistant. - Casi di test: il numero totale di casi di test (sia affidabili che non affidabili) inclusi nell'esecuzione del test. I casi di test saltati sono inclusi in questo conteggio, ma non vengono considerati durante il calcolo della metrica Accuratezza.
- Superato: numero di casi di test (sia affidabili che inaffidabili) passati risolvendo l'intento alla soglia di attendibilità e abbinando i valori o la lingua dell'entità selezionata.
- Non riuscito: numero di casi di test (affidabilità e inaffidabilità del bot) che non sono riusciti a risolvere l'intento previsto alla soglia di affidabilità e non hanno trovato corrispondenza con i valori o la lingua dell'entità selezionata.
Per esaminare i casi di test effettivi dietro le metriche Superato e Non riuscito in questo report, aprire il report Casi di test e quindi applicare i filtri Superato o Non riuscito.
Descrizione dell'immagine test-runs-intent-report.png
Analisi stratificata suite di test
Nella tabella Analisi stratificata suite di test sono elencate le suite di test incluse nell'esecuzione del test e le rispettive statistiche individuali. È possibile esaminare i casi di test effettivi appartenenti a una suite di test facendo clic sul collegamento nella colonna Suite di test.
Descrizione dell'illustrazione test-suite-breakdown.png
Report intenti
Le metriche in questo report tengono traccia delle corrispondenze dell'etichetta del modello in tutti i casi di test dell'esecuzione del test. È qui che il modello prevede correttamente l'intento previsto per l'espressione del caso di test. Nell'ambito del presente rapporto, l'accuratezza, il superamento e l'inadempienza sono misurati in termini di casi di test in cui il modello prevedeva l'intento previsto corretto alla soglia di affidabilità o superiore a tale soglia. Non vengono presi in considerazione altri criteri presi in considerazione nel report di riepilogo, ad esempio le corrispondenze dei valori entità o la lingua skill. Di conseguenza, questo report fornisce una visione diversa dell'accuratezza del modello, che consente di verificare se l'addestramento corrente consente al modello di prevedere in modo coerente gli intenti corretti.
Questo report non è disponibile per le esecuzioni di test completate quando lo skill è stato eseguito su una versione precedente alla 22.12 della piattaforma Oracle Digital Assistant.
Metriche report intenti
- Casi di test: numero di casi di test inclusi in questa esecuzione di test. Questo totale include sia casi di test affidabili che inaffidabili. I casi di test saltati non sono inclusi in questo conteggio.
Suggerimento:
I collegamenti dei casi di test inaffidabili per le metriche Casi di test, Superati e Non riusciti consentono di aprire il report Casi di test filtrato in base a casi di test inaffidabili. Questa navigazione non è disponibile quando si filtra il report per suite di test. - Accuratezza: l'accuratezza del modello nella corrispondenza dell'intento previsto o superiore alla soglia di affidabilità dello skill nei casi di test in questa esecuzione del test. La metrica secondaria Corrispondenza etichetta rappresenta la percentuale di casi di test nell'esecuzione del test in cui il modello ha previsto correttamente l'intento previsto, indipendentemente dal punteggio di affidabilità. Poiché i fattori Label Match nei casi di test non riusciti insieme ai casi di test superati, il suo punteggio può essere superiore al punteggio di precisione.
È possibile confrontare questa metrica Precisione con la metrica Precisione del report Sintetico. Quando il punteggio di precisione nel report Riepilogo è basso, è possibile utilizzare questo report per scoprire rapidamente se gli errori del modello possono essere attribuiti alla sua incapacità di prevedere l'intento previsto. Quando il punteggio di precisione in questo report è elevato, tuttavia, è possibile escludere la corrispondenza delle etichette come radice del problema e, piuttosto che dover rivedere pesantemente i dati di addestramento per aumentare il punteggio di precisione dell'esecuzione del test, è invece possibile concentrarsi sull'aggiunta di espressioni che riflettono i concetti e il linguaggio nelle espressioni del caso di test.
- Superato: il numero di casi di test (affidabili e inaffidabili) in cui il modello prevedeva l'intento previsto alla soglia di affidabilità dello skill.
- Non riuscito: il numero di casi di test (affidabili e inaffidabili) in cui il modello prevedeva l'intento previsto al di sotto della soglia di affidabilità dello skill.
- Confidence Pass: una media dei punteggi di affidabilità per tutti i casi di test passati in questa esecuzione di test.
- Errore di affidabilità: media dei punteggi di affidabilità per tutti i casi di test non riusciti in questa esecuzione di test.
Quando si filtra il report Intenti per suite di test, l'accesso al report Casi di test dai collegamenti caso di test inaffidabili nelle caselle Casi di test, Superato e Non riuscito non è disponibile. Questi collegamenti diventano nuovamente attivi quando si rimuovono tutte le voci dal campo Filtra per suite di test.
Filtra per suite di test

Il report regola le metriche per ogni suite di test aggiunta (o successivamente rimossa). Tabula i risultati della corrispondenza degli intenti in base al numero di casi di test abilitati che appartengono alla suite di test selezionata.
Non è possibile filtrare in base alle suite di test eseguite su una piattaforma prima della versione 23.06. Per includere queste suite di test, è necessario eseguirle di nuovo dopo l'aggiornamento alle versioni 23.06 o successive.
Il filtro per suite di test disabilita la navigazione al report Casi di test dai collegamenti dei casi di test inaffidabili nelle caselle Casi di test, Superati e Non riusciti. Vengono disabilitati anche i collegamenti nella colonna Totale dell'analisi stratificata degli intenti. Tutti questi collegamenti diventano nuovamente attivi dopo la rimozione di tutte le voci dal campo Filtra per suite di test.
Analisi stratificata intenti
Il campo Filtra per intento modifica la vista della tabella Analisi stratificata intenti, ma non modifica le metriche globali del report. Queste metriche riflettono le voci (o la mancanza di voci) nel campo Filtra per suite di test.
- Intento: nome dell'intento previsto.
- Totale: il numero di casi di test, rappresentati come collegamento, per l'intento previsto. È possibile passare al report Casi di test facendo clic su questo collegamento.
Nota
Non è possibile passare al report Casi di test quando è stato applicato un filtro della suite di test a questo report. Questo collegamento diventa nuovamente attivo quando si rimuovono tutte le voci dal campo Filtra per suite di test. - Accuratezza: la percentuale di casi di test che hanno determinato corrispondenze di etichette per l'intento previsto in corrispondenza o al di sopra della soglia di affidabilità dello skill.
- Superato: il numero di casi di test (inclusi i casi di test inaffidabili) in cui il modello prevedeva l'intento previsto o superiore alla soglia di affidabilità dello skill.
- Superato - Inaffidabile - Il numero di casi di test in cui il modello prevedeva l'intento previsto al 5% o meno sopra la soglia di affidabilità dello skill.
- Non riuscito: il numero di casi di test nell'esecuzione del test non riusciti perché il modello prevedeva l'intento previsto al di sotto della soglia di affidabilità dello skill.
- Non riuscito - Inaffidabile - Il numero di casi di test non riusciti perché la fiducia del modello nella previsione dell'intento previsto è scesa del 5% al di sotto della soglia di affidabilità dello skill. Questi casi di prova possono tenere conto
- Corrispondenza etichetta: numero di casi di test in cui il modello ha previsto correttamente l'intento previsto, indipendentemente dal livello di attendibilità. Poiché tiene conto dei casi di test non riusciti, i punteggi di corrispondenza e precisione dell'etichetta potrebbero non essere sempre al passo tra loro. Ad esempio, quattro casi di test superati su cinque determinano un punteggio di precisione dell'80% per l'intento. Tuttavia, se il modello prevedeva correttamente l'intento per il caso di test in cui si è verificato l'errore, Label Match supererebbe l'accuratezza del 20%.
- Confidence Pass: media dei punteggi di affidabilità per tutti i casi di test che corrispondono correttamente all'intento previsto.
- Errore di affidabilità: media dei punteggi di affidabilità per tutti i casi di test che non corrispondono all'intento previsto.
Suggerimento:
Per esaminare i casi di test effettivi, aprire il report Casi di test e il filtro in base all'intento.
Report casi di test
- È possibile filtrare i risultati facendo clic su Tutto, su Superato (verde) o su Non riuscito (rosso). I casi di test conteggiati come saltati includono sia casi di test disabilitati che casi di test in cui l'intento previsto è stato disabilitato.
È possibile filtrare i risultati in base a casi di test inaffidabili facendo clic su Mostra casi inaffidabili nel messaggio di avvertenza oppure selezionando il filtro Solo casi inaffidabili. - Se necessario, filtrare i risultati per un intento o un'entità specifica o per casi di test affidabili o inaffidabili.
- Per i casi di test inaffidabili e non riusciti, fare clic su Visualizza espressioni simili (situato nella pagina Informazioni test) per scoprire se l'espressione del caso di test ha qualsiasi somiglianza con le espressioni nel set di formazione.
- Controllare i seguenti risultati:
- Informazioni sul test: presenta la panoramica del caso di test, inclusa la soglia di affidabilità target, l'intento previsto e i valori delle entità corrispondenti.
- Risultato test: classificazione dell'intento in base al livello di attendibilità. Quando è presente, il rapporto identifica anche le entità contenute nell'espressione per nome e valore dell'entità. È inoltre possibile visualizzare l'oggetto JSON contenente i risultati completi.
- Analisi dei guasti: spiega perché il caso di test non è riuscito. Ad esempio, l'intento effettivo non è l'intento previsto, il valore dell'entità etichettata nel caso di test non corrisponde all'entità risolta o la lingua prevista non è uguale alla lingua rilevata.
Casi di test inaffidabili
Alcuni casi di test non possono fornire risultati coerenti perché si risolvono entro il 5% o meno della soglia di affidabilità. Questo margine ridotto rende questi casi di test inaffidabili. Quando la soglia di affidabilità della competenza è impostata su 0,7, ad esempio, un caso di test che passa al 74% potrebbe non riuscire dopo aver apportato solo piccole modifiche ai dati di allenamento o perché la competenza è stata aggiornata a una nuova versione del modello. La fragilità di questi casi di test può indicare che le affermazioni che rappresentano nei dati di addestramento potrebbero essere troppo poche e che potrebbe essere necessario bilanciare i dati di addestramento dell'intento con espressioni simili.
- Eseguire la suite di test. Quindi fare clic su Risultati test e selezionare l'esecuzione del test. I casi di test inaffidabili vengono ordinati all'inizio dei risultati dell'esecuzione del test e vengono contrassegnati con avvertenze
.
- Per isolare i casi di test inaffidabili:
- Fare clic su Mostra i casi inaffidabili nel messaggio.
- Selezionare Solo casi inaffidabili dal menu Filtra per casi.
- Fare clic su Mostra i casi inaffidabili nel messaggio.
- Per individuare la prossimità dell'intento di livello superiore del caso di test alla soglia di affidabilità, aprire la finestra Risultato test. Per un confronto tra il punteggio di affidabilità di primo livello e la soglia di affidabilità, fare clic su
.
- Se è necessario integrare i dati di formazione per l'intento di livello superiore, fare clic su Vai all'intento superiore nel messaggio di avvertenza.
- Se si desidera determinare la quantità di espressioni rappresentate dal caso di test nei dati di formazione, fare clic su Visualizza espressioni simili.
È inoltre possibile verificare se una delle espressioni più simili all'espressione del caso di test sono anch'esse anomalie nel set di formazione eseguendo il report sulle anomalie.
Esecuzioni test esportate
Le esecuzioni dei test non vengono rese persistenti con la competenza, ma è possibile scaricarle nel sistema per l'analisi facendo clic su Esporta esecuzione test. Se gli intenti non risolvono più l'input dell'utente come previsto o se le modifiche alla piattaforma hanno un impatto negativo sulla risoluzione degli intenti, è possibile raccogliere i dettagli di una richiesta di servizio (richiesta di servizio) utilizzando i log delle esecuzioni di test esportate.
Test errore
I test dei guasti (o negativi) consentono di eseguire test di massa delle espressioni che non dovrebbero mai essere risolte, sia perché generano unresolvedIntent, sia perché si risolvono solo in altri intenti al di sotto della soglia di affidabilità per tutti gli intenti.
- Specificare unresolvedIntent come intento previsto per tutti i casi di test che si prevede non vengano risolti. Idealmente, queste frasi "false" rimarranno irrisolte.
- Se necessario, modificare la soglia di attendibilità quando si crea un'esecuzione di test per confermare che le frasi false (quelle con
unresolvedIntent
come intento previsto) possono essere risolte solo al di sotto del valore impostato qui. Ad esempio, l'aumento della soglia potrebbe comportare la mancata risoluzione delle frasi false a livello di attendibilità a qualsiasi intento (incluso unresolvedIntent), il che significa che passano perché sono considerate non risolte. - Esaminare i risultati del test, verificando che i casi di test passati corrispondendo a unresolvedIntent alla soglia o che non corrispondono a nessun intento (unresolvedIntent o altro) alla soglia.
Informazioni simili
È possibile scoprire quanto sia simile la frase di test alle espressioni nel corpus di formazione facendo clic su Visualizza espressioni simili. Questo strumento ti offre una prospettiva aggiuntiva sui dati di allenamento dell'abilità mostrandoti quanto siano simili le sue espressioni alla frase di test e, per estensione, quanto siano simili le espressioni tra loro attraverso gli intenti. Utilizzando questo strumento, è possibile scoprire se la somiglianza della frase di prova con espressioni appartenenti ad altri intenti è la ragione per cui la frase di prova non si risolve come previsto. Potrebbe anche indicare dove i dati di addestramento appartengono all'intento errato perché la somiglianza con la frase di test.
Descrizione dell'illustrazione similar-utterance-report-all-intents.png
L'elenco generato da questo strumento classifica 20 espressioni (insieme ai relativi intenti associati) che sono più vicine alla frase di test. Idealmente, l'espressione di alto livello in questa lista - quella più simile alla frase di test - appartiene all'intento che è mirato per la frase di test. Se l'espressione più vicina all'intento previsto è più bassa, una revisione dell'elenco potrebbe fornire alcuni suggerimenti sul perché. Ad esempio, se si sta testando un'espressione intento Transazioni, quanti soldi ho trasferito ieri?, ci si aspetterebbe che l'espressione di alto livello appartenga allo stesso modo a un intento Transazioni. Tuttavia, se questa affermazione del test sta risolvendo l'intento sbagliato, o risolvendo al di sotto del livello di fiducia, l'elenco potrebbe rivelare che ha più in comune con espressioni altamente classificate con parole simili che appartengono ad altri intenti. L'intento Saldi Quanto denaro ho in tutti i miei conti?, ad esempio, potrebbe essere più vicino all'espressione del test rispetto all'espressione quanto ho depositato in aprile? di livello inferiore dell'intento Transazioni.
È possibile utilizzare questo strumento solo per le competenze addestrate su Trainer Tm (non è disponibile per le competenze addestrate con Ht).
- Filtra per intento: restituisce 20 espressioni più vicine all'espressione del test che appartengono all'intento o agli intenti selezionati.
- Filtra per espressione: restituisce 20 delle espressioni più vicine all'espressione del test che contengono una parola o una frase.
- Lingua: per le competenze multilingue, è possibile eseguire query e filtrare il report selezionando una lingua.
L'applicazione di questi filtri non modifica le classificazioni, ma solo la vista. Un'espressione classificata al terzo posto, ad esempio, sarà indicata come tale indipendentemente dal filtro. Le classifiche e i contenuti del report cambiano solo dopo aver aggiornato il corpus e aver riqualificato l'abilità con Trainer Tm.