Formazione e test degli intenti

L'addestramento di un modello con il corpus di addestramento consente al bot di discernere ciò che gli utenti dicono (o, in alcuni casi, stanno cercando di dire).

È possibile migliorare l'acuità della cognizione attraverso cicli di test dell'intento e di formazione dell'intento. È possibile controllare l'addestramento solo tramite le definizioni degli intenti; lo skill non può imparare da solo dalla chat utente.

Test delle utenze

Ti consigliamo di mettere da parte il 20% del tuo corpus per test di intenti e utilizzare il restante 80% per addestrare i tuoi intenti. Mantieni separati questi due set in modo che le espressioni del test, che incorporerai nei casi di test, rimangano "sconosciute" per la tua abilità.

Applicare il frazionamento 80/20 al set di dati di ciascun intento. Randomizza le tue espressioni prima di fare questa divisione per consentire ai modelli di allenamento di pesare i termini e i modelli nelle espressioni allo stesso modo.

Il Tester dell'Utterance

Il Tester di Utterance è la tua finestra sulla cognizione della tua abilità. Inserendo frasi che non fanno parte del corpus di addestramento, puoi scoprire quanto bene hai creato i tuoi intenti esaminando il ranking di sicurezza degli intenti e il JSON restituito. Questa classifica, che è la stima della competenza per il candidato migliore per risolvere l'input dell'utente, dimostra la sua acutezza al momento corrente.
Segue la descrizione dell'immagine utterance-tester-quick-test.png
Descrizione dell'illustrazione utterance-tester-quick-test.png

Utilizzando Utterance Tester, è possibile eseguire test rapidi per i test una tantum, oppure è possibile incorporare un enunciato come caso di test per valutare la risoluzione degli intenti in diverse versioni dei modelli di allenamento.

Test rapidi

Per scoprire quanto bene funzionano i tuoi intenti:
  1. Fare clic su Test delle utenze (situato sul lato sinistro).
  2. Se la tua abilità supporta più lingue native, scegli la lingua di test. La scelta di questa opzione garantisce che l'espressione venga aggiunta alla versione linguistica corrispondente del corpus. La lingua principale dello skill è selezionata per impostazione predefinita.
  3. Immettere una stringa di testo.
  4. Fare clic su Test, quindi esaminare la classificazione e le entità rilevate nell'espressione (se presenti).
  5. Rivedere i punteggi di attendibilità degli intenti. (Le barre di avanzamento per ogni intento elencato sono verdi se soddisfano o superano il livello di affidabilità o rosse se sono insufficienti).
    Se il candidato di primo livello della tua abilità non è quello che ti aspetti, potresti dover riqualificare gli intenti dopo aver eseguito una o entrambe le seguenti operazioni:
    • Aggiornare il corpus del candidato migliore con il testo di input appena immesso: selezionare l'intento appropriato, quindi fare clic su Aggiungi a intento.

      Attenzione

      Considerare in che modo l'aggiunta di una nuova frase di test potrebbe influire sui dati di addestramento. L'aggiunta di una frase di prova può cambiare il modo in cui le espressioni simili vengono classificate dopo la riqualificazione. Inoltre, l'aggiunta di una frase di prova invalida il test, poiché l'incorporazione di una frase di prova nel set di addestramento garantisce che il test abbia esito positivo. Anziché aggiungere una frase di test ai dati di addestramento, è consigliabile salvarla come caso di test.
    • Nella pagina Intenti è possibile modificare un'espressione Modifica (Immagine del pulsante Modifica.) o rimuoverla. Un intento FAQ, ad esempio, potrebbe ricevere un rango superiore a causa dell'ambito e del fraseggio delle sue espressioni costituenti. Se non vuoi che i tuoi utenti ricevano una FAQ ogni volta che fanno domande tipiche, dovrai rivedere il corpus.

    È necessario riqualificare un intento ogni volta che si aggiunge, si modifica o si elimina un enunciato. Formazione necessaria Questa è un'immagine dell'indicatore Formazione necessaria. viene visualizzato ogni volta che si apportano modifiche ai dati di formazione.

  6. Se gli intenti non vengono risolti come previsto, è possibile espandere la finestra JSON per esaminare gli intenti, i punteggi e le entità rilevate corrispondenti nell'JSON restituito.
  7. Fare clic su Reset.

Test di esempio

Ogni test ha un enunciato e l'intento che si prevede di risolvere, che è noto come una corrispondenza di etichetta. Un caso di test può includere anche i valori di entità corrispondenti e la lingua prevista per l'espressione. È possibile eseguire casi di test quando si sta sviluppando una competenza e, successivamente, quando la competenza è in produzione, è possibile utilizzare i casi di test per i test di regressione. In quest'ultimo caso, è possibile eseguire casi di test per scoprire se una nuova release del modello di addestramento ha influito negativamente sulla risoluzione degli intenti.

Analogamente ai casi di test creati con il Tester conversazione, i casi di test dell'espressione fanno parte della competenza e vengono riportati insieme a ogni versione. Se si estende uno skill, l'estensione eredita i casi di test. Mentre i casi di test di conversazione sono destinati a testare uno scenario, i casi di test di pronuncia sono destinati a testare i frammenti di una conversazione in modo indipendente, assicurando che ogni enunciato si risolva all'intento corretto.

Gestisci casi di test

Nella pagina Casi di test, a cui si accede facendo clic su Vai a casi di test nel tester di utenza, sono elencate le suite di test e i casi di test che vi appartengono. Le suite di test possono essere quelle create dall'utente o ereditate da uno skill esteso o clonato. Oltre a modificare, aggiungere e rimuovere i casi di test, è possibile utilizzare questa pagina per compilare i casi di test nelle esecuzioni di test. Per impostazione predefinita, è selezionata l'opzione Tutto, che visualizza tutti i casi di test. Se si desidera limitare la visualizzazione solo ai casi di test appartenenti a un'unica suite di test, è possibile selezionare la suite di test dall'elenco delle suite di test oppure filtrare l'elenco utilizzando una corrispondenza completa o parziale del nome della suite di test. La vista suite di test consente di gestire i casi di test dei membri della suite dalla scheda Casi di test. Nella scheda Generale è possibile, oltre ad aggiornare il nome e la descrizione della suite di test, escludere la suite di test da un'esecuzione di test disattivando Abilita suite di test. Disattivando Includi in esportazione skill, è possibile impedire che la suite di test venga inclusa nella cartella nluTestSuites che ospita le suite di test dello skill quando lo skill viene esportato.

Crea suite di test

Tutti i casi di test appartengono a una suite di test. Forniamo una suite di test predefinita, ma è possibile partizionare i test creando suite di test personalizzate. È possibile creare suite di test manualmente o importando un file CSV. Per creare manualmente una suite di test:
  1. Fare clic su + Suite di test.
  2. Nella scheda Generale, sostituire il nome del segnaposto (TestSuite0001, ad esempio) con uno più significativo aggiungendo un valore nel campo Nome visualizzato.
  3. Facoltativamente, aggiungere una descrizione che spieghi le funzionalità coperte dalla suite di test.
  4. Popolare la suite di test con i casi di test utilizzando uno qualsiasi (o una combinazione di ) i seguenti metodi:
    • Aggiunta manuale di casi di test (creando un caso di test o salvando un'espressione come caso di test dal tester di uterina).
    • Importazione dei casi di test.
      Nota

      Per assegnare un caso di test a una suite di test tramite importazione, il campo testSuite del file CSV può essere vuoto oppure deve contenere un nome corrispondente alla suite di test selezionata nella finestra di dialogo di importazione.
    • Modifica di un caso di test per riassegnare la suite di test.
  5. Se si desidera escludere la suite di test dalle esecuzioni di test avviate utilizzando le opzioni Tutto e Esegui tutto, disattivare Abilita suite di test.
  6. Se non si desidera includere la suite di test nell'esportazione delle competenze, disattivare Includi nell'esportazione delle competenze. Quando si disattiva questa opzione per una suite di test, questa non verrà inclusa nella cartella nluTestSuites che ospita le suite di test dello skill nel file ZIP esportato.

Crea casi di test di utenza

È possibile aggiungere casi di test uno alla volta utilizzando il tester di utenza o la finestra di dialogo Nuovo caso di test (a cui è possibile accedere facendo clic su + caso di test) oppure aggiungerli in blocco caricando un file CSV.

Ogni caso di test deve appartenere a una suite di test, quindi prima di creare un caso di test, è possibile creare una suite di test che rifletta una capacità della competenza o un aspetto del test degli intenti, ad esempio test di errore, test nel dominio o test fuori dominio.

Forniamo una suite chiamata Default Test Suite. È possibile assegnare casi di test a questa suite di test se non ne sono stati ancora creati altri. Successivamente, è possibile modificare il caso di test per riassegnarlo a una nuova suite di test.

Suggerimento:

Per fornire una copertura adeguata nei tuoi test, crea espressioni della suite di test che non sono solo variate concettualmente, ma anche grammaticamente poiché gli utenti non faranno richieste in modo uniforme. È possibile aggiungere queste dimensioni creando suite di test dal messaggio utente effettivo su cui è stata eseguita una query in Insights Retrainer e anche da input provenienti da gruppi di dati raccolti da Data Manufacturing.

Aggiungi casi di test dal tester di utenza

Oltre ad aggiungere espressioni al corpus di addestramento, è possibile utilizzare la pagina Test rapido per creare un caso di test:
  1. Fare clic su Test delle utenze.
  2. Se la competenza è multilingue, selezionare la lingua nativa.
  3. Immettere l'espressione, quindi fare clic su Test.
  4. Fare clic su Salva come caso di test, quindi scegliere una suite di test.

Crea un caso di prova

Per creare un singolo caso di test:
  1. Fare clic su Vai a casi di test nel tester di utenza.
  2. Fare clic su + Caso di test.
  3. Completare la finestra di dialogo Nuovo caso di test:
    • Se necessario, disabilitare il caso di test.
    • Immettere l'espressione del test.
    • Selezionare la suite di test.
    • Selezionare l'intento previsto. Se si sta creando un caso di test per il test degli errori, selezionare unresolvedIntent.
    • Per le competenze multilingue, selezionare il tag della lingua e la lingua prevista.
  4. Fare clic su Aggiungi a suite. Nella pagina Casi di test è possibile eliminare un caso di test o modificare un caso di test, che include la riassegnazione del caso di test a una suite di test diversa.

  5. Per eseguire il test dei valori entità:
    • Attivare Entità di test. Quindi fare clic su Continua.
    • Evidenziare la parola o le parole, quindi applicare un'etichetta di entità selezionando un'entità dall'elenco. Al termine, fare clic su Aggiungi a suite.
      Nota

      Dopo aver abilitato Entità di test, selezionare sempre parole o frasi dall'espressione del caso di test. Il caso di test non riuscirà se sono state abilitate le entità di test ma non sono state evidenziate parole.


Importa casi di test per suite di test a livello di skill

Dalla pagina Casi di test (a cui è possibile accedere facendo clic su Vai a casi di test nel tester di utenza), è possibile aggiungere in blocco le suite di test e i relativi casi caricando un file CSV con i seguenti campi:
  • testSuite: il nome della suite di test a cui appartiene il caso di test. Il campo testSuite in ogni riga del file CSV può avere un nome di suite di test diverso o essere vuoto.
    • I casi di test con campi testSuite vuoti vengono aggiunti a una suite di test selezionata quando si importa il file CSV. Se non si seleziona una suite di test, questa verrà assegnata alla suite di test predefinita.
    • I casi di test con campi testSuite popolati vengono assegnati alla suite di test selezionata quando si importa il file CSV solo quando il nome della suite di test selezionata corrisponde al nome nel campo testSuite.
    • Se una suite di test con il nome di quella specificata nel campo testSuite non esiste già, verrà creata dopo l'importazione del file CSV.
  • utterance – Un esempio (richiesto). È mappato a query nelle versioni precedenti alla 21.04 di Oracle Digital Assistant.
  • expectedIntent: l'intento corrispondente (obbligatorio). Questo campo è mappato a TopIntent nelle versioni precedenti alla 21.04 di Oracle Digital Assistant.

    Suggerimento:

    L'importazione delle versioni precedenti alla 21.04 del file CSV indica come riformattare i file CSV precedenti alla 21.04 in modo da poterli utilizzare per i test di massa.
  • enabled: TRUE include il caso di test nell'esecuzione del test. FALSE lo esclude.
  • languageTag: il tag della lingua (en, ad esempio). Quando non c'è valore, la lingua rilevata dalle impostazioni della lingua dell'abilità viene utilizzata per impostazione predefinita.
  • expectedLanguageTag (facoltativo): per le competenze multilingue, questo è il tag della lingua che si desidera utilizzare per il modello quando si risolve l'espressione del test in un intento. Affinché il caso di test venga superato, questo tag deve corrispondere alla lingua rilevata.
  • expectedEntities: le entità corrispondenti nell'espressione del caso di test, rappresentate come array di oggetti entityName. Ogni entityName identifica la posizione del valore dell'entità nell'espressione utilizzando le proprietà beginOffset e endOffset. Questo offset è determinato dal carattere, non dalla parola, ed è calcolato dal primo carattere dell'espressione (0-1). Ad esempio, l'oggetto entityName per il valore dell'entità PizzaSize di piccole dimensioni in Voglio ordinare una pizza piccola è:
    [{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]


Per importare questo CSV:
  1. Fare clic su Altro, quindi selezionare Importa.
  2. Individuare, quindi selezionare il CSV.
  3. Scegliere la suite di test. Il caso di test può essere assegnato alla suite di test selezionata solo se il campo testSuite è vuoto o corrisponde al nome della suite di test selezionata.
  4. Fare clic su Carica.
Importazione delle versioni precedenti alla 21.04 del CSV
I casi di test importati tramite le versioni precedenti alla 21.04 dei file CSV, con i campi query e TopIntent, vengono aggiunti solo alla suite di test predefinita. È possibile riassegnare questi casi di test ad altre suite di test singolarmente modificandoli dopo aver importato il file CSV oppure è possibile aggiornare il file CSV nel formato corrente e quindi modificarlo prima di importarlo come indicato di seguito.
  1. Fare clic su Altro > Importa.
  2. Al termine dell'importazione, selezionare Suite di test predefinita, quindi fare clic su Altro > Esporta suite selezionata. Il file esportato verrà convertito nel formato corrente.
  3. Estrarre il file ZIP e modificare il CSV. Al termine, importare di nuovo il file CSV (Altro > Importa). Potrebbe essere necessario eliminare i casi di test duplicati dalla suite di test predefinita.
    Nota

    Se si carica lo stesso file CSV più volte con modifiche minori, tutti i dati nuovi o aggiornati verranno uniti al vecchio: vengono applicati nuovi aggiornamenti e vengono inserite nuove righe. Tuttavia, non è possibile eliminare espressioni caricando un nuovo CSV. Se è necessario eliminare le espressioni, è necessario eliminarle manualmente dall'interfaccia utente.

Crea esecuzioni test

Le esecuzioni dei test sono una raccolta di casi di test o suite di test volti a valutare alcuni aspetti della cognizione dell'abilità. Il contenuto (e il volume) di un'esecuzione di test dipende dalla capacità che si desidera testare, pertanto un'esecuzione di test potrebbe includere un sottoinsieme di casi di test da una suite di test, una suite di test completa o più suite di test.

I casi di test inclusi in un'esecuzione di test vengono valutati in base alla soglia di affidabilità impostata per lo skill. Affinché un caso di test venga superato durante l'esecuzione del test complessivo, deve essere risolto in base all'intento previsto pari o superiore alla soglia di affidabilità. Se specificato, il caso di test deve soddisfare anche il valore dell'entità e i criteri di corrispondenza della lingua. Esaminando i risultati dell'esecuzione del test, è possibile scoprire se le modifiche apportate alla piattaforma o all'abilità stessa hanno compromesso l'accuratezza della risoluzione dell'intento.

Oltre a testare il modello, è anche possibile utilizzare i risultati dell'esecuzione del test per valutare l'affidabilità dei test. Ad esempio, i risultati che mostrano che quasi tutti i casi di test sono passati potrebbero, sulla superficie, indicare un funzionamento ottimale del modello. Tuttavia, una revisione dei casi di test superati può rivelare che i casi di test non riflettono l'allenamento corrente perché le loro espressioni sono troppo semplici o hanno una sovrapposizione significativa in termini di concetti e termini per cui stanno testando. Un numero elevato di test falliti, d'altra parte, potrebbe indicare carenze nei dati di addestramento, ma una revisione di questi casi di test potrebbe rivelare che le loro espressioni sono accoppiate con gli intenti previsti sbagliati.

Per creare un'esecuzione di test:
  1. Fare clic su Esegui tutto per creare un'esecuzione di test per tutti i casi di test in una suite di test selezionata. Oppure, se si desidera eseguire tutte le suite di test, selezionare Tutto, quindi fare clic su Esegui tutto.

  2. Immettere un nome di esecuzione test che rifletta l'oggetto del test. Questo passo è facoltativo.
  3. Fare clic su Start

  4. Fare clic su Risultati test, quindi selezionare l'esecuzione del test.

    Suggerimento:

    Il completamento delle esecuzioni di test contenenti un numero elevato di casi di test potrebbe richiedere alcuni minuti. Per queste esecuzioni di test di grandi dimensioni, potrebbe essere necessario fare clic periodicamente su Refresh fino al completamento del test. Una percentuale sostituisce lo stato In corso per la metrica Precisione e il report Intenti viene visualizzato dopo che tutti i casi di test sono stati valutati.


  5. Esaminare i report sull'esecuzione dei test. Ad esempio, esaminare prima le metriche di alto livello per l'esecuzione del test fornite dal report Panoramica. Successivamente, convalidare i risultati del test rispetto ai casi di test effettivi filtrando il report Casi di test, che elenca tutti i casi di test inclusi nell'esecuzione del test, per i casi di test passati e non riusciti. È quindi possibile esaminare i risultati dei singoli casi di test. È inoltre possibile confrontare il punteggio di precisione nel rapporto Panoramica con il punteggio di precisione nel report Intenti, che misura la capacità del modello di prevedere gli intenti corretti. Per esaminare i casi di test elencati in questo report, aprire il report Casi di test e filtrare in base agli intenti.

Report sintetico esecuzione test

Il rapporto Sintetico fornisce una valutazione complessiva del modo in cui il modello è in grado di gestire correttamente il tipo di input dell'utente coperto nell'esecuzione del test. Per le suite di test incluse nell'esecuzione del test, mostra il numero totale di casi di test utilizzati per valutare il modello e, da tale totale, sia il numero di casi di test (sia affidabili che inaffidabili) che non sono riusciti insieme al numero di casi di test affidabili e inaffidabili passati. L'accuratezza complessiva del modello, ovvero la capacità di prevedere gli intenti previsti al livello di affidabilità o superiore a quello dello skill, di riconoscere i valori delle entità e di risolvere le espressioni nella lingua dello skill, viene misurata in base al tasso di successo dei test superati nell'esecuzione del test.
Segue la descrizione dell'immagine test-run-test-results-summary.png
Descrizione dell'illustrazione test-run-test-results-summary.png

Metriche report sintetico
Il report Riepilogo include le metriche riportate di seguito.
  • Accuratezza: l'accuratezza del modello in termini di tasso di successo dei casi di test superati (il numero di casi di test superati rispetto al numero totale di casi di test inclusi nell'esecuzione del test).
    Nota

    I casi di test disabilitati non vengono presi in considerazione nel punteggio di precisione. I test non sono riusciti a causa di errori. Qualsiasi test non riuscito viene invece aggiunto al conteggio degli errori.

    Un punteggio di precisione basso potrebbe indicare che l'esecuzione del test sta valutando il modello su concetti e linguaggio non adeguatamente supportati dai dati di addestramento. Per aumentare il punteggio di precisione, riaddestrare il modello con espressioni che riflettono i casi di test durante l'esecuzione del test.

    Questa metrica Accuratezza si applica all'intera esecuzione del test e fornisce un punteggio separato dalla metrica Accuratezza nel report Intenti. Metrica che indica la percentuale di casi di test in cui il modello ha superato tutti i criteri del caso di test. Il punteggio di precisione nel rapporto Intenti, invece, non è un test end-to-end. È la percentuale di casi di test in cui il modello doveva solo prevedere l'intento previsto in corrispondenza o al di sopra della soglia di affidabilità dello skill. Altri criteri del caso di test (come il valore enity o la lingua skill) non vengono presi in considerazione. Tenuto conto dei diversi criteri che un caso di test di superamento comporta per questi due rapporti, i rispettivi punteggi di precisione potrebbero non essere sempre al passo. Il punteggio di precisione dell'intento può essere superiore al punteggio complessivo dell'esecuzione del test quando i dati del test non sono allineati ai dati dell'addestramento. Ritirare il modello con espressioni che supportano i casi di test gli consentirà di prevedere gli intenti previsti con maggiore sicurezza che, a sua volta, aumenterà il punteggio di precisione per l'esecuzione del test.

    Nota

    La metrica Precisione non è disponibile fino al completamento dell'esecuzione del test e non è disponibile per le esecuzioni di test completate quando la competenza è stata eseguita su versioni precedenti alla 22.12 della piattaforma Oracle Digital Assistant.
  • Casi di test: il numero totale di casi di test (sia affidabili che non affidabili) inclusi nell'esecuzione del test. I casi di test saltati sono inclusi in questo conteggio, ma non vengono considerati durante il calcolo della metrica Accuratezza.
  • Superato: numero di casi di test (sia affidabili che inaffidabili) passati risolvendo l'intento alla soglia di attendibilità e abbinando i valori o la lingua dell'entità selezionata.
  • Non riuscito: numero di casi di test (affidabilità e inaffidabilità del bot) che non sono riusciti a risolvere l'intento previsto alla soglia di affidabilità e non hanno trovato corrispondenza con i valori o la lingua dell'entità selezionata.

    Per esaminare i casi di test effettivi dietro le metriche Superato e Non riuscito in questo report, aprire il report Casi di test e quindi applicare i filtri Superato o Non riuscito.
    Segue la descrizione dell'immagine test-runs-intent-report.png
    Descrizione dell'immagine test-runs-intent-report.png

Analisi stratificata suite di test

Nella tabella Analisi stratificata suite di test sono elencate le suite di test incluse nell'esecuzione del test e le rispettive statistiche individuali. È possibile esaminare i casi di test effettivi appartenenti a una suite di test facendo clic sul collegamento nella colonna Suite di test.
Segue la descrizione dell'immagine test-suite-breakdown.png
Descrizione dell'illustrazione test-suite-breakdown.png

Report intenti

Le metriche in questo report tengono traccia delle corrispondenze dell'etichetta del modello in tutti i casi di test dell'esecuzione del test. È qui che il modello prevede correttamente l'intento previsto per l'espressione del caso di test. Nell'ambito del presente rapporto, l'accuratezza, il superamento e l'inadempienza sono misurati in termini di casi di test in cui il modello prevedeva l'intento previsto corretto alla soglia di affidabilità o superiore a tale soglia. Non vengono presi in considerazione altri criteri presi in considerazione nel report di riepilogo, ad esempio le corrispondenze dei valori entità o la lingua skill. Di conseguenza, questo report fornisce una visione diversa dell'accuratezza del modello, che consente di verificare se l'addestramento corrente consente al modello di prevedere in modo coerente gli intenti corretti.

Questo report fornisce metriche di corrispondenza etichetta (o intento) per l'esecuzione del test a due livelli: uno che aggrega i risultati per l'esecuzione del test e uno che separa questi risultati per intento.
Nota

Questo report non è disponibile per le esecuzioni di test completate quando lo skill è stato eseguito su una versione precedente alla 22.12 della piattaforma Oracle Digital Assistant.
Metriche report intenti
I risultati complessivi dell'intent-matching includono:
  • Casi di test: numero di casi di test inclusi in questa esecuzione di test. Questo totale include sia casi di test affidabili che inaffidabili. I casi di test saltati non sono inclusi in questo conteggio.

    Suggerimento:

    I collegamenti dei casi di test inaffidabili per le metriche Casi di test, Superati e Non riusciti consentono di aprire il report Casi di test filtrato in base a casi di test inaffidabili. Questa navigazione non è disponibile quando si filtra il report per suite di test.
  • Accuratezza: l'accuratezza del modello nella corrispondenza dell'intento previsto o superiore alla soglia di affidabilità dello skill nei casi di test in questa esecuzione del test. La metrica secondaria Corrispondenza etichetta rappresenta la percentuale di casi di test nell'esecuzione del test in cui il modello ha previsto correttamente l'intento previsto, indipendentemente dal punteggio di affidabilità. Poiché i fattori Label Match nei casi di test non riusciti insieme ai casi di test superati, il suo punteggio può essere superiore al punteggio di precisione.
    È possibile confrontare questa metrica Precisione con la metrica Precisione del report Sintetico. Quando il punteggio di precisione nel report Riepilogo è basso, è possibile utilizzare questo report per scoprire rapidamente se gli errori del modello possono essere attribuiti alla sua incapacità di prevedere l'intento previsto. Quando il punteggio di precisione in questo report è elevato, tuttavia, è possibile escludere la corrispondenza delle etichette come radice del problema e, piuttosto che dover rivedere pesantemente i dati di addestramento per aumentare il punteggio di precisione dell'esecuzione del test, è invece possibile concentrarsi sull'aggiunta di espressioni che riflettono i concetti e il linguaggio nelle espressioni del caso di test.
  • Superato: il numero di casi di test (affidabili e inaffidabili) in cui il modello prevedeva l'intento previsto alla soglia di affidabilità dello skill.
  • Non riuscito: il numero di casi di test (affidabili e inaffidabili) in cui il modello prevedeva l'intento previsto al di sotto della soglia di affidabilità dello skill.
  • Confidence Pass: una media dei punteggi di affidabilità per tutti i casi di test passati in questa esecuzione di test.
  • Errore di affidabilità: media dei punteggi di affidabilità per tutti i casi di test non riusciti in questa esecuzione di test.
Nota

Quando si filtra il report Intenti per suite di test, l'accesso al report Casi di test dai collegamenti caso di test inaffidabili nelle caselle Casi di test, Superato e Non riuscito non è disponibile. Questi collegamenti diventano nuovamente attivi quando si rimuovono tutte le voci dal campo Filtra per suite di test.
Filtra per suite di test
I risultati predefiniti del report Intenti riflettono tutte le suite di test incluse nell'esecuzione del test. Allo stesso modo, le relative metriche si basano su tutti i casi di test abilitati che appartengono a queste suite di test. Se si desidera analizzare in dettaglio le prestazioni delle singole suite di test (ed in sostanza creare un confronto con la tabella Dettagli suite di test del report di riepilogo), non è necessario creare esecuzioni di test aggiuntive. È invece possibile isolare i risultati per la suite di test (o suite di test) in questione utilizzando il campo Filtra per suite di test. È possibile aggiungere una o più suite di test a questo campo.
Immagine del campo Filtra per suite di test.

Il report regola le metriche per ogni suite di test aggiunta (o successivamente rimossa). Tabula i risultati della corrispondenza degli intenti in base al numero di casi di test abilitati che appartengono alla suite di test selezionata.
Nota

Non è possibile filtrare in base alle suite di test eseguite su una piattaforma prima della versione 23.06. Per includere queste suite di test, è necessario eseguirle di nuovo dopo l'aggiornamento alle versioni 23.06 o successive.
Nota

Il filtro per suite di test disabilita la navigazione al report Casi di test dai collegamenti dei casi di test inaffidabili nelle caselle Casi di test, Superati e Non riusciti. Vengono disabilitati anche i collegamenti nella colonna Totale dell'analisi stratificata degli intenti. Tutti questi collegamenti diventano nuovamente attivi dopo la rimozione di tutte le voci dal campo Filtra per suite di test.
Analisi stratificata intenti
La tabella Analisi stratificata intenti del report fornisce le seguenti metriche di livello superiore per gli intenti previsti indicati nei casi di test dell'esecuzione del test. È possibile limitare lo stato attivo selezionando i nomi di questi intenti nel campo Filtra per intenti.
Nota

Il campo Filtra per intento modifica la vista della tabella Analisi stratificata intenti, ma non modifica le metriche globali del report. Queste metriche riflettono le voci (o la mancanza di voci) nel campo Filtra per suite di test.
  • Intento: nome dell'intento previsto.
  • Totale: il numero di casi di test, rappresentati come collegamento, per l'intento previsto. È possibile passare al report Casi di test facendo clic su questo collegamento.
    Nota

    Non è possibile passare al report Casi di test quando è stato applicato un filtro della suite di test a questo report. Questo collegamento diventa nuovamente attivo quando si rimuovono tutte le voci dal campo Filtra per suite di test.
  • Accuratezza: la percentuale di casi di test che hanno determinato corrispondenze di etichette per l'intento previsto in corrispondenza o al di sopra della soglia di affidabilità dello skill.
  • Superato: il numero di casi di test (inclusi i casi di test inaffidabili) in cui il modello prevedeva l'intento previsto o superiore alla soglia di affidabilità dello skill.
  • Superato - Inaffidabile - Il numero di casi di test in cui il modello prevedeva l'intento previsto al 5% o meno sopra la soglia di affidabilità dello skill.
  • Non riuscito: il numero di casi di test nell'esecuzione del test non riusciti perché il modello prevedeva l'intento previsto al di sotto della soglia di affidabilità dello skill.
  • Non riuscito - Inaffidabile - Il numero di casi di test non riusciti perché la fiducia del modello nella previsione dell'intento previsto è scesa del 5% al di sotto della soglia di affidabilità dello skill. Questi casi di prova possono tenere conto
  • Corrispondenza etichetta: numero di casi di test in cui il modello ha previsto correttamente l'intento previsto, indipendentemente dal livello di attendibilità. Poiché tiene conto dei casi di test non riusciti, i punteggi di corrispondenza e precisione dell'etichetta potrebbero non essere sempre al passo tra loro. Ad esempio, quattro casi di test superati su cinque determinano un punteggio di precisione dell'80% per l'intento. Tuttavia, se il modello prevedeva correttamente l'intento per il caso di test in cui si è verificato l'errore, Label Match supererebbe l'accuratezza del 20%.
  • Confidence Pass: media dei punteggi di affidabilità per tutti i casi di test che corrispondono correttamente all'intento previsto.
  • Errore di affidabilità: media dei punteggi di affidabilità per tutti i casi di test che non corrispondono all'intento previsto.

    Suggerimento:

    Per esaminare i casi di test effettivi, aprire il report Casi di test e il filtro in base all'intento.

Report casi di test

Questo report elenca tutti i casi di test inclusi nell'esecuzione del test.
  1. È possibile filtrare i risultati facendo clic su Tutto, su Superato (verde) o su Non riuscito (rosso). I casi di test conteggiati come saltati includono sia casi di test disabilitati che casi di test in cui l'intento previsto è stato disabilitato.

    È possibile filtrare i risultati in base a casi di test inaffidabili facendo clic su Mostra casi inaffidabili nel messaggio di avvertenza oppure selezionando il filtro Solo casi inaffidabili.
  2. Se necessario, filtrare i risultati per un intento o un'entità specifica o per casi di test affidabili o inaffidabili.
  3. Per i casi di test inaffidabili e non riusciti, fare clic su Visualizza espressioni simili (situato nella pagina Informazioni test) per scoprire se l'espressione del caso di test ha qualsiasi somiglianza con le espressioni nel set di formazione.
    Immagine del pulsante Visualizza espressioni simili.

  4. Controllare i seguenti risultati:
    • Informazioni sul test: presenta la panoramica del caso di test, inclusa la soglia di affidabilità target, l'intento previsto e i valori delle entità corrispondenti.
    • Risultato test: classificazione dell'intento in base al livello di attendibilità. Quando è presente, il rapporto identifica anche le entità contenute nell'espressione per nome e valore dell'entità. È inoltre possibile visualizzare l'oggetto JSON contenente i risultati completi.
    • Analisi dei guasti: spiega perché il caso di test non è riuscito. Ad esempio, l'intento effettivo non è l'intento previsto, il valore dell'entità etichettata nel caso di test non corrisponde all'entità risolta o la lingua prevista non è uguale alla lingua rilevata.
Casi di test inaffidabili

Alcuni casi di test non possono fornire risultati coerenti perché si risolvono entro il 5% o meno della soglia di affidabilità. Questo margine ridotto rende questi casi di test inaffidabili. Quando la soglia di affidabilità della competenza è impostata su 0,7, ad esempio, un caso di test che passa al 74% potrebbe non riuscire dopo aver apportato solo piccole modifiche ai dati di allenamento o perché la competenza è stata aggiornata a una nuova versione del modello. La fragilità di questi casi di test può indicare che le affermazioni che rappresentano nei dati di addestramento potrebbero essere troppo poche e che potrebbe essere necessario bilanciare i dati di addestramento dell'intento con espressioni simili.

Per individuare i casi di test inaffidabili:
  1. Eseguire la suite di test. Quindi fare clic su Risultati test e selezionare l'esecuzione del test. I casi di test inaffidabili vengono ordinati all'inizio dei risultati dell'esecuzione del test e vengono contrassegnati con avvertenzeImmagine dell'icona di avvertenza..

  2. Per isolare i casi di test inaffidabili:
    • Fare clic su Mostra i casi inaffidabili nel messaggio.
      Questa è un'immagine del link Mostrami i casi inaffidabili.

    • Selezionare Solo casi inaffidabili dal menu Filtra per casi.
      Questa è un'immagine dell'opzione di filtro Solo casi inaffidabili.

  3. Per individuare la prossimità dell'intento di livello superiore del caso di test alla soglia di affidabilità, aprire la finestra Risultato test. Per un confronto tra il punteggio di affidabilità di primo livello e la soglia di affidabilità, fare clic su Immagine dell'icona di avvertenza. .

  4. Se è necessario integrare i dati di formazione per l'intento di livello superiore, fare clic su Vai all'intento superiore nel messaggio di avvertenza.
    Immagine del collegamento Vai all'intento superiore nel messaggio di avvertenza.

  5. Se si desidera determinare la quantità di espressioni rappresentate dal caso di test nei dati di formazione, fare clic su Visualizza espressioni simili.

    È inoltre possibile verificare se una delle espressioni più simili all'espressione del caso di test sono anch'esse anomalie nel set di formazione eseguendo il report sulle anomalie.

Esecuzioni test esportate

Le esecuzioni dei test non vengono rese persistenti con la competenza, ma è possibile scaricarle nel sistema per l'analisi facendo clic su Esporta esecuzione test. Se gli intenti non risolvono più l'input dell'utente come previsto o se le modifiche alla piattaforma hanno un impatto negativo sulla risoluzione degli intenti, è possibile raccogliere i dettagli di una richiesta di servizio (richiesta di servizio) utilizzando i log delle esecuzioni di test esportate.

Test errore

I test dei guasti (o negativi) consentono di eseguire test di massa delle espressioni che non dovrebbero mai essere risolte, sia perché generano unresolvedIntent, sia perché si risolvono solo in altri intenti al di sotto della soglia di affidabilità per tutti gli intenti.

Per eseguire il test degli errori:
  • Specificare unresolvedIntent come intento previsto per tutti i casi di test che si prevede non vengano risolti. Idealmente, queste frasi "false" rimarranno irrisolte.

  • Se necessario, modificare la soglia di attendibilità quando si crea un'esecuzione di test per confermare che le frasi false (quelle con unresolvedIntent come intento previsto) possono essere risolte solo al di sotto del valore impostato qui. Ad esempio, l'aumento della soglia potrebbe comportare la mancata risoluzione delle frasi false a livello di attendibilità a qualsiasi intento (incluso unresolvedIntent), il che significa che passano perché sono considerate non risolte.
  • Esaminare i risultati del test, verificando che i casi di test passati corrispondendo a unresolvedIntent alla soglia o che non corrispondono a nessun intento (unresolvedIntent o altro) alla soglia.

Informazioni simili

È possibile scoprire quanto sia simile la frase di test alle espressioni nel corpus di formazione facendo clic su Visualizza espressioni simili. Questo strumento ti offre una prospettiva aggiuntiva sui dati di allenamento dell'abilità mostrandoti quanto siano simili le sue espressioni alla frase di test e, per estensione, quanto siano simili le espressioni tra loro attraverso gli intenti. Utilizzando questo strumento, è possibile scoprire se la somiglianza della frase di prova con espressioni appartenenti ad altri intenti è la ragione per cui la frase di prova non si risolve come previsto. Potrebbe anche indicare dove i dati di addestramento appartengono all'intento errato perché la somiglianza con la frase di test.
Segue la descrizione dell'immagine similar-utterance-report-all-intents.png
Descrizione dell'illustrazione similar-utterance-report-all-intents.png

L'elenco generato da questo strumento classifica 20 espressioni (insieme ai relativi intenti associati) che sono più vicine alla frase di test. Idealmente, l'espressione di alto livello in questa lista - quella più simile alla frase di test - appartiene all'intento che è mirato per la frase di test. Se l'espressione più vicina all'intento previsto è più bassa, una revisione dell'elenco potrebbe fornire alcuni suggerimenti sul perché. Ad esempio, se si sta testando un'espressione intento Transazioni, quanti soldi ho trasferito ieri?, ci si aspetterebbe che l'espressione di alto livello appartenga allo stesso modo a un intento Transazioni. Tuttavia, se questa affermazione del test sta risolvendo l'intento sbagliato, o risolvendo al di sotto del livello di fiducia, l'elenco potrebbe rivelare che ha più in comune con espressioni altamente classificate con parole simili che appartengono ad altri intenti. L'intento Saldi Quanto denaro ho in tutti i miei conti?, ad esempio, potrebbe essere più vicino all'espressione del test rispetto all'espressione quanto ho depositato in aprile? di livello inferiore dell'intento Transazioni.

È possibile accedere all'elenco, generato per gli skill formati su Trainer Tm, facendo clic su Visualizza espressioni simili nel tester di utenza o nel report Casi di test.

Nota

È possibile utilizzare questo strumento solo per le competenze addestrate su Trainer Tm (non è disponibile per le competenze addestrate con Ht).
È possibile eseguire query sulle espressioni sia dal Tester di Utterance che attraverso il test nello strumento Visualizza espressioni simili. Quando si fa clic su Visualizza espressioni simili, l'intero corpus viene confrontato con la frase di test e viene applicata una classificazione a ogni espressione. Poiché non vengono applicati filtri per impostazione predefinita, tuttavia, l'elenco include solo le 20 espressioni di primo livello e le numera in sequenza. Per scoprire come le espressioni classificate 21 e più in alto rispetto, è necessario utilizzare i filtri. Applicando i seguenti filtri, è possibile apprendere la vicinanza di espressioni simili all'interno della classifica in termini di lingua, intenti a cui appartengono o parole o frasi che hanno in comune.
Nota

L'applicazione di questi filtri non modifica le classificazioni, ma solo la vista. Un'espressione classificata al terzo posto, ad esempio, sarà indicata come tale indipendentemente dal filtro. Le classifiche e i contenuti del report cambiano solo dopo aver aggiornato il corpus e aver riqualificato l'abilità con Trainer Tm.