Test modello

Ecco alcune best practice per testare il tuo modello per la comprensione del linguaggio naturale.

Dovrai testare la comprensione del tuo modello per ogni abilità e successivamente per l'assistente digitale nel suo complesso. Un modello ben addestrato in un'abilità che capisce come mappare correttamente i messaggi in-domain a un intento e che non risponde ai messaggi non-domain è un pilastro importante di un assistente digitale ben addestrato.

Oracle Digital Assistant fornisce un tester completo nelle sue competenze che ti consente di eseguire test manuali e batch per determinare in che modo il modello risolve gli intenti dai messaggi utente. Per il test in batch, è dove si utilizza il 20% delle espressioni definite per un intento ma che si è trattenuto per il test.

In generale, dovresti testare i tuoi modelli spesso e presto, ma non prima di avere abbastanza buone espressioni per gli intenti dell'abilità. L'obiettivo dei tuoi test è che il modello ottenga un alto livello di fiducia nella risoluzione degli intenti.

Creare una baseline

Una volta completato lo sviluppo, è necessario eseguire i test e utilizzare i risultati per stabilire una base del livello di comprensione del modello. È possibile utilizzare tale baseline come punto di confronto quando si aggiorna il modello di formazione con espressioni aggiuntive e migliorate e quando in seguito si esegue il test della competenza sulle versioni aggiornate della piattaforma Digital Assistant. Per questi e futuri test, è necessario un modello che sia addestrato con un numero sufficiente di espressioni di qualità.

Esegui test positivi e negativi

Dovresti avere sia test positivi che negativi:

  • Nei test positivi, vuoi che le espressioni si risolvano nell'intento che hai designato. Più test passano, meglio il modello viene addestrato.

  • Per i test negativi, vuoi che le espressioni non si risolvano. I test negativi ti aiutano a stringere i confini della comprensione per un intento.

Ad esempio, per un test positivo, si supponga che in una nota spese si stia testando l'intento "creare spese". Tutte le espressioni in un test positivo contengono messaggi che dovrebbero risolvere questo intento. Quindi, più test passano, meglio il modello viene addestrato.

I test negativi includono i seguenti tipi di test:

  • Prove vicine: prova un intento con le espressioni che hai creato per testare gli altri intenti in un'abilità.

  • Test fuori dominio: con questi test provi espressioni che semanticamente non appartengono all'intento ma usano parole simili. Ad esempio, una nota spese dovrebbe comprendere "Ho acquistato un calendario familiare per lavoro" come utente che richiede di presentare una nuova spesa, ma non dovrebbe rispondere a "creare una nuova voce nel mio calendario familiare".

  • Test di frasi casuali: provare messaggi casuali non dovrebbe risolversi nell'intento che testate. Ad esempio, "la taglierina per biscotti taglia i biscotti" o "Sono su una scala verso il cielo" non dovrebbe portare a una corrispondenza per l'intento di "creare spese".

Elenco di controllo per test modello

  • ☑ Effettuare i test in anticipo e spesso.
  • ☑ Non sottoporre a test un modello non addestrato.
  • ☑ Utilizzare test positivi e negativi.
  • ☑ Le espressioni utilizzate per i test devono avere la stessa qualità delle espressioni di addestramento, ma non devono essere le stesse usate per l'addestramento.
  • ☑ Cercare risultati ben al di sopra della soglia di affidabilità durante il test delle espressioni. Tuttavia, un tasso di confidenza del 100% non è un obiettivo.
  • ☑ Prima di mettere in produzione le proprie competenze, annotare i risultati dei test come baseline per i test futuri eseguiti.

Ulteriori informazioni