Analisi di un video memorizzato mediante un modello personalizzato
Identifica funzioni e oggetti basati su scene e rileva facce e cornici di etichette in un video chiamando un modello personalizzato di analisi video.
Le dimensioni e la durata massime di ciascun video vengono visualizzate nella sezione Limiti.
Per ulteriori informazioni sull'analisi video, vedere la sezione su Analisi video memorizzata.
- Creare il data set
- Creazione di un modello personalizzato
- Addestrare il modello personalizzato
- Chiama il modello personalizzato
Creare il data set
I modelli personalizzati Vision sono destinati agli utenti senza un background di data science. La creazione di un data set e l'istruzione di Vision per addestrare un modello basato sul data set consentono di disporre di un modello personalizzato pronto per lo scenario.
L'etichettatura dei dati è il processo di identificazione delle proprietà dei record, ad esempio documenti, testo e immagini, e di annotazione con etichette per identificare tali proprietà. La didascalia di un'immagine e l'identificazione di un oggetto in un'immagine sono entrambi esempi di un'etichetta dati. Puoi utilizzare Oracle Cloud Infrastructure Data Labeling per eseguire l'etichettatura dei dati. Per ulteriori informazioni, vedere la Guida al servizio di etichettatura dei dati. Ecco una descrizione dei passi da intraprendere:
- Raccogliere un numero sufficiente di immagini che corrispondono alla distribuzione dell'applicazione prevista.
Quando si sceglie il numero di immagini necessarie per il data set, utilizzare il maggior numero possibile di immagini nel data set di addestramento. Per ogni etichetta da rilevare, fornire almeno 10 immagini per l'etichetta. Si consiglia di fornire almeno 50 immagini per etichetta. Maggiore è il numero di immagini fornite, maggiore sarà la robustezza e la precisione del rilevamento. La robustezza è la capacità di generalizzare a nuove condizioni come l'angolo di visione o lo sfondo.
- Raccogli alcune varietà di altre immagini per catturare diversi angoli di acquisizione della fotocamera, condizioni di illuminazione, sfondi e altri.
Raccogliere un data set rappresentativo del problema e dello spazio su cui si intende applicare il modello addestrato. Mentre i dati provenienti da altri domini potrebbero funzionare, un set di dati generato dagli stessi dispositivi, ambienti e condizioni d'uso previsti supera qualsiasi altro.
Fornire prospettive sufficienti per le immagini, poiché il modello utilizza non solo le annotazioni per apprendere cosa è corretto, ma anche lo sfondo per apprendere cosa è sbagliato. Ad esempio, fornire viste da diversi lati dell'oggetto rilevato, con condizioni di illuminazione diverse, da diversi dispositivi di acquisizione delle immagini e così via. - Etichetta tutte le istanze degli oggetti che si verificano nel data set di origine.Mantenere le etichette coerenti. Se si etichettano molte mele insieme come una mela, farlo in modo coerente in ogni immagine. Non avere spazio tra gli oggetti e la casella di delimitazione. Le caselle di delimitazione devono corrispondere strettamente agli oggetti etichettati.Importante
Verificare che ciascuna di queste annotazioni sia importante per le prestazioni del modello.
Creazione di un modello personalizzato
Crea modelli personalizzati in Vision per estrarre insight dalle immagini senza dover ricorrere ai data scientist.
- Account tenancy a pagamento in Oracle Cloud Infrastructure.
- Familiarità con Oracle Cloud Infrastructure Object Storage.
- Criteri corretti.
Utilizzare la console per apprendere come creare un progetto Vision e come addestrare un modello di classificazione delle immagini e di rilevamento degli oggetti.
Per creare un progetto, usare il comando create e i parametri richiesti:
oci ai-vision project create [OPTIONS]
Per creare un modello, usare il comando create e i parametri richiesti:
Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.oci ai-vision model create [OPTIONS]
Eseguire innanzitutto l'operazione CreateProject per creare un progetto.
Eseguire quindi l'operazione CreateModel per creare un modello.
Addestrare il modello personalizzato
Dopo aver creato il data set, è possibile addestrare il modello personalizzato.
- Formazione consigliata: Vision seleziona automaticamente la durata dell'addestramento per creare il modello migliore. L'allenamento può richiedere fino a 24 ore.
- Formazione rapida: questa opzione produce un modello non completamente ottimizzato ma disponibile in circa un'ora.
- Durata personalizzata: questa opzione consente di impostare la durata massima dell'allenamento.
La migliore durata dell'allenamento dipende dalla complessità del problema di rilevamento, dal numero tipico di oggetti in un'immagine, dalla risoluzione e da altri fattori. Considera queste esigenze e dedica più tempo all'aumento della complessità della formazione. Il tempo minimo di allenamento consigliato è di 30 minuti. Un tempo di allenamento più lungo offre maggiore precisione, ma rendimenti decrescenti con precisione nel tempo. Utilizzare la modalità di addestramento rapido per avere un'idea del minor tempo necessario per ottenere un modello che fornisca prestazioni ragionevoli. Utilizzare la modalità consigliata per ottenere un modello ottimizzato di base. Se vuoi un risultato migliore, aumenta il tempo di allenamento.
Chiama il modello personalizzato
I modelli personalizzati possono essere chiamati allo stesso modo del modello pre-addestrato.
Utilizzare il comando analyze-video e i parametri necessari per classificare l'immagine.
Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.oci ai-vision analyze-video [OPTIONS]
Eseguire l'operazione AnalyzeVideo per analizzare un'immagine.
Parametri modello personalizzato
Per i modelli personalizzati in Vision vengono fornite le metriche riportate di seguito.
- Punteggio mAP@0.5
- Il punteggio medio di precisione media (mAP) con una soglia di 0,5 viene fornito solo per i modelli di rilevamento oggetti personalizzati. Viene calcolato prendendo la precisione media su tutte le classi. Si va da 0,0 a 1,0 dove 1,0 è il miglior risultato.
- Precision
- La frazione di istanze rilevanti tra le istanze recuperate.
- Richiamo
- La frazione di istanze rilevanti recuperate.
- Valore soglia
- Soglia decisionale per effettuare una previsione di classe per le metriche.
- Immagini totali
- Numero totale di immagini utilizzate per la formazione e i test.
- Immagini di test
- Numero di immagini del data set utilizzate per i test e non per l'addestramento.
- Durata formazione
- Periodo di tempo, espresso in ore, durante il quale il modello è stato addestrato.