Analyse d'une vidéo stockée à l'aide d'un modèle personnalisé

Identifiez les objets et fonctionnalités basés sur une scène, et détectez les visages et les cadres d'étiquettes dans une vidéo en appelant un modèle personnalisé d'analyse vidéo.

La taille et la durée maximales de chaque vidéo sont indiquées dans la section Limites.

Pour plus d'informations sur l'analyse vidéo, reportez-vous à la section Analyse vidéo stockée.

Suivez ces étapes pour utiliser un modèle personnalisé dans Vision.Les mesures sont disponibles pour analyser les performances du modèle personnalisé.

Création de l'ensemble de données

Les modèles personnalisés Vision sont destinés aux utilisateurs sans formation en data science. En créant un ensemble de données et en demandant à Vision d'entraîner un modèle basé sur l'ensemble de données, vous pouvez disposer d'un modèle personnalisé prêt pour votre scénario.

La clé pour créer un modèle personnalisé utile est de le préparer et de l'entraîner avec un bon ensemble de données. Vision prend en charge le format de jeu de données suivant :Collectez un ensemble de données représentatif du problème et de l'espace sur lesquels vous souhaitez appliquer le modèle entraîné. Bien que les données d'autres domaines puissent fonctionner, un ensemble de données généré à partir des mêmes périphériques, environnements et conditions d'utilisation est plus performant que les autres.

La définition de libellés de données consiste à identifier les propriétés d'enregistrements, tels que des documents, du texte et des images, et à annoter ces derniers avec des libellés pour identifier ces propriétés. La légende d'une image et l'identification d'un objet dans une image sont deux exemples d'étiquette de données. Vous pouvez utiliser Oracle Cloud Infrastructure Data Labeling pour définir l'étiquette des données. Pour plus d'informations, reportez-vous au guide du service Data Labeling. Voici un aperçu des étapes à suivre :

  1. Collectez suffisamment d'images correspondant à la distribution de l'application prévue.

    Lorsque vous choisissez le nombre d'images nécessaires pour votre jeu de données, utilisez autant d'images que possible dans votre jeu de données d'entraînement. Pour chaque étiquette à détecter, fournissez au moins 10 images pour l'étiquette. Idéalement, fournissez 50 images ou plus par étiquette. Plus vous fournissez d'images, meilleure est la robustesse et la précision de la détection. La robustesse est la capacité de généraliser à de nouvelles conditions telles que l'angle de vue ou l'arrière-plan.

  2. Recueillez quelques variétés d'autres images pour capturer différents angles de capture de caméra, conditions d'éclairage, arrière-plans et autres.

    Collectez un ensemble de données représentatif du problème et de l'espace sur lesquels vous souhaitez appliquer le modèle entraîné. Bien que les données d'autres domaines puissent fonctionner, un ensemble de données généré à partir des mêmes périphériques, environnements et conditions d'utilisation est plus performant que les autres.

    Fournissez suffisamment de perspectives pour les images, car le modèle utilise non seulement les annotations pour apprendre ce qui est correct, mais aussi l'arrière-plan pour apprendre ce qui ne va pas. Par exemple, fournissez des vues de différents côtés de l'objet détecté, avec différentes conditions d'éclairage, à partir de différents dispositifs de capture d'image, etc.
  3. Nommez toutes les instances des objets qui se produisent dans l'ensemble de données source.
    Gardez les étiquettes cohérentes. Si vous étiquetez plusieurs pommes ensemble comme une seule pomme, faites-le de manière cohérente dans chaque image. Il n'y a pas d'espace entre les objets et la boîte englobante. Les zones délimitées doivent correspondre étroitement aux objets étiquetés.
    Important

    Vérifiez chacune de ces annotations car elles sont importantes pour les performances du modèle.

Création d'un modèle personnalisé

Créez des modèles personnalisés dans Vision pour extraire des informations à partir d'images sans avoir besoin d'analystes de données.

Vous avez besoin des éléments suivants avant de créer un modèle personnalisé :
  • Compte de location payant dans Oracle Cloud Infrastructure.
  • Bonne connaissance d'Oracle Cloud Infrastructure Object Storage.
  • Stratégies correctes.
  • A l'aide de la console, découvrez comment créer un projet Vision et comment entraîner une classification d'image et un modèle de détection d'objet.

    1. Crée un projet.
      1. Sur la page d'accueil Vision, sous Modèles personnalisés, sélectionnez Projets.
      2. Sélectionnez Créer un projet
      3. Sélectionnez le compartiment du projet.
      4. Entrez un nom et une description pour le projet. Evitez de saisir des informations confidentielles.
      5. Sélectionnez Créer un projet.
    2. Dans la liste des projets, sélectionnez le nom du projet que vous avez créé.
    3. Sur la page de détails du projet, sélectionnez Créer un modèle.
    4. Sélectionnez le type de modèle à entraîner : Classification d'image ou Détection d'objet.
    5. Sélectionnez les données d'entraînement.
      • Si vous n'avez aucune image annotée, sélectionnez Créer un ensemble de données.

        Vous êtes redirigé vers OCI Data Labeling, où vous pouvez créer un ensemble de données et ajouter des libellés ou dessiner des zones englobantes sur le contenu de l'image. Pour plus d'informations, reportez-vous à Création d'un ensemble de données et à la section sur l'étiquetage des images dans la documentation Data Labeling.

      • Si vous disposez d'un ensemble de données annoté existant, sélectionnez Choisir un ensemble de données existant, puis sélectionnez la source de données :
        • Si vous avez annoté l'ensemble de données dans Data Labeling, sélectionnez Service Data Labeling, puis sélectionnez l'ensemble de données.
        • Si vous avez annoté les images à l'aide d'un outil tiers, cliquez sur Object Storage, puis sélectionnez le bucket qui contient les images.
    6. Sélectionnez Suivant.
    7. Entrez le nom d'affichage du modèle personnalisé.
    8. (Facultatif) Donnez une description au modèle pour l'aider à le trouver.
    9. Sélectionnez la durée de l'entraînement.
      • Formation recommandée Vision sélectionne automatiquement la durée de l'entraînement pour créer le meilleur modèle. La formation peut prendre jusqu'à 24 heures.
      • Formation rapide Cette option produit un modèle qui n'est pas entièrement optimisé mais qui est disponible dans environ une heure.
      • Personnalisé Cette option vous permet de définir votre propre durée de formation maximale (en heures).
    10. Sélectionnez Suivant.
    11. Passez en revue les informations fournies dans les étapes précédentes. Pour apporter des modifications, sélectionnez Précédent.
    12. Lorsque vous souhaitez commencer à entraîner le modèle personnalisé, sélectionnez Créer et entraîner.
  • Utilisez la commande create et les paramètres requis pour créer un projet :

    oci ai-vision project create [OPTIONS]

    Utilisez la commande create et les paramètres requis pour créer un modèle :

    oci ai-vision model create [OPTIONS]
    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
  • Exécutez d'abord l'opération CreateProject pour créer un projet.

    Exécutez ensuite l'opération CreateModel pour créer un modèle.

Entraînement du modèle personnalisé

Après avoir créé votre jeu de données, vous pouvez entraîner votre modèle personnalisé.

Entraînez votre modèle à l'aide de l'un des modes d'entraînement de modèle personnalisés de Vision. Les modes de formation sont les suivants :
  • Formation recommandée : Vision sélectionne automatiquement la durée d'entraînement pour créer le meilleur modèle. La formation peut prendre jusqu'à 24 heures.
  • Entraînement rapide : Cette option produit un modèle qui n'est pas entièrement optimisé, mais qui est disponible dans environ une heure.
  • Durée personnalisée : cette option vous permet de définir votre propre durée d'entraînement maximale.

La meilleure durée d'entraînement dépend de la complexité de votre problème de détection, du nombre typique d'objets dans une image, de la résolution et d'autres facteurs. Tenez compte de ces besoins et allouez plus de temps à mesure que la complexité de la formation augmente. Le temps d'entraînement minimum recommandé est de 30 minutes. Un temps d'entraînement plus long donne une plus grande précision, mais des rendements décroissants en précision avec le temps. Utilisez le mode d'entraînement rapide pour avoir une idée du plus petit temps nécessaire pour obtenir un modèle offrant des performances raisonnables. Utilisez le mode recommandé pour obtenir un modèle optimisé de base. Si vous voulez un meilleur résultat, augmentez le temps d'entraînement.

Appel du modèle personnalisé

Les modèles personnalisés peuvent être appelés de la même manière que le modèle préentraîné.

Vous pouvez appeler le modèle personnalisé pour analyser les images en tant que demande unique ou en tant que demande par lots. Vous devez d'abord avoir effectué les étapes suivantes :
    1. Ouvrez le menu de navigation et cliquez sur Analytics et IA. Sous Services d'IA, cliquez sur Vision.
    2. Sur la page Vision, cliquez sur Analyse vidéo.
    3. Sélectionnez le compartiment dans lequel stocker les résultats.
    4. Sélectionnez l'emplacement de la vidéo :
      • Démo
      • Fichier local
      • Object storage
        1. (Facultatif) Si vous avez sélectionné Démonstration, cliquez sur Analyser la vidéo de démonstration pour lancer l'analyse.
        2. (Facultatif) Si vous avez sélectionné Fichier local :
          1. Sélectionnez un bucket dans la liste. Si le bucket se trouve dans un autre compartiment, cliquez sur Modifier le compartiment.
          2. (Facultatif) Entrez un préfixe dans le champ de texte Ajouter un préfixe.
          3. Faites glisser le fichier vidéo vers la zone Sélectionner un fichier ou cliquez sur en sélectionner un... et accédez à l'image.
          4. Cliquez sur Télécharger et analyser. La boîte de dialogue vidéo URL pré-authentifiée pour s'affiche.
          5. (Facultatif) Copiez l'URL.
          6. Cliquez sur Fermer.
        3. Si vous avez sélectionné Object Storage, entrez l'URL de la vidéo et cliquez sur Analyser.

      L'API analyzeVideo est appelée et le modèle analyse immédiatement la vidéo. Le statut du travail est affiché.

      La zone Résultats comporte des onglets pour chacun des éléments suivants : détection d'étiquette, détection d'objet, détection de texte et détection de visage avec des scores de confiance, et JSON de demande et de réponse.

    5. (Facultatif) Pour arrêter le travail en cours d'exécution, cliquez sur Annuler.
    6. (Facultatif) Pour modifier l'emplacement de sortie, cliquez sur Modifier l'emplacement de sortie.
    7. (Facultatif) Pour sélectionner ce qui est analysé, cliquez sur Fonctionnalités d'analyse vidéo, puis sélectionnez l'une des options suivantes :
      • Détection de libellés
      • Détection d'objets
      • Détection de texte
      • Détection de visage
    8. (Facultatif) Pour générer du code pour l'inférence vidéo, cliquez sur Code pour l'inférence vidéo.
    9. (Facultatif) Pour analyser à nouveau les vidéos, cliquez sur Suivi de travaux vidéo, puis sélectionnez Vidéos récemment téléchargées dans le menu.
      1. Cliquez sur la vidéo à analyser.
      2. Cliquez sur Analyser.
    10. Pour afficher le statut d'un travail d'analyse vidéo, cliquez sur Suivi de travaux vidéo, puis sélectionnez Obtenir le statut du travail dans le menu.
      1. Entrez l'OCID du travail.
      2. Cliquez sur Obtenir le statut du travail.
      3. (Facultatif) Pour arrêter le travail en cours d'exécution, cliquez sur Annuler.
      4. (Facultatif) Pour obtenir le statut d'un autre travail, cliquez sur Obtenir un autre statut de travail vidéo.
      5. (Facultatif) Pour obtenir la réponse JSON, cliquez sur Extraire les données de réponse.
      6. (Facultatif) Pour enlever le statut d'un travail, cliquez sur Enlever.
  • Utilisez la commande analyze-video et les paramètres requis pour classer l'image :

    oci ai-vision analyze-video [OPTIONS]
    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
  • Exécutez l'opération AnalyzeVideo pour analyser une image.

Mesures de modèle personnalisé

Les métriques suivantes sont fournies pour les modèles personnalisés dans Vision.

Score mAP@0.5
Le score de précision moyenne (mAP) avec un seuil de 0,5 est fourni uniquement pour les modèles de détection d'objets personnalisés. Il est calculé en prenant la précision moyenne sur toutes les classes. Elle va de 0,0 à 1,0, où 1,0 est le meilleur résultat.
Precision
Fraction des instances pertinentes parmi les instances extraites.
Rappeler
Fraction des instances pertinentes extraites.
seuil
Seuil de décision permettant de faire une prédiction de classe pour les métriques.
Nombre total d'images
Nombre total d'images utilisées pour l'entraînement et les tests.
Tester les images
Nombre d'images de l'ensemble de données qui ont été utilisées pour les tests et non pour la formation.
Durée de l'entraînement
Durée en heures pendant laquelle le modèle a été entraîné.