Création de l'ensemble de données

Les modèles personnalisés Vision sont destinés aux utilisateurs sans formation en data science. En créant un ensemble de données et en demandant à Vision d'entraîner un modèle basé sur l'ensemble de données, vous pouvez disposer d'un modèle personnalisé prêt pour votre scénario.

La clé pour créer un modèle personnalisé utile est de le préparer et de l'entraîner avec un bon ensemble de données. Vision prend en charge le format de jeu de données suivant :Collectez un ensemble de données représentatif du problème et de l'espace sur lequel vous prévoyez d'appliquer le modèle entraîné. Bien que les données provenant d'autres domaines puissent fonctionner, un jeu de données généré à partir des mêmes périphériques, environnements et conditions d'utilisation prévus surpasse tout autre.

La définition de libellés de données consiste à identifier les propriétés d'enregistrements, tels que des documents, du texte et des images, et à annoter ces derniers avec des libellés pour identifier ces propriétés. La légende d'une image et l'identification d'un objet dans une image sont deux exemples d'étiquette de données. Vous pouvez utiliser Oracle Cloud Infrastructure Data Labeling pour définir l'étiquette des données. Pour plus d'informations, reportez-vous au guide du service Data Labeling. Voici un aperçu des étapes à suivre :

  1. Collectez suffisamment d'images correspondant à la distribution de l'application voulue.

    Lorsque vous choisissez le nombre d'images nécessaires pour votre jeu de données, utilisez autant d'images que possible dans votre jeu de données d'entraînement. Pour chaque étiquette à détecter, fournissez au moins 10 images pour l'étiquette. Fournissez idéalement 50 images ou plus par étiquette. Plus vous fournissez d'images, meilleure est la robustesse et la précision de la détection. La robustesse est la capacité de généraliser à de nouvelles conditions telles que l'angle de vue ou l'arrière-plan.

  2. Collectez quelques variétés d'autres images pour capturer différents angles de capture de caméra, conditions d'éclairage, arrière-plans et autres.

    Collectez un ensemble de données représentatif du problème et de l'espace sur lequel vous prévoyez d'appliquer le modèle entraîné. Bien que les données provenant d'autres domaines puissent fonctionner, un jeu de données généré à partir des mêmes périphériques, environnements et conditions d'utilisation prévus surpasse tout autre.

    Fournissez suffisamment de perspectives pour les images, car le modèle utilise non seulement les annotations pour savoir ce qui est correct, mais aussi l'arrière-plan pour savoir ce qui ne va pas. Par exemple, fournissez des vues de différents côtés de l'objet détecté, avec différentes conditions d'éclairage, à partir de différents périphériques de capture d'image, etc.
  3. Intitulez toutes les instances des objets qui se produisent dans l'ensemble de données source.
    Gardez les étiquettes cohérentes. Si vous étiquetez plusieurs pommes ensemble comme une seule pomme, faites-le de manière cohérente dans chaque image. Ne pas avoir d'espace entre les objets et la zone de délimitation. Les encadrés doivent correspondre étroitement aux objets étiquetés.
    Important

    Vérifiez que chacune de ces annotations est importante pour les performances du modèle.