A propos de Data Labeling

Découvrez ce qu'est Data Labeling et comment l'utiliser.

La définition de libellés de données consiste à identifier les propriétés (libellés) de documents, de textes et d'images (enregistrements), et à annoter (définition de libellés) ces derniers avec ces propriétés. Le sujet d'un article d'actualité, le sentiment d'un tweet, la légende d'une image, les mots importants prononcés dans un enregistrement audio et le genre d'une vidéo sont tous des exemples de libellé de données.

De nombreuses techniques d'apprentissage automatique nécessitent des données libellées pour pouvoir être utilisées afin d'entraîner des machines à réaliser une tâche autonome. La définition de libellés de données fait donc partie intégrante d'un projet d'intelligence artificielle (IA) ou d'apprentissage automatique.

Data Labeling vous permet de créer et de parcourir des ensembles de données, d'afficher des enregistrements de données (documents, texte et images), et d'appliquer des libellés afin de construire des modèles d'IA et d'apprentissage automatique. Un ensemble de données peut être exporté en tant que fichier JSON délimité par des lignes pour être utilisé dans le développement de modèles d'apprentissage automatique. Les ensembles de données sont accessibles et interopérables entre d'autres services de données et d'IA afin de prendre en charge l'entraînement supervisé. Par exemple, Oracle Cloud Infrastructure Language peut être utilisé pour créer des modèles spécialisés, mais uniquement si des données libellées sont disponibles pour entraîner le modèle. Data Labeling vous permet de commencer rapidement à libeller des ensembles de données brutes avec un nombre minimal d'étapes de configuration. Ainsi, il offre également une expérience de définition de libellés de données pour les services d'IA Oracle Cloud Infrastructure.

Les informations sur les types de fichier et de contenu pris en charge pour les documents, le texte et les images sont fournies dans Formats de fichier pris en charge.

Les ensembles de informations constituent la principale ressource disponible dans Data Labeling. Ils se composent d'enregistrements de données et des libellés associés. Les enregistrements de données représentent un document, une image unique ou un texte. Les libellés sont des chaînes de texte qui deviennent des annotations lorsqu'elles sont associées à un enregistrement de données. Les annotations ont d'autres données associées, par exemple, à la détection d'objets, à des coordonnées de boîte englobante. Les enregistrements de données peuvent exister sans annotation. Un ensemble de données peut être exporté en tant que manifeste JSON à utiliser comme entrée pour le développement de modèles d'apprentissage automatique.
Conseil

Regardez une présentation vidéo du service..
Pour utiliser Data Labeling, procédez comme suit :
  1. Configurez le service, notamment par la création de buckets dans Object Storage et la configuration de vos stratégies utilisateur.
  2. Créez un ensemble de données.
  3. Générez des enregistrements dans l'ensemble de données.
  4. Ajoutez des libellés à vos documents, images ou textes.
  5. Exportez l'ensemble de données vers Object Storage pour l'utiliser ailleurs.