Informazioni su Data Labeling

Scopri di più su Data Labeling, cos'è e come usarlo.

L'etichettatura dei dati è il processo di identificazione delle proprietà (etichette) di documenti, testo e immagini (record) e di annotazione (etichettatura) di tali proprietà. L'argomento di un articolo di notizie, il sentimento di un tweet, la didascalia di un'immagine, parole importanti pronunciate in una registrazione audio, il genere di un video sono tutti esempi di un'etichetta dati.

Molte tecniche di machine learning richiedono dati con etichette prima di poter essere utilizzati per addestrare i computer a completare un'attività autonoma. L'etichettatura dei dati è quindi parte integrante di un progetto di intelligenza artificiale (AI) o apprendimento automatico (ML).

Data Labeling consente di creare e sfogliare set di dati, visualizzare record di dati (documenti, testo e immagini) e applicare etichette per creare modelli AI/ML. I data set possono essere esportati come JSON delimitato da riga da utilizzare nello sviluppo di modelli di apprendimento automatico. I data set sono accessibili e interoperabili tra altri servizi di dati e AI per supportare la formazione supervisionata. Ad esempio, Oracle Cloud Infrastructure Language può essere utilizzato per creare modelli specializzati, ma solo se i dati con etichetta sono disponibili per la formazione del modello. Data Labeling consente di iniziare rapidamente ad assegnare etichette ai set di dati di tipo RAW con un numero minimo di passi di configurazione. Pertanto, offre anche l'esperienza di etichettatura dei dati per i servizi AI di Oracle Cloud Infrastructure.

Le informazioni sui tipi di file e i tipi di contenuto supportati per documenti, testo e immagini sono disponibili in Formati di file supportati.

I set di dati sono la risorsa di base disponibile in Data Labeling. Sono costituiti da record di dati e etichette associate. I record di dati rappresentano un documento, una singola immagine o una parte di testo. Le etichette sono stringhe di testo che diventano annotazioni quando vengono associate a un record di dati. Alle annotazioni sono associati altri dati, ad esempio il rilevamento degli oggetti e le coordinate dei riquadri. I record di dati possono esistere senza annotazione. I data set possono essere esportati come file manifesto JSON da utilizzare come input per lo sviluppo di modelli di apprendimento automatico.
Suggerimento

Guarda una introduzione video al servizio.
Per utilizzare l'etichettatura dei dati:
  1. Imposta, inclusa la creazione di bucket nello storage degli oggetti e l'impostazione dei criteri utente.
  2. Creare un data set
  3. Genera record nel data set.
  4. Aggiungere etichette ai documenti, alle immagini o a parti di testo.
  5. Esportare il data set nello storage degli oggetti per utilizzarlo altrove.