Análisis de un vídeo almacenado mediante un modelo personalizado

Identifique características y objetos basados en escenas, y detecte rostros y marcos de etiquetas en un video llamando a un modelo personalizado de análisis de video.

El tamaño y la duración máximos de cada vídeo se muestran en la sección Límites.

Para obtener más información sobre el análisis de vídeo, consulte la sección sobre análisis de vídeo almacenado.

Siga estos pasos para utilizar un modelo personalizado en Vision.

Las métricas están disponibles para analizar el rendimiento del modelo personalizado.

Creación del juego de datos

Los modelos personalizados de Vision están diseñados para usuarios sin experiencia en ciencia de datos. Al crear un juego de datos e indicar a Vision que entrene un modelo basado en el juego de datos, puede tener un modelo personalizado listo para su escenario.

La clave para crear un modelo personalizado útil es prepararlo y entrenarlo con un buen conjunto de datos. Vision admite el siguiente formato de juego de datos:

JSONL (formato de Oracle Cloud Infrastructure Data Labeling)

Recopile un juego de datos que sea representativo del problema y el espacio en el que desea aplicar el modelo entrenado. Si bien es posible que los datos de otros dominios funcionen, un conjunto de datos generado a partir de los mismos dispositivos, entornos y condiciones de uso previstos supera a cualquier otro.

El etiquetado de datos es el proceso de identificación de propiedades de registros, como documentos, texto e imágenes, y su anotación con etiquetas para identificar esas propiedades. El título de una imagen y la identificación de un objeto en una imagen son ejemplos de una etiqueta de datos. Puede utilizar Oracle Cloud Infrastructure Data Labeling para realizar el etiquetado de datos. Para obtener más información, consulte la Guía del servicio de etiquetado de datos. A continuación se muestra un resumen de los pasos a seguir:

Recopile suficientes imágenes que coincidan con la distribución de la aplicación deseada.
Al elegir cuántas imágenes se necesitan para el juego de datos, utilice tantas imágenes como pueda en el juego de datos de entrenamiento. Para cada etiqueta que se detecte, proporcione al menos 10 imágenes para la etiqueta. Idealmente, proporcione 50 o más imágenes por etiqueta. Cuantas más imágenes proporcione, mejor será la robustez y precisión de la detección. La robustez es la capacidad de generalizar a nuevas condiciones como el ángulo de visión o el fondo.
Recopile algunas variedades de otras imágenes para capturar diferentes ángulos de captura de cámara, condiciones de iluminación, fondos y otros.
Recopile un juego de datos que sea representativo del problema y el espacio en el que desea aplicar el modelo entrenado. Si bien es posible que los datos de otros dominios funcionen, un conjunto de datos generado a partir de los mismos dispositivos, entornos y condiciones de uso previstos supera a cualquier otro.
Proporcione suficientes perspectivas para las imágenes, ya que el modelo utiliza no solo las anotaciones para aprender lo que es correcto, sino también el fondo para aprender lo que está mal. Por ejemplo, proporcione vistas desde diferentes lados del objeto detectado, con diferentes condiciones de iluminación, desde diferentes dispositivos de captura de imágenes, etc.
Etiquete todas las instancias de los objetos que se producen en el juego de datos de origen.
Mantenga las etiquetas coherentes. Si etiqueta muchas manzanas juntas como una manzana, hágalo de manera consistente en cada imagen. No tenga espacio entre los objetos y el cuadro delimitador. Los cuadros delimitadores deben coincidir estrechamente con los objetos etiquetados.
Importante

Verifique cada una de estas anotaciones, ya que son importantes para el rendimiento del modelo.

Creación de un modelo personalizado

Cree modelos personalizados en Vision para extraer estadísticas de imágenes sin necesidad de científicos de datos.

Necesita lo siguiente antes de crear un modelo personalizado:

Una cuenta de arrendamiento de pago en Oracle Cloud Infrastructure.
Familiaridad con Oracle Cloud Infrastructure Object Storage.
Las políticas correctas.

Con la consola, aprenda a crear un proyecto de Vision y a entrenar un modelo de clasificación de imágenes y detección de objetos.
1. Crear proyecto.
  
  En la página inicial de Vision, en Modelos personalizados, seleccione Proyectos.
  
  Seleccione Crear proyecto
  
  Seleccione el compartimento para el proyecto.
  
  Introduzca un nombre y una descripción para el proyecto. Evite introducir información confidencial.
  
  Seleccione Crear proyecto.
2. En la lista de proyectos, seleccione el nombre del proyecto que ha creado.
3. En la página de detalles del proyecto, seleccione Crear modelo.
4. Seleccione el tipo de modelo que entrenar: Clasificación de imágenes o Detección de objetos.
5. Seleccione los datos de entrenamiento.
  
  Si no tiene ninguna imagen anotada, seleccione Crear un nuevo juego de datos.
  Accederá a OCI Data Labeling, donde podrá crear un juego de datos y agregar etiquetas o dibujar cuadros delimitadores sobre el contenido de la imagen. Para obtener más información, consulte Creación de un juego de datos y la sección sobre etiquetado de imágenes en la documentación de Data Labeling.
  
  Si tiene un juego de datos anotado existente, seleccione Seleccionar juego de datos existente y, a continuación, seleccione el origen de datos:
  
  Si anotó el juego de datos en Data Labeling, seleccione Servicio de etiquetado de datos y, a continuación, seleccione el juego de datos.
  
  Si ha anotado las imágenes mediante una herramienta de terceros, haga clic en Almacenamiento de objetos y, a continuación, seleccione el cubo que contiene las imágenes.
6. Seleccione Siguiente.
7. Introduzca un nombre mostrado para el modelo personalizado.
8. (Opcional) Asigne al modelo una descripción que le ayude a encontrarlo.
9. Seleccione la duración de formación.
  
  Entrenamiento recomendado Vision selecciona automáticamente la duración del entrenamiento para crear el mejor modelo. El entrenamiento puede tardar hasta 24 horas.
  
  Entrenamiento rápido Esta opción produce un modelo que no está totalmente optimizado pero que está disponible en aproximadamente una hora.
  
  Personalizado Esta opción permite definir su propia duración máxima de formación (en horas).
10. Seleccione Siguiente.
11. Revise la información proporcionada en los pasos anteriores. Para realizar cambios, seleccione Anterior.
12. Cuando desee empezar a entrenar el modelo personalizado, seleccione Crear y entrenar.
Utilice el comando create y los parámetros necesarios para crear un proyecto:
oci ai-vision project create [OPTIONS]
Utilice el comando create y los parámetros necesarios para crear un modelo:
oci ai-vision model create [OPTIONS]
Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.
Primero, ejecute la operación CreateProject para crear un proyecto.

A continuación, ejecute la operación CreateModel para crear un modelo.

Entrenamiento del modelo personalizado

Después de crear el conjunto de datos, puede entrenar su modelo personalizado.

Entrene su modelo utilizando uno de los modos de entrenamiento de modelos personalizados de Vision. Los modos de entrenamiento son:

Entrenamiento recomendado: Vision selecciona automáticamente la duración del entrenamiento para crear el mejor modelo. El entrenamiento puede tardar hasta 24 horas.
Entrenamiento rápido: esta opción produce un modelo que no está completamente optimizado pero está disponible en aproximadamente una hora.
Duración personalizada: esta opción le permite definir su propia duración máxima de formación.

La mejor duración del entrenamiento depende de la complejidad del problema de detección, el número típico de objetos en una imagen, la resolución y otros factores. Considere estas necesidades y asigne más tiempo a medida que aumenta la complejidad de la formación. La cantidad mínima de tiempo de entrenamiento recomendado es de 30 minutos. Un tiempo de entrenamiento más largo proporciona una mayor precisión, pero disminuyendo los retornos en precisión con el tiempo. Utiliza el modo de entrenamiento rápido para tener una idea de la menor cantidad de tiempo que se tarda en obtener un modelo que proporcione un rendimiento razonable. Utilice el modo recomendado para obtener un modelo optimizado base. Si quieres un mejor resultado, aumenta el tiempo de entrenamiento.

Llamada al modelo personalizado

Los modelos personalizados se pueden llamar de la misma manera que llamaría al modelo preentrenado.

Puede llamar al modelo personalizado para analizar imágenes como una sola solicitud o como una solicitud por lotes. Primero debe haber realizado estos pasos:

Métricas de modelo personalizado

Se proporcionan las siguientes métricas para modelos personalizados en Vision.

Puntuación mAP@0.5: La puntuación media de precisión media (mAP) con un umbral de 0,5 solo se proporciona para los modelos de detección de objetos personalizados. Se calcula tomando la precisión media en todas las clases. Varía de 0,0 a 1,0, donde 1,0 es el mejor resultado.
Precisión: Fracción de instancias relevantes entre las instancias recuperadas.
Volver a Llamar: Fracción de instancias relevantes que se recuperaron.
Umbral: Umbral de decisión para realizar una predicción de clase para las métricas.
Total de imágenes: Número total de imágenes utilizadas para entrenamiento y pruebas.
Imágenes de prueba: Número de imágenes del juego de datos que se utilizaron para pruebas y no para entrenamiento.
Duración del entrenamiento: La cantidad de tiempo en horas que se entrenó el modelo.