Entrene modelos de aprendizaje automático para casos de uso sanitario

Utilice el servicio Oracle Cloud Infrastructure Data Science para explorar y entrenar modelos de aprendizaje automático para casos de uso sanitarios.

Arquitectura

Esta arquitectura muestra un despliegue típico de Oracle Cloud Infrastructure Data Science en Oracle Cloud Infrastructure (OCI).

En el siguiente diagrama se muestran los servicios principales y algunos de los servicios opcionales que puede incorporar, según sea necesario.

A continuación se muestra la descripción de Healthcare-ml-design-pattern.png
Descripción de la ilustración Healthcare-ml-design-pattern.png

Healthcare-ml-design-pattern-oracle.zip

Los siguientes son los componentes clave de la arquitectura:

  • Object Storage u Oracle Autonomous Database como ubicación de almacenamiento.
  • Sesión del bloc de notas de Data Science para la exploración y el desarrollo de los modelos
  • Despliegue de modelos para productizar modelos y ponerlos a disposición a través de una API de REST.

Esta arquitectura admite los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y las grandes distancias pueden separarse (entre países e incluso continentes).

  • Red virtual en la nube (VCN) y subred

    Una VCN es una red personalizable definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango contiguo de direcciones que no se solapan con las demás subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Gateway de Internet

    El gateway de Internet permite el tráfico entre las subredes públicas de una VCN y la red pública de Internet.

  • Gateway de API

    Oracle API Gateway permite publicar API con puntos finales privados accesibles desde la red y que se pueden exponer en la red pública de Internet si es necesario. Los puntos finales soportan la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes.

  • Data Integration

    Oracle Cloud Infrastructure Data Integration es un servicio en la nube totalmente gestionado que extrae, carga, transforma, limpia y vuelve a ocultar datos de una variedad de orígenes de datos en servicios de Oracle Cloud Infrastructure de destino, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. ETL (carga de transformación de extracción) aprovecha el procesamiento de escalabilidad horizontal totalmente gestionado en Spark, y ELT (transformación de carga de extracción) aprovecha las capacidades de transferencia de SQL completa de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de obtención de resultados para los datos recién ingeridos. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficientes, asignando y ampliando automáticamente el entorno de ejecución. Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos, y ayuda a los ingenieros de datos a proteger contra el cambio de esquema definiendo reglas para manejar los cambios de esquema.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Proporciona a los ingenieros de datos, científicos de datos, administradores de datos y directores de datos un único entorno de colaboración para gestionar los metadatos técnicos, empresariales y operativos de la organización.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin problemas sin experimentar ninguna degradación del rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "en caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y a los que rara vez se accede o que rara vez se accede.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database es un entorno de base de datos preconfigurado y totalmente gestionado que puede utilizar para cargas de trabajo de procesamiento de transacciones y almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

  • Data Science

    Oracle Cloud Infrastructure Data Science es un servicio de aprendizaje automático (ML) integral que ofrece entornos de bloc de notas JupyterLab y acceso a cientos de herramientas y marcos de código abierto populares. Cree y forme modelos de AA con GPU NVIDIA, funciones AutoML y ajuste automático de hiperparámetros. Despliegue modelos como puntos finales HTTP o utilice Oracle Functions. Gestione modelos a través del control de versiones, los trabajos repetibles y los catálogos de modelos.

Consideraciones para el aprendizaje automático

Al empezar a utilizar el aprendizaje automático en el servicio Oracle Cloud Infrastructure Data Science, tenga en cuenta lo siguiente:

  • Descripción de los datos

    Los datos son el componente principal y más importante de cualquier proyecto de aprendizaje automático. Los conjuntos de datos publicados normalmente se han revisado y es posible que incluso se hayan extraído funciones para usted, lo que la convierte en una buena opción para aprender sobre el servicio.

    El trabajo con nuevos datos requiere más trabajo para limpiar artefactos, asignar valores faltantes y transformar, codificar o aumentar el conjunto de datos con funciones adicionales.

    Esta parte del flujo de trabajo del científico de datos suele ser el más lento y puede representar fácilmente el 80% al 90% del tiempo dedicado a un proyecto de aprendizaje automático.

  • Aprender sintaxis del bloc de notas de Jupyter

    El servicio Oracle Cloud Infrastructure Data Science se basa en el amplio marco de bloc de notas de Jupyter. Proporciona un entorno visual enriquecido para experimentar con datos en el idioma de python. Python es uno de los idiomas más populares para Data Science, y Jupyter Notebook aumenta el lenguaje con una sintaxis específica (llamada magia) que ayuda a reducir algunas operaciones engorrosas al tiempo que mejora la representación visual de los datos. Tómese el tiempo para obtener más información sobre la sintaxis específica de Jupyter Notebook para aprovechar estas funciones.

  • Uso de trabajos para operaciones costosas

    Si bien la exploración es una actividad muy interactiva que es adecuada para la interfaz de bloc de notas de Jupyter, operaciones costosas como el entrenamiento de modelos y el ajuste de hiperparámetros pueden tardar mucho tiempo y se pueden descargar de la función Jobs, lo que permite a los usuarios ejecutar scripts de larga ejecución en máquinas dedicadas.