Plataforma de aprendizaje automático en Autonomous Data Warehouse

Para seguir el ritmo de las necesidades de información en constante cambio, las organizaciones buscan todas las oportunidades de entrenar, desplegar y gestionar rápidamente modelos de aprendizaje automático (ML).

Con Oracle Autonomous Data Warehouse (ADW) dispone de todas las herramientas incorporadas necesarias para cargar y preparar datos, así como para entrenar, desplegar y gestionar modelos de aprendizaje automático. Estos servicios se incluyen con Autonomous Data Warehouse, pero también tiene la flexibilidad de combinar y combinar otras herramientas para satisfacer las necesidades de su organización.

Esta arquitectura de referencia posiciona la solución tecnológica dentro del contexto de negocio general:

Descripción de negocio controlado por datos: context.png sigue
Descripción de la ilustración data-controlado-business-context.png

Cuando las organizaciones implementan un almacén de datos o un data mart junto con una plataforma de aprendizaje automático en la nube, generalmente necesitan combinar varios servicios para implementar una solución integral. Si bien para algunas organizaciones esto es posible, para otras que carecen de la experiencia o los recursos para hacerlo, puede ser una tarea abrumadora.

Como mínimo, una plataforma completa de aprendizaje automático debe incluir lo siguiente:

  • Fácil acceso a datos estructurados y no estructurados
  • Capacidad para crear y gestionar pipelines de ingeniería de datos.
  • Capacidad para crear modelos y puntuar datos a escala para cumplir los objetivos empresariales
  • Plataforma colaborativa para la creación de modelos de aprendizaje automático.
  • Proceso sencillo para gestionar e implementar modelos.
  • Utilice AutoML para ampliar el alcance de aquellos capaces de crear modelos de aprendizaje automático y acelerar el trabajo de los científicos de datos.

La plataforma de aprendizaje automático de herramientas incluida en Autonomous Data Warehouse proporciona a los departamentos y organizaciones una forma eficaz de ofrecer los beneficios del aprendizaje automático sin depender en gran medida de los recursos y la disponibilidad de TI. Además, las actualizaciones de productos y los parches de seguridad se gestionan automáticamente mediante Autonomous Data Warehouse.

Arquitectura

Esta arquitectura utiliza funciones de ciencia de datos y aprendizaje automático incorporadas en Oracle Autonomous Data Warehouse para analizar datos de una amplia gama de recursos de datos empresariales para análisis de negocio y aprendizaje automático.

En el siguiente diagrama se muestran varias rutas que puede seguir un usuario, según el caso de uso. La ruta de acceso más sencilla (líneas sólidas) proporciona un método sencillo para realizar tareas de ingeniería de datos, crear modelos de aprendizaje automático y gestionar y desplegar modelos con herramientas integradas en Autonomous Data Warehouse (ADW). Para casos de uso más avanzados (líneas de guiones), hemos incluido otros servicios de Oracle Cloud Infrastructure (OCI) que se integran perfectamente con los servicios incluidos en ADW (incluidos en el cuadro gris).

A continuación se muestra la descripción de ml-adw-architecture.png
Descripción de la ilustración ml-adw-architecture.png

ml-adw-arquitectura-oracle.zip

La arquitectura se centra en las siguientes divisiones lógicas:

  • Ingestión, transformación

    Ingiere y refina los datos para su uso en cada una de las capas de datos de la arquitectura.

  • Conservar, curar, crear

    Facilita el acceso a los datos y su navegación para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos pueden estar estructurados lógica o físicamente en formas relacionales, longitudinales, dimensionales o OLAP simples. Para datos no relacionales, esta capa contiene una o más agrupaciones de datos, ya sea de salida de un proceso analítico o de datos optimizados para una tarea analítica específica.

  • Análisis, aprendizaje y previsión

    Resuelve la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles para el desarrollo, la migración a la arquitectura de destino y el aprovisionamiento de una única capa de informes de varios orígenes federados.

En el siguiente diagrama se muestra una asignación de la arquitectura a los servicios proporcionados en Oracle Cloud Infrastructure mediante las mejores prácticas de seguridad.



oci-adb-oac-arch-gw-oracle.zip

La arquitectura tiene los siguientes componentes:

  • Integración de datos

    Autonomous Data Warehouse incluye las herramientas incorporadas necesarias para adquirir, cargar y transformar sus datos para muchos escenarios departamentales y casos de uso avanzados específicos. Con Autonomous Data Warehouse se incluye una capacidad de carga que permite cargar datos rápidamente desde el almacenamiento local u de objetos. También se incluyen las transformaciones de datos autónomas que le permiten conectarse a datos de distintos tipos de origen y acceder a la funcionalidad de tipo ELT.

    Para casos de uso más avanzados, Oracle Cloud Infrastructure Data Integration. Oracle Cloud Infrastructure Data Integration es un servicio en la nube totalmente gestionado, sin servidor y nativo que le ayuda con tareas comunes de extracción, carga y transformación (ETL), como la ingestión de datos de diferentes orígenes, la limpieza, la transformación y la nueva conformación de esos datos y, a continuación, su carga eficaz en orígenes de datos de destino en Oracle Cloud Infrastructure.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que se optimiza para las cargas de trabajo de almacenes de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

    Con Autonomous Data Warehouse, tiene la flexibilidad de cargar datos en varios formatos, incluidos los estructurados, JSON, XML, gráficos y espaciales. Este servicio incluye las herramientas autónomas que permiten cargar datos fácilmente en tablas y realizar un trabajo ETL ligero.

    Oracle Machine Learning se integra en el núcleo de Autonomous Data Warehouse. Esto permite ejecutar algoritmos en la base de datos en el núcleo de la base de datos y produce objetos de base de datos de primera clase para su despliegue inmediato.

  • Almacenamiento de objetos

    Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Puede almacenar o recuperar datos de manera segura directamente desde Internet o desde la plataforma en la nube. Las múltiples interfaces de gestión le permiten empezar fácilmente a pequeña escala y ampliarse sin problemas, sin experimentar una degradación del rendimiento ni de la fiabilidad del servicio.

  • Previsión

    Los servicios de Oracle Machine Learning amplían la funcionalidad de Oracle Machine Learning (OML) para admitir el despliegue de modelos y la gestión del ciclo de vida de modelos tanto para los modelos de Oracle Machine Learning en la base de datos como para los modelos de aprendizaje automático de Open Neural Networks Exchange (ONNX) de terceros a través de las API de REST. Los servicios de Oracle Machine Learning admiten la puntuación en tiempo real y en lotes pequeños para aplicaciones y paneles de control.

    La API de REST para los servicios de Oracle Machine Learning proporciona puntos finales de REST con autenticación a través de Autonomous Data Warehouse. Estos puntos finales permiten el almacenamiento y la gestión de modelos de aprendizaje automático y sus metadatos. Estos puntos finales también permiten la creación de puntos finales de puntuación para los modelos.

    Los servicios de Oracle Machine Learning admiten modelos de regresión o clasificación de terceros que se pueden crear con paquetes como Scikit-learn y TensorFlow, entre otros, y exportarlos posteriormente en formato ONNX. Los servicios de Oracle Machine Learning admiten análisis de texto cognitivo integrados para la detección de temas, palabras clave, resumen, sentimiento y similitud. Los servicios de Oracle Machine Learning también admiten la clasificación de imágenes mediante el despliegue de modelos con formato ONNX de terceros, y soportan la puntuación mediante imágenes o decenas.

    Los usuarios también pueden predecir directamente en la base de datos utilizando modelos en la base de datos de SQL, R y Python para la puntuación de lotes única, de lotes pequeños y a gran escala. Los usuarios pueden aprovechar la ejecución de Python embebida OML4Py para llamar a la función de Python definida por el usuario con modelos producidos a partir de paquetes de terceros y realizar predicciones a partir de interfaces de Python y REST.

  • Aprender

    Oracle Machine Learning Notebooks proporciona una interfaz de usuario colaborativa para que los científicos de datos y los analistas de datos trabajen con intérpretes de SQL y Python al tiempo que realizan aprendizaje automático en Oracle Autonomous Database, que incluye Autonomous Data Warehouse (ADW), Autonomous Transaction Processing (ATP) y Autonomous JSON Database (AJD). Oracle Machine Learning Notebooks permite al equipo más amplio de ciencia de datos (científicos de datos, científicos de datos ciudadanos, analistas de datos, ingenieros de datos, DBA) trabajar juntos para explorar sus datos visualmente y desarrollar metodologías analíticas con OML4SQL y OML4Py. La interfaz de blocs de notas proporciona acceso a las implantaciones de alto rendimiento, paralelas y escalables en la base de datos de Oracle de algoritmos de aprendizaje automático mediante Python, SQL y PL/SQL. También se puede acceder a la funcionalidad en la base de datos mediante la conexión a Autonomous Database a través de interfaces externas, como SQL Developer, entornos de bloc de notas de código abierto e IDE de terceros.

    OML4Py también proporciona una API de Python para el aprendizaje automático automatizado (AutoML) para la selección automatizada de algoritmos y funciones, así como para el ajuste y selección automatizados de modelos.

    La interfaz de usuario de Oracle Machine Learning AutoML (interfaz de usuario de OML AutoML) es una interfaz de usuario sin código que proporciona aprendizaje automático automatizado con facilidad de despliegue en los servicios de Oracle Machine Learning. Los usuarios profesionales sin un amplio historial de ciencia de datos pueden utilizar la interfaz de usuario AutoML de OML para crear y desplegar modelos de aprendizaje automático, así como generar un bloc de notas de OML que contenga el código OML4Py correspondiente para reconstruir el modelo y puntuar los datos mediante programación.

    Los expertos científicos de datos pueden utilizar la interfaz de usuario de OML AutoML como acelerador de productividad para una exploración de modelos más rápida, para facilitar el despliegue y para la generación de portátiles de inicio.

  • Análisis

    Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un conjunto completo de capacidades para explorar y realizar análisis de colaboración para usted, su grupo de trabajo y su empresa.

    Oracle Analytics Cloud está integrado con Oracle Machine Learning con acceso a modelos en la base de datos que se pueden buscar, visualizar y desplegar en flujos de trabajo y paneles de control de Oracle Analytics Cloud.

    Con Oracle Analytics Cloud, también obtiene capacidades flexibles de gestión de servicios, como la configuración rápida, la ampliación y aplicación de parches sencillos y la gestión automatizada del ciclo de vida.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para crear una plataforma tanto para un almacén de datos en la nube avanzado como para un marco de operaciones de aprendizaje automático.

Los requisitos pueden ser diferentes de la arquitectura que se describe aquí.

  • Ingestión, transformación

    Las herramientas de Autonomous Database son una funcionalidad integrada en Oracle Autonomous Data Warehouse que proporciona las capacidades para cargar, transformar, catalogar, obtener estadísticas e incluso desarrollar modelos de negocio de forma sencilla.

  • Análisis, aprendizaje y previsión

    Antes de conectar Oracle Analytics Cloud a Oracle Autonomous Data Warehouse, debe tener un administrador de base de datos que permita la dirección IP (o rango de direcciones) de su instancia de Oracle Analytics Cloud. El administrador de la base de datos debe agregar una regla de seguridad que permita el tráfico TCP/IP de Oracle Analytics Cloud a la base de datos.

Consideraciones

Al crear un marco de operaciones de aprendizaje automático junto con su almacén de datos en la nube, tenga en cuenta estas opciones de implantación.

  • Gravedad de los datos: Mantenga su marco de operaciones de aprendizaje automático cerca de sus datos para limitar el alto costo del movimiento de datos, tanto monetariamente como en términos de tiempo de desarrollo del modelo de aprendizaje automático (incluso para la puntuación de datos mediante modelos de aprendizaje automático).
  • Menor tiempo de obtención de resultados: las recomendaciones de la siguiente tabla le ayudarán a comenzar a usarlo con mayor rapidez y a reducir el tiempo necesario para empezar a realizar el valor de su solución.
Guía Recomendado Otras opciones Racional
Ingestión, transformación Herramientas de Autonomous Database Oracle Cloud Infrastructure Data Integration Depende del caso de uso. Para facilitar la carga de datos desde archivos de almacenamiento de objetos o almacenamiento de datos local, utilice las herramientas de Autonomous Database. Como se ha mencionado anteriormente, las transformaciones de datos de Autonomous Data Warehouse también se pueden utilizar en función del caso de uso. Para casos más avanzados, utilice la integración de datos de Oracle Cloud Infrastructure, que es un servicio a demanda.
Persistir Oracle Autonomous Data Warehouse Autonomous Data Warehouse es un almacén de datos en la nube que no solo proporciona las necesidades de análisis de un almacén de datos, sino que también incluye la funcionalidad para desplegar un marco de operaciones de Oracle Machine Learning avanzado. También puede acceder directamente a los datos desde Object Storage a través de tablas externas almacenadas en cualquier número de formatos y tipos.
Aprender Oracle Machine Learning Notebooks con OML4SQL, OML4Py y OML4R

Interfaz de usuario de Oracle Machine Learning AutoML

Terceros

OCI Data Science

Los blocs de notas de OML son un entorno de bloc de notas de colaboración incluido en la plataforma Autonomous Data Warehouse. Mediante OML4SQL, OML4Py y OML4R, un usuario puede crear modelos directamente en la base de datos. Los modelos en la base de datos se pueden exportar e importar entre Oracle Database y Autonomous Data Warehouse. Los usuarios pueden crear modelos de Python y R mediante herramientas de terceros con entornos conda personalizados en Autonomous Database, o bien crearlos fuera del marco de Oracle Machine Learning y almacenar estos modelos nativos en el almacén de datos de base de datos para su uso con la ejecución OML4Py-embedded y OML4R-embedded.
Predicción

Servicios de Oracle Machine Learning

Oracle Machine Learning Notebooks con OML4SQL, OML4Py y OML4R

Oracle Cloud Infrastructure Data Science

Modelos en la base de datos con consultas SQL e interfaces OML4R/OML4Py

Capacidad de puntuar el modelo a través de la API de REST con el despliegue de modelos gestionado por los servicios de Oracle Machine Learning. Los servicios de Oracle Machine Learning también permiten la importación de modelos creados fuera del marco de Oracle Machine Learning mediante el formato ONNX. Puede incluir modelos producidos en Oracle Cloud Infrastructure Data Science.
Acceso e interpretación Oracle Analytics Cloud Herramientas de terceros Oracle Analytics Cloud está totalmente gestionado y estrechamente integrado con el marco de Oracle Machine Learning. Una de las capacidades clave es la capacidad de desplegar modelos integrados en Oracle Machine Learning a Oracle Analytics Cloud para aprendizaje automático escalable y en paneles de control.

Desplegar

El código necesario para desplegar esta arquitectura de referencia está disponible en GitHub. Puede obtener el código en Oracle Cloud Infrastructure Resource Manager con un solo clic, crear la pila y desplegarla. También puede descargar el código de GitHub en su computadora, personalizar el código y desplegar la arquitectura mediante la CLI de Terraform.

  • Desplegar mediante Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic en Despliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca las credenciales de arrendamiento y usuario.

    2. Revise y acepte las condiciones.
    3. Seleccione la región en la que desea desplegar la pila.
    4. Siga las indicaciones de la pantalla e instrucciones para crear la pila.
    5. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
    6. Espere a que termine el trabajo y revise el plan.

      Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    7. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Realice el despliegue con el código de Terraform en GitHub:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en su equipo local.
    3. Siga las instrucciones del documento README.

Log de Cambios

Este log muestra cambios significativos: