Diseñar un data lakehouse para análisis de inventario minorista
Los clientes de comestibles enumeran las mercancías sin stock como un motivo clave para una mala experiencia de compra. Además de la disponibilidad de los productos, los consumidores también esperan que su tiempo en la tienda sea breve y eficiente. Ahora, más que nunca, los minoristas deben proporcionar una experiencia de compra perfecta y el elemento clave para lograrlo son los datos.
Los minoristas quieren capturar una gran cantidad de datos y recurrir a soluciones de big data basadas en la nube para agregar y gestionar datos para obtener visibilidad de stock en tiempo real. Una empresa de data lake en Oracle Cloud Infrastructure (OCI) puede capturar, gestionar y obtener información a partir de los datos producidos en el punto de venta, el inventario, el cliente y los sistemas operativos para comprender la gestión de inventario en tiempo real.
En esta arquitectura de referencia se presenta una topología de plataforma, una visión general de los componentes y las mejores prácticas recomendadas para implantar un centro de data lake correcto en OCI.
- Los clientes, que interactúan con el comerciante en línea (web o móvil), con recogida o entrega, o físicamente en las tiendas, ya sea por interacción con un empleado de la tienda o mediante máquinas de autoservicio.
- Los mánager de la tienda, que desean tener visibilidad sobre cómo se venden los productos y las categorías de productos, obtienen información predictiva, como el consumo de inventario y generan acciones automáticas, por ejemplo, adquisiciones automatizadas.
- Alta dirección, que está interesada en el análisis avanzado en tiempo real con funciones de visualización, generación de informes e IA.
- Científicos de datos, que trabajan en big data, con una cantidad de datos en aumento y un número de fuentes que requieren un rápido procesamiento y flexibilidad para desplegar modelos fácilmente.
- Desarrolladores con poco código que trabajan en aplicaciones basadas en datos nuevas y existentes, centrados en la simplicidad y con el menor tiempo posible dedicado a gestionar la seguridad y las operaciones.
Arquitectura
Una de las principales complejidades del negocio minorista es la multiplicidad de sistemas, modelos y tipos de datos, así como una cantidad cada vez mayor de datos. Este desafío requiere simplificación y consolidación, algo que una arquitectura de data lakehouse de OCI puede ayudar a lograr.
En el siguiente diagrama se presenta la arquitectura de referencia de la tienda virtual conceptual.
Descripción de la ilustración retail-lakehouse-arch.png
Autonomous Data Warehouse (ADW) es una de las partes centrales de la arquitectura de data lakehouse de OCI. Automatiza el aprovisionamiento, la configuración, la protección, el ajuste, la ampliación y la realización de copias de seguridad del almacén de datos. Incluye herramientas para la carga de datos de autoservicio, transformaciones de datos, modelos de negocio, estadísticas automáticas y capacidades de base de datos convergente integradas que permiten consultas más sencillas en varios tipos de datos y análisis de aprendizaje automático. El machine learning sobre ADW ofrece la ventaja de tener algoritmos justo donde se encuentran los datos, para obtener un rendimiento maximizado. ADW está estrechamente integrado con OCI Object Storage, que aquí sirve como un data lake, como un almacenamiento ilimitado y de bajo costo para datos no estructurados.
Las iniciativas de ciencia de datos y aprendizaje automático pueden tener como resultado predicciones de ventas inteligentes basadas en la temporada, la aparición de campañas de marketing, características de la población de clientes (por ejemplo, grupos de edad) y ubicación, con Oracle Spatial & Graph que proporciona el soporte de ubicación necesario. Estas iniciativas pueden ser compatibles con los blocs de notas de OML de ADW (basados en Apache Zeppelin) y accesibles a través de OAC, mediante Data Science (centrado en JupyterLab/Python), y Oracle APEX se presenta como el estándar de oro para aplicaciones personalizadas con poco código.
Los diferentes canales a través de los cuales los clientes interactúan con el comerciante, como se ve en el diagrama y se ha mencionado anteriormente, a menudo se basan en aplicaciones a medida. Oracle Container Engine for Kubernetes es una plataforma sólida que proporciona escalabilidad y control adicional sobre microservicios y aplicaciones.
Un ejemplo de uso de la IA empresarial moderna es el asistente digital. En este caso de uso, se utilizan asistentes digitales basados en inteligencia artificial, basados en datos de Lakehouse, para una interfaz conversacional para aplicaciones y quioscos con recomendaciones útiles.
- Marketing: Analice las redes sociales, las opiniones y las noticias para ver qué dicen los clientes y los expertos del sector sobre su producto. Vea lo que hacen y no les gusta, qué nuevas funciones desean y cómo se compara con sus competidores.
- Atención al cliente: Clasifique los tickets de soporte por producto y departamento para que los tickets lleguen al equipo adecuado más rápido. Utilice el análisis de percepciones para identificar puntos conflictivos urgentes y priorizar los tickets.
- Recursos humanos: automatice la detección de currículos mediante el reconocimiento de entidades para identificar habilidades clave y la educación. Clasifique los comentarios de los empleados mediante el análisis de percepciones y el reconocimiento de entidades para identificar las desventajas más comunes entre los empleados y los mejores pasos a seguir.
Con el data lakehouse, puede aprovechar los datos de cualquier parte y datos normalizados sobre la marcha, ejecutar AI/ML integrado a escala de Exadata, ampliar/reducir automáticamente en cualquier momento (ADW) y confiar en controles de seguridad avanzados para reducir en gran medida el riesgo.
- Las plataformas Oracle ERP, CRM, POS y externas envían datos y eventos al lago de datos, en tiempo real o mediante el procesamiento por lotes, con la ayuda de Oracle GoldenGate y Oracle Data Integration.
- En este ejemplo, Oracle Integration Cloud desempeña el papel adicional de enviar datos del data lakehouse a Oracle Procurement, a través del cual se puede notificar a los proveedores de las órdenes de compra ubicadas automáticamente.
- ADW utiliza un acelerador de consultas para realizar consultas rápidas y fluidas del lago de datos de Object Storage.
- El gateway de API escalable expone los datos a escala a las aplicaciones
- Oracle Analytics Cloud y Oracle Data Science se integran a la perfección con los servicios del data lakehouse.
- Autonomous Data Warehouse
Base de datos autónoma de Oracle totalmente gestionada y de escala automática que incluye Oracle Machine Learning. Los científicos de datos pueden crear, evaluar, puntuar y desplegar modelos de aprendizaje automático mediante las funciones de Oracle Machine Learning de la base de datos y la interfaz de bloc de notas relacionada.
- Object Storage
El almacenamiento de objetos de OCI es una plataforma de almacenamiento de alto rendimiento a escala de Internet que ofrece durabilidad de datos rentable y fiable. Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Puede almacenar o recuperar datos de manera segura directamente desde Internet o desde la plataforma en la nube. Las múltiples interfaces de gestión le permiten empezar fácilmente a pequeña escala y ampliarse sin problemas, sin experimentar una degradación del rendimiento ni de la fiabilidad del servicio.
El almacenamiento de objetos también se puede utilizar como capa de almacenamiento en frío para el almacén de datos mediante el almacenamiento de datos que se utilizan con poca frecuencia y, a continuación, su unión con los datos más recientes mediante el uso de tablas híbridas en Oracle Autonomous Data Warehouse.
- Catálogo de datos
OCI Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Data Catalog proporciona un entorno único colaborativo para gestionar metadatos técnicos, de negocio y operativos.
- Oracle Analytics Cloud
Oracle Analytics Cloud es un servicio en la nube pública escalable y seguro que ofrece a los analistas empresariales funciones de autoservicio modernas que funcionan con IA para la preparación de datos, la visualización, la generación de informes empresariales, los análisis aumentados y el procesamiento y la generación de lenguaje natural. Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, como una configuración rápida, ampliaciones y parches sencillos, y gestión automatizada del ciclo de vida.
Oracle Analytics Cloud está integrado con Oracle Machine Learning. Esta integración permite a los analistas mostrar los modelos disponibles en la base de datos y utilizar esos modelos en los paneles de control y análisis de Oracle Analytics Cloud. OAC Data Visualization permite a los usuarios aplicar modelos de aprendizaje automático incorporados o modelos propios entrenados a la vez que visualizan los datos.
- Data Science
OCI Data Science es una plataforma sin servidor y totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) con OCI. Puede integrarse fácilmente con otros servicios de OCI como Autonomous Data Warehouse, Object Storage y mucho más. Puede crear y evaluar modelos de aprendizaje automático de alta calidad, aumentar la flexibilidad empresarial poniendo datos de confianza para que funcionen rápidamente y respaldar objetivos empresariales basados en datos con un despliegue más sencillo de modelos de AA.
Data Science se integra con el resto de la pila de OCI, incluido Functions, Data Flow, Autonomous Data Warehouse y Object Storage. El kit de desarrollador de software (SDK) de Oracle Accelerated Data Science (ADS) es una biblioteca Python incluida como parte del servicio OCI Data Science, que tiene muchas funciones y objetos que automatizan o simplifican los pasos del flujo de trabajo de Data Science, incluida la conexión a datos, la exploración y visualización de datos, el entrenamiento de un modelo con AutoML, la evaluación de modelos y la explicación de modelos. ADS también proporciona una interfaz sencilla para acceder al catálogo de modelos del servicio de ciencia de datos y otros servicios OCI, incluido el almacenamiento de objetos.
- Oracle Data Integration
Utilice la integración de datos de OCI para optimizar el flujo de datos entre sistemas. Soporta ETL declarativo sin código o con poco código y desarrollo de pipeline de datos.
- GoldenGate
Oracle Cloud Infrastructure GoldenGate es un servicio gestionado que proporciona una plataforma de malla de datos en tiempo real, que utiliza la replicación para mantener los datos altamente disponibles y permitir el análisis en tiempo real. Los clientes pueden diseñar, ejecutar y supervisar sus soluciones de replicación de datos y procesamiento de datos de flujo sin necesidad de asignar o gestionar entornos informáticos.
- Gateway de API
El servicio de gateway de API le permite publicar API con puntos finales privados accesibles desde la red y que se pueden mostrar a la red pública si es necesario. Los puntos finales soportan la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes.
- Red virtual en la nube
Uno de sus primeros pasos en OCI es configurar una red virtual en la nube (VCN) para sus recursos en la nube. Una VCN es una red definida por software que se configura en una región de OCI. Las VCN se pueden segmentar en subredes, que pueden ser específicas de una región o de un dominio de disponibilidad. Tanto las subredes específicas de región como las específicas de dominio de disponibilidad pueden coexistir en la misma VCN. Una subred puede ser pública o privada.
- Container Engine para Kubernetes
OCI Container Engine for Kubernetes es un servicio totalmente gestionado, escalable y con alta disponibilidad que puede utilizar para desplegar las aplicaciones en contenedores en la nube. Especifique los recursos informáticos que necesitan sus aplicaciones y Container Engine for Kubernetes los aprovisionará en Oracle Cloud Infrastructure en un arrendamiento existente. Container Engine for Kubernetes utiliza Kubernetes para automatizar el despliegue, el ajuste y la gestión de aplicaciones en contenedores en clusters de hosts.
- Registro
OCI Registry es un registro gestionado por Oracle que permite simplificar el flujo de trabajo de desarrollo a producción. El registro facilita el almacenamiento, el uso compartido y la gestión de artefactos de desarrollo, como imágenes de Docker. La arquitectura altamente disponible y escalable de Oracle Cloud Infrastructure garantiza que pueda desplegar y gestionar sus aplicaciones de forma fiable.
Recomendaciones
- VCN
Al crear una VCN, determine el número de bloques CIDR necesarios y el tamaño de cada bloque según el número de recursos que planea asociar a subredes de la VCN. Utilice bloques CIDR que estén dentro del espacio de direcciones IP privadas estándar.
Seleccione bloques CIDR que no se superpongan con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor en la nube) a la que desee configurar conexiones privadas.
Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques de CIDR.
Al diseñar las subredes, tenga en cuenta los requisitos de flujo de tráfico y seguridad. Conecte todos los recursos de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.
- Seguridad
Utilice políticas para restringir quién puede acceder a los recursos de OCI que tiene su compañía y cómo pueden acceder a ellos.
Utilice Oracle Cloud Guard para supervisar y mantener la seguridad de los recursos en OCI de forma proactiva. Cloud Guard utiliza recetas de detector que puede definir para examinar los recursos con el fin de detectar puntos débiles en la seguridad y para supervisar los operadores y usuarios en busca de actividades de riesgo. Cuando se detecta una configuración incorrecta o una actividad insegura, Cloud Guard recomienda acciones correctivas y ayuda con esas acciones, en función de las recetas de los respondedores que puede definir. Para los recursos que requieren máxima seguridad, Oracle recomienda utilizar zonas de seguridad. Una zona de seguridad es un compartimento asociado a una receta definida por Oracle de políticas de seguridad basadas en las mejores prácticas. Por ejemplo, los recursos de una zona de seguridad no deben ser accesibles desde el Internet público y deben cifrarse mediante claves gestionadas por el cliente. Al crear y actualizar recursos en una zona de seguridad, OCI valida las operaciones con respecto a las políticas de la receta de zona de seguridad y deniega las operaciones que violan cualquiera de las políticas.
- Autonomous Data Warehouse
El almacenamiento de objetos ofrece durabilidad de datos fiable y rentable. Proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidos datos de base de datos, datos analíticos, imágenes, vídeos y mucho más. Recomendamos utilizar el almacenamiento estándar para ingerir datos de orígenes externos y utilizarlos para un procesamiento posterior, ya que puede acceder de forma rápida y frecuente. Puede crear una política de ciclo de vida para mover los datos al almacenamiento en frío desde el estándar cuando ya no se necesitan con frecuencia.
- Catálogo de datos
Catálogo de datos Para tener una visión completa e integral de los datos almacenados y que fluyen en la plataforma, considere la posibilidad de recopilar no solo los almacenes de datos que admiten la capa de persistencia de datos, sino también los almacenes de datos de origen. La asignación de estos metadatos técnicos recopilados al glosario de negocio y su enriquecimiento con propiedades personalizadas permite asignar conceptos de negocio y documentar y controlar definiciones de seguridad y acceso.
Para facilitar la creación de tablas externas de Oracle Autonomous Data Warehouse que virtualizan los datos almacenados en Oracle Cloud Infrastructure Object Storage, aproveche los metadatos recopilados previamente por el catálogo de datos de Oracle Cloud Infrastructure. Esto simplifica la creación de tablas externas, fuerza la coherencia de los metadatos en los almacenes de datos y es menos susceptible a los errores humanos.