Planificar Data Lakehouse
Al planificar el Data Lakehouse, tenga en cuenta los siguientes casos de uso relevantes para bancos, corredores y servicios financieros que tienen miles de millones de registros de datos:
- Establecer un hub de datos de toda la empresa que conste de un almacén de datos para datos estructurados y un lago de datos para datos semiestructurados y no estructurados. Este Data Lakehouse se convierte en la única fuente de datos para sus datos.
- Integre orígenes de datos relacionales con otros conjuntos de datos no estructurados mediante tecnologías de procesamiento de big data.
- Utilice el modelado semántico y potentes herramientas de visualización para simplificar el análisis de datos.
Descripción del caso de uso de negocio
A continuación se muestra la vista de alto nivel de un sistema de evaluación de fondos que utiliza un sistema de contabilidad heredado para proporcionar los datos de valoración en lotes a un data mart.
El data mart también obtiene datos de referencia de lote de otros orígenes de datos de referencia. El data mart envía los datos de valoración de fondos en lotes a los sistemas descendentes del flujo de trabajo.
Dado que los precios se realizan de forma estática, normalmente al final del día, el sistema heredado, incluso cuando todos los sistemas funcionan bien, no responde a las necesidades de los usuarios.
Por ejemplo, en el segundo trimestre de 2022, cuando hubo una gran volatilidad en el mercado, todos los grupos de usuarios estaban muy alerta, y todos querían saber el último precio y valor de mercado para que pudieran identificar las posiciones de tenencia a lo largo del día. Capturar el precio más reciente y obtener el valor de mercado en tiempo real fue una gran petición para el sistema tradicional de valoración de fondos.
Para capturar el precio más reciente y obtener el valor de mercado en tiempo real, el sistema de contabilidad heredado debe capturar el precio más reciente, transferir los datos al data mart y repetir los flujos de trabajo por lotes varias veces al día, lo que no es suficientemente sensible ni sostenible.
Comprender la solución
La solución no requiere cambios en el sistema heredado, lo que continúa publicando datos de valoración por lotes como siempre.
Los precios y los tipos de cambio en tiempo real se capturan a partir de sus flujos respectivos y se aplican a los precios para encontrar el valor de mercado en distintas monedas.
Una arquitectura de Oracle Cloud Infrastructure sin servidor proporciona soporte tanto para datos por lotes como en tiempo real. Los datos de lote incluyen un flujo de instantánea para datos de referencia de cartera, delta incremental y flujo de captura de datos de cambio (CDC) para datos de valoración. Los datos en tiempo real incluyen flujos de precios y tipos de cambio. La arquitectura incluye un proceso para recopilar datos por lotes y en tiempo real para obtener el precio en tiempo real, el valor de mercado en moneda base y el valor de mercado en monedas extranjeras.
Arquitectura de ejemplo
En el siguiente diagrama se muestra una arquitectura de plataforma de datos moderna inspirada en el cliente en Oracle Cloud Infrastructure (OCI).
Esta arquitectura se puede utilizar para casos de uso financiero como, por ejemplo, para obtener información de fondos en tiempo real, detectar operaciones anómalas y para la limpieza, agregación y visualización de datos financieros generales.
oci-fund-lakehouse-arch-oracle.zip
Una de las características centrales de esta arquitectura es su Data Lakehouse de varios niveles. Consta de tres niveles distintos de tratamiento de datos en el lago de datos, Oracle Autonomous Data Warehouse (ADW) para el almacenamiento estructurado, Oracle Cloud Infrastructure Data Catalog para metadatos y gobernanza, y Data Flow para el procesamiento y transformación de big data mediante trabajos de Spark.
El lago de datos de bronce es el primer destino para los datos en un formato que a menudo es básico o cercano a él. Esto incluye datos que residen en OCI y datos de plataformas de terceros. Oracle Data Integration (ODI) es una de las herramientas utilizadas para esta integración.
La aplicación Data Flow gestiona la mayoría de la transformación y limpieza de datos bronce a plata. Oracle Cloud Infrastructure Vision extrae texto de imágenes de fax con tecnología de reconocimiento óptico de caracteres (OCR). Los datos de salida de Vision (texto) se envían desde el lago de bronce al lago de plata con la ayuda de Oracle Functions.
Data Flow realiza transformaciones de datos adicionales desde el nivel de lago plateado hasta el lago de datos dorado, donde los datos se cargan en ADW, que a su vez proporciona herramientas de análisis y visualización de Oracle Analytics Cloud y 3a parte.
La arquitectura incluye las siguientes funciones adicionales:
- Las notificaciones de comercio anómalas se proporcionan mediante OCI Streaming y OCI Notifications, integradas mediante OCI Service Connector Hub.
- Los análisis de flujo se proporcionan para obtener estadísticas de fondos en tiempo real enviando datos de transmisión de OCI al servicio de búsqueda de OCI con OpenSearch mediante Kafka Connect. OpenSearch Los paneles de control, un componente integrado del servicio de búsqueda de OCI, pueden proporcionar una visualización directa de los datos de OpenSearch.
- Los científicos de datos pueden explorar el Data Lakehouse utilizando OCI Data Science, una plataforma totalmente gestionada y sin servidor que puede utilizar para consultar ADW, Object Storage, nubes de terceros y sistemas locales conectados correctamente.


