Esta arquitectura muestra cómo se utiliza un Data Lakehouse Oracle Cloud Infrastructure (OCI) para crear una plataforma de datos moderna para ingerir, procesar, almacenar, servir y visualizar datos de orígenes estructurados y no estructurados.
Los componentes arquitectónicos se dividen en 4 etapas y se presentan como un flujo de datos funcional:
- Productores de datos: Los productores de datos de transmisión incluyen a los productores de Kafka datos sobre precios y tipos de cambio y a los productores de eventos para datos comerciales. Los datos no estructurados se transfieren directamente al almacenamiento de objetos ("puque de datos bronce"). Los productores de datos programados o activados por eventos incluyen datos por lotes del almacenamiento de archivos y datos de referencia de sistemas de base de datos.
- Ingestión/Carga: los datos de transmisión persistentes se transfieren al almacenamiento de objetos "bronce". Los datos de transmisión también se procesan como datos de comercio anómalos y estadísticas de fondos en tiempo real. Data Integration procesa los datos programados o activados por eventos y los transfiere al almacenamiento de objetos "bronce".
- Conservar/transformar/calcular:
- Kafka Connect procesa los datos de transmisión para generar estadísticas de fondos en tiempo real y análisis de transmisión. Service Connector Hub coordina los datos comerciales anómalos y, con Oracle Cloud Infrastructure Notifications, para obtener estadísticas del usuario.
- Oracle Cloud Infrastructure Events, Oracle Functions y OCI Vision proporcionan extracción de texto y OCR para imágenes de fax desde el almacenamiento de objetos de bronce y transfieren los datos resultantes al almacenamiento de objetos "silver".
- En el Data Lakehouse, Oracle Cloud Infrastructure Data Flow limpia los datos del almacenamiento de objetos de bronce y los transfiere al almacenamiento de objetos plateado. Data Flow también procesa datos del almacenamiento de objetos plateado y los transfiere al almacenamiento de objetos "oro". Oracle Autonomous Data Warehouse (ADW) y Oracle Cloud Infrastructure Data Catalog proporcionan datos "oro" para usuarios finales y análisis.
- Servir/Visualizar: los usuarios finales acceden a la transmisión de datos anómalos o utilizan OpenSearch para realizar análisis y estadísticas en tiempo real. Los usuarios pueden utilizar Oracle Analytics Cloud o análisis de terceros para aprovechar los datos del Data Lakehouse. Los científicos de datos también pueden utilizar Oracle Cloud Infrastructure Data Science para aprovechar los datos del Data Lakehouse.