Plataforma de datos - Federación de datos

Una arquitectura de data lakehouse le ayudará a recopilar y analizar eficazmente datos de eventos y datos de transmisión de dispositivos en tiempo real y a correlacionarlos con una amplia gama de recursos de datos empresariales para aprovechar su inversión en datos y obtener la información que desee.

Pero, ¿cómo se correlacionan los datos de su data lakehouse con los datos que residen en sus orígenes de datos heterogéneos o que se despliegan en otras nubes o sistemas locales, sin necesidad de duplicar datos?

La respuesta es aprovechar un enfoque de federación de datos que combina los datos de su data lakehouse con los datos federados de almacenes en la nube de terceros y los datos de bases de datos en la nube y locales, independientemente de su ubicación física.

Esta arquitectura de referencia posiciona la solución tecnológica dentro del contexto empresarial general:

A continuación se incluye la Descripción de data-driven-business-context.png

Descripción de la ilustración data-driven-business-context.png

La federación de datos es una técnica que permite la integración, unificación y gobernanza de datos que se almacenan en diferentes almacenes de datos mediante un motor de consultas federado que convierte una sola consulta en subconsultas que se envían a los almacenes de datos de origen. Los resultados se fusionan y se presentan al usuario o aplicación, como se muestra a continuación.

A continuación se incluye la Descripción de data-platform-federation-overview.png

Descripción de la ilustración data-platform-federation-overview.png

data-platform-federation-overview-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

A menudo, la federación de datos se intercambia con la virtualización de datos. La virtualización de datos crea una vista unificada de los datos de múltiples fuentes sin duplicar los datos, y proporciona datos nuevos en tiempo real.

Para los fines de esta arquitectura de referencia, se utiliza el término federación de datos, aunque las capacidades que se describen a continuación abordan tanto la federación como la virtualización.

El uso de la federación de datos simplifica el acceso a los datos para los consumidores, como los motores de análisis y ciencia de datos, al conectarlos a un motor federado en lugar de a varios orígenes de datos, lo que aumenta la reutilización, la gobernanza y la seguridad de los datos federados.

Los motores de análisis ofrecen tradicionalmente capacidades de federación de datos que se pueden utilizar como complemento del motor de servicio federado. Normalmente, los motores de servicios de datos federados tienen más capacidades para aumentar el rendimiento y abordar la escalabilidad, lo que beneficia implícitamente a esos motores de análisis.

En este documento se describe una posible solución para la federación de datos dentro de Oracle Cloud Infrastructure, pero puede haber alternativas que utilicen diferentes tecnologías para diferentes escenarios.

Arquitectura funcional

Esta arquitectura utiliza un data lakehouse para almacenar y trabajar con datos, independientemente de su forma o forma. En el núcleo de esta arquitectura se encuentra el almacén de datos desplegado en Oracle Autonomous AI Lakehouse.

Además, la arquitectura utiliza un motor de consultas unificado para federar los datos seleccionados de orígenes seleccionados con los datos de lakehouse. Los datos federados se obtienen mediante mecanismos como tablas externas, enlaces de base de datos y uso compartido de datos, según el almacén de datos.

Una arquitectura de federación que combina los datos de lakehouse y los almacenes de datos existentes le permite:

Unir todos los datos independientemente de dónde se almacenen
Admite una plataforma de datos multinube y de nube híbrida que federa los datos almacenados en otras nubes y de forma local
Simplifique la experiencia del consumidor de datos al obtener y consultar datos de diferentes motores
Aumente la seguridad, ya que se puede aplicar un único modelo de seguridad de datos en el motor de consultas federado
Aumentar la gobernanza mediante el uso de un catálogo de datos que unifica los metadatos para las entidades almacenadas en el lakehouse y federadas con el motor de consultas
Aumentar el rendimiento aprovechando la materialización de datos y el almacenamiento en caché de la base de datos autónoma
Muestre datos unificados y seleccionados a diferentes consumidores mediante paneles de control de análisis, interfaces SQL, puntos finales de API y uso compartido de datos.
Uso de una base de datos de varios modelos como motor de consultas federado

El siguiente diagrama ilustra la arquitectura funcional. Por simplicidad, no se muestran todas las capacidades del lakehouse.

A continuación se incluye la Descripción de data-platform-federation-functional.png

Descripción de la ilustración data-platform-federation-functional.png

data-platform-federation-functional-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

Tenga en cuenta que esta arquitectura representa una plataforma de datos federada que utiliza principalmente procesamiento por lotes, pero se puede aumentar con capacidades de data lakehouse en tiempo real para procesar datos de transmisión.

El procesamiento de datos de transmisión a menudo necesita consumir datos contextuales dentro de sus pipelines de datos. Los datos contextuales se pueden almacenar en diferentes orígenes de datos, pero un motor de federación de datos que atiende todos los datos contextuales a los pipelines de datos simplifica esos pipelines.

La arquitectura se centra en las siguientes divisiones lógicas:

Ingestión, transformación

Ingiere y refina los datos para su uso en cada una de las capas de datos de la arquitectura.

Los datos federados se consumen a demanda desde el almacenamiento en la nube, las bases de datos y los recursos compartidos de datos. Los datos no se transforman en esta capa porque ya se han seleccionado en el almacén de datos de origen.

Conservar, curar, crear

Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos se pueden estructurar lógica o físicamente en formas relacionales, longitudinales, dimensionales o OLAP simples. Para los datos no relacionales, esta capa contiene uno o más grupos de datos, ya sea de salida de un proceso analítico o datos optimizados para una tarea analítica específica.

Esta capa contiene el motor de servicio federado que unifica y sirve los datos que residen en el almacén de datos, el lago de datos y los orígenes de datos federados. Ofrece la capacidad de consultar datos federados a demanda y de materializar datos federados para aumentar el rendimiento de las consultas.

El motor federado ofrece la capacidad de servir datos mediante el uso de SQL, API de REST o uso compartido de datos, lo que aumenta la interoperabilidad al tiempo que simplifica la conectividad, ya que los consumidores de datos se conectan a un único motor de servicio en lugar de a varios almacenes de datos.

Análisis, aprendizaje y predicción

Resume la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles para el desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes desde varios orígenes federados.

Esta capa aprovecha el motor de servicio para obtener datos federados que se pueden aumentar aún más con los conectores de datos disponibles en esta capa y proporcionados por los servicios de visualización o ciencia de datos.

El uso de un motor de consultas federado permite que el acceso de los consumidores de datos se abstraiga de los almacenes de datos subyacentes, lo que aumenta la productividad a medida que los datos se federan una vez y los consumen muchos consumidores de datos. Esto también hace que el sistema sea más interoperable, ya que cualquier consumidor que pueda interoperar con SQL, API de REST o uso compartido de datos puede utilizar y unir lakehouse y datos federados.

La arquitectura tiene los siguientes componentes funcionales:

Ingestión de lote

La ingesta por lotes es útil para los datos que no se pueden ingerir en tiempo real o que son demasiado costosos para adaptarse a la ingesta en tiempo real. También es importante para transformar los datos en información confiable y confiable que se pueda curar y persistir para el consumo regular.

La ingesta por lotes complementa el motor de federación de datos porque puede ingerir datos a los que el motor de federación no tiene acceso nativo o para casos de uso específicos en los que los datos se deben transformar para ajustarse al modelo de datos de lakehouse.

Puede utilizar los siguientes servicios de forma conjunta o independiente para lograr un flujo de trabajo de transformación e integración de datos altamente flexible y eficaz.

Oracle Cloud Infrastructure Data Integration es un servicio sin servidor y totalmente gestionado para diseñar y ejecutar pipelines de datos. Permite una extracción, transformación y carga perfectas de datos en destinos de OCI como Autonomous AI Lakehouse y OCI Object Storage. Los usuarios pueden crear flujos de integración a través de una interfaz intuitiva sin código que escala automáticamente los entornos de ejecución. Soporta ETL con procesamiento basado en Spark y ELT mediante SQL Pushdown para obtener rendimiento y eficiencia. El servicio también ofrece herramientas para la preparación de datos y protege contra el cambio de esquema con el manejo basado en reglas.
Oracle Data Integrator proporciona una integración completa de datos, desde cargas por lotes de alto volumen y alto rendimiento, hasta procesos de integración basados en eventos y de alimentación por goteo, hasta servicios de datos activados para SOA. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de transformación y validación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y ejecución de ELT y para ayudar a los usuarios a crear y programar datos y flujos de trabajo mediante un enfoque de diseño declarativo.
Las transformaciones de datos de Oracle permiten ELT para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante el uso de una interfaz de usuario web que permite a los usuarios crear y programar de forma declarativa flujos de datos y flujos de trabajo. Oracle Data Transforms está disponible como un entorno totalmente gestionado dentro de Oracle Autonomous AI Lakehouse para cargar y transformar datos de varios orígenes de datos en una instancia de Oracle Autonomous AI Lakehouse.

En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una integración y transformación de datos altamente flexibles y eficaces.

Procesamiento por lotes

El procesamiento por lotes transforma los juegos de datos a gran escala almacenados en el data lakehouse. El procesamiento por lotes aprovecha los servicios nativos de Oracle Cloud Infrastructure que se integran a la perfección con Oracle Cloud Infrastructure Object Storage y le permite crear datos seleccionados para casos de uso como agregación y enriquecimiento de datos, ingestión de almacenes de datos y uso de datos de inteligencia artificial y Machine Learning a escala.

Oracle Cloud Infrastructure Data Integration, descrito anteriormente, es un servicio nativo en la nube sin servidor y totalmente gestionado que extrae, carga, transforma, limpia y remodela datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Oracle Autonomous AI Lakehouse y Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones de Apache Spark sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar las operaciones. Las aplicaciones de Data Flow son plantillas reutilizables que constan de una aplicación de Spark, sus dependencias, los parámetros por defecto y una especificación del recurso de tiempo de ejecución por defecto.

Ración

Oracle Autonomous AI Lakehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que está optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. OCI gestiona la creación, la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

Después del aprovisionamiento, puede escalar el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos en cualquier momento sin que esto afecte a la disponibilidad o el rendimiento.

Oracle Autonomous AI Lakehouse también puede virtualizar los datos que residen en el almacenamiento de objetos como tablas particionadas externas e híbridas para que pueda unir y consumir datos derivados de otros orígenes con los datos del almacén. También puede mover datos históricos del almacén al almacenamiento de objetos y, a continuación, utilizarlos sin problemas mediante tablas particionadas híbridas.

Oracle Autonomous AI Lakehouse puede utilizar metadatos recopilados previamente almacenados en Oracle Cloud Infrastructure Data Catalog para crear tablas externas y puede sincronizar automáticamente las actualizaciones de metadatos en Oracle Cloud Infrastructure Data Catalog con la definición de tablas externas para mantener la coherencia, simplificar la gestión y reducir el esfuerzo.

Las vistas analíticas, una función de base de datos de IA autónoma, proporcionan una forma rápida y eficiente de crear consultas analíticas de datos almacenados en tablas y vistas de base de datos existentes. Las vistas analíticas organizan los datos mediante un modelo dimensional. Le permiten agregar fácilmente agregaciones y cálculos a los juegos de datos y presentar datos en vistas que se pueden consultar con SQL relativamente sencillo. Esta función le permite modelar semánticamente un esquema de estrella o copo de nieve directamente en Oracle Autonomous AI Lakehouse, utilizando datos almacenados interna y externamente, y permite el consumo del modelo mediante el uso de SQL y cualquier consumidor de datos compatible con SQL.

Oracle Autonomous AI Lakehouse proporciona la capacidad de federar y consultar datos almacenados en tiendas en la nube de terceros (es decir, AWS S3, Azure Blob y GCP CGS), en bases de datos en la nube de terceros (es decir, AWS Redshift, Azure Synapse Analytics, Google BigQuery y Snowflake), bases de datos de terceros (es decir, IBM DB2, MongoDB, PostrgreSQL, Hive) e incluso aplicaciones SaaS.

En una sola consulta, Oracle Autonomous AI Lakehouse puede consultar y unir datos de almacenes en la nube, bases de datos en la nube y otras bases de datos populares, simplificando el acceso a los datos a los consumidores de motores de servicio, ya que se abstraen de la complejidad de consultar por separado, varios motores de consulta, para obtener un resultado unificado. También puede combinar estos datos con los datos obtenidos de los datos compartidos proporcionados por los productores que cumplen con el protocolo abierto Delta Sharing.

Almacenamiento en la nube

Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet que ofrece durabilidad confiable y rentable de datos. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo y contenido, incluidos datos analíticos. Puede almacenar datos de forma segura o recuperarlos directamente desde Internet o desde una plataforma de la nube. Varias interfaces de gestión le permiten empezar fácilmente a pequeña escala y ampliar sin problemas, sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio.

Oracle Cloud Infrastructure Object Storage también se puede utilizar como capa de almacenamiento en frío para el almacén de datos mediante el almacenamiento de datos que se utilizan con poca frecuencia y, a continuación, su unión sin problemas con los datos más recientes mediante el uso de tablas híbridas en Oracle Autonomous AI Lakehouse.

Visualizar/Aprender

Oracle Analytics Cloud es un servicio de nube pública escalable y seguro que proporciona un conjunto completo de capacidades para explorar y realizar análisis colaborativos para usted, su Grupo de Trabajo y su empresa. Apoya a los científicos de datos ciudadanos, la formación de analistas empresariales avanzados y la ejecución de modelos de aprendizaje automático (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous AI Lakehouse como modelos integrados en OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén y los servicios de IA de OCI, como Oracle Cloud Infrastructure Vision.

Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, como una configuración rápida, una fácil ampliación y aplicación de parches, y una gestión automatizada del ciclo de vida.

Aprender y predecir

Oracle Cloud Infrastructure Data Science proporciona infraestructura, tecnologías de código abierto, bibliotecas, paquetes y herramientas de ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo colaborativo y controlado por proyectos proporciona una experiencia de usuario cohesiva de extremo a extremo y soporta el ciclo de Vida de los modelos predictivos.

La función Trabajos de Data Science permite a los científicos de datos definir y ejecutar tareas repetibles de aprendizaje automático en una infraestructura totalmente gestionada.

La función de despliegue de modelos de Data Science permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, infundiendo inteligencia en procesos y aplicaciones y permitiendo que el negocio reaccione a los eventos relevantes a medida que se producen.

Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Oracle Autonomous AI Database, con soporte para Python y AutoML. Admite modelos que utilizan algoritmos escalables y de código abierto en la base de datos que reducen la preparación y el movimiento de datos. AutoML ayuda a los científicos de datos a acelerar el tiempo de obtención de valor de las iniciativas de aprendizaje automático de la empresa mediante la selección automática de algoritmos, el muestreo de datos adaptativo, la selección automática de funciones y el ajuste automático de modelos. Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous AI Lakehouse, no solo puede gestionar modelos, sino que también puede desplegar esos modelos como puntos finales de REST para democratizar las predicciones en tiempo real dentro de la empresa, lo que permite a las empresas reaccionar a los eventos relevantes a medida que ocurren, en lugar de hacerlo después.

Servicios AI

Los servicios de Oracle Cloud Infrastructure AI Services proporcionan un conjunto de servicios de IA listos para consumir que se pueden utilizar para admitir una amplia gama de casos de uso, desde el análisis de texto hasta el mantenimiento predictivo. Estos servicios tienen modelos predefinidos y ajustados finamente que puede integrar en pipelines de datos, análisis y aplicaciones mediante API.

Oracle Cloud Infrastructure Anomaly Detection proporciona un amplio juego de herramientas para identificar eventos u observaciones no deseables en datos empresariales en tiempo real, que permite tomar medidas para evitar interrupciones en la actividad de la compañía.

Oracle Cloud Infrastructure Language realiza análisis de texto sofisticados a escala. Con modelos preentrenados y personalizados, los desarrolladores pueden procesar texto no estructurado y extraer información sin experiencia en ciencia de datos. Los modelos preentrenados admiten el análisis de sentimientos, la extracción de frases clave, la clasificación de texto y el reconocimiento de entidades con nombre. También puede entrenar modelos personalizados para el reconocimiento de entidades con nombre y la clasificación de texto con juegos de datos específicos del dominio. El servicio de traducción le permite traducir texto en 21 idiomas diferentes.

Oracle Cloud Infrastructure Speech aprovecha la potencia del lenguaje hablado al permitirle convertir fácilmente archivos de medios que contengan voz humana en transcripciones de texto de alta precisión. La función de discurso de OCI puede utilizarse para transcribir llamadas a servicio al cliente, automatizar subtítulos y generar metadatos para activos multimedia a fin de crear un archivo en el que se puedan realizar búsquedas completas.

Oracle Cloud Infrastructure Vision realiza tareas de reconocimiento de imágenes y análisis de documentos, como la clasificación de imágenes, la detección y caras, la extracción de texto y el reconocimiento de tablas. Puede aprovechar modelos preentrenados o crear fácilmente modelos de visión personalizados para escenarios específicos del sector y del cliente. OCI Vision es un servicio en la nube nativo multiinquilino y totalmente gestionado que ayuda con todas las tareas comunes de visión por computadora.

Oracle Cloud Infrastructure Document Understanding realiza tareas de análisis de documentos, como la extracción de texto y el reconocimiento de tablas. El servicio OCI Document Understanding es un servicio en la nube nativo, multiinquilino y totalmente gestionado que ayuda con todas las tareas comunes de análisis de documentos.

Enriquecimiento de datos

El enriquecimiento de datos puede mejorar los datos que se utilizan para entrenar modelos de Machine Learning a fin de lograr resultados de predicción mejores y más precisos.

Oracle Cloud Infrastructure Data Labeling permite crear y examinar juegos de datos, ver registros de datos (texto o imágenes) y aplicar etiquetas con el fin de crear modelos de IA/AA. El servicio también proporciona interfaces de usuario interactivas diseñadas para ayudar en el proceso de etiquetado. Después de etiquetar los registros, el juego de datos se puede exportar como JSON delimitado por líneas para utilizarlo en el desarrollo de modelos de IA/AA.

API

La capa de API permite infundir la inteligencia derivada de Data Science y Oracle Machine Learning en aplicaciones, procesos de negocio y elementos que influyen y mejoran su operación y función. La capa de API proporciona un consumo seguro de los modelos desplegados por Data Science en los puntos finales de REST de Oracle Machine Learning y la capacidad de controlar el sistema para garantizar la disponibilidad de los entornos de tiempo de ejecución. También puede aprovechar las funciones para realizar una lógica adicional según sea necesario.

Oracle Cloud Infrastructure API Gateway le permite publicar API con puntos finales privados a los que se puede acceder desde la red y que puede exponer con direcciones IP públicas si quiere que acepten tráfico de Internet. Los puntos finales soportan las validaciones de API, las transformaciones de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes. Permite a la observabilidad de la API supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar los consumidores de API y los clientes de API que acceden a las API y para configurar diferentes niveles de acceso para diferentes clientes con el fin de realizar un seguimiento del uso de datos que se consume mediante las API. Los planes de uso son una función clave para admitir la monetización de datos.

Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multiinquilino, altamente escalable y a demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y está basado en el motor de código abierto Fn Project.

Oracle REST Data Services (ORDS) es una aplicación de Java que permite a los desarrolladores con habilidades de SQL y base de datos desarrollar API de REST de Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje, sin instalar ni mantener controladores de cliente, de la misma forma que acceden a otros servicios externos mediante REST, la tecnología de API más utilizada. ORDS se despliega como una función totalmente gestionada en Oracle Autonomous AI Lakehouse y se puede utilizar para exponer la información del lakehouse mediante el uso de API a los consumidores de datos.

Gobernanza de datos

Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de dónde residen los activos técnicos, como los metadatos y los atributos correspondientes, y ofrece la capacidad de mantener un glosario de negocio asignado a esos metadatos técnicos. Oracle Cloud Infrastructure Data Catalog también puede servir metadatos al almacén de Oracle Autonomous AI Lakehouse para facilitar la creación de tablas externas en el almacén de datos.

Seguridad de datos

La seguridad de los datos es crucial para explorar y utilizar al máximo los datos de lakehouse. Aprovechando un modelo de seguridad de confianza cero con capacidades de defensa en profundidad y RBAC, y garantizando el cumplimiento de la regulación más estricta, la seguridad de los datos proporciona controles de seguridad preventivos, detectives y correctivos para garantizar que se eviten la filtración y las infracciones de los datos.

Oracle Data Safe es un servicio de Oracle Cloud totalmente integrado centrado en la seguridad de los datos. Proporciona un conjunto de funciones completo e integrado para proteger datos confidenciales y regulados en las bases de datos de Oracle Cloud, como Oracle Autonomous AI Lakehouse. Las funciones incluyen la evaluación de la seguridad, la evaluación de usuarios, la detección de datos, el enmascaramiento de datos y la auditoría de actividades.

Oracle Cloud Infrastructure Audit proporciona visibilidad de las actividades relacionadas con los recursos y arrendamientos de Oracle Cloud Infrastructure (OCI). Los eventos de log de auditoría se pueden utilizar para llevar a cabo auditorías en materia de seguridad, un seguimiento del uso y los cambios llevados a cabo en recursos de OCI, así como para ayudar a garantizar que se cumplan los estándares y las normativas.

Oracle Cloud Infrastructure Logging proporciona una interfaz única altamente escalable y totalmente gestionada para todos los logs del arrendamiento, incluidos los logs de auditoría. Utilice OCI Logging para acceder a los logs de todos los recursos de OCI para que pueda activarlos, gestionarlos y buscarlos.

Oracle Cloud Infrastructure Vault es un servicio de gestión de cifrado que almacena y gestiona claves y secretos de cifrado a fin de acceder de forma segura a los recursos. Permite que las claves gestionadas por el cliente se utilicen para Oracle Autonomous AI Lakehouse y el cifrado del lago de datos para aumentar la protección de datos en reposo. Permite que los secretos almacenen de forma segura servicios y credenciales de usuario para mejorar su estrategia de seguridad y garantizar que las credenciales no se vean comprometidas y se utilicen de manera inapropiada.

Arquitectura Física

La arquitectura física de esta plataforma de datos admite lo siguiente:

Oracle Autonomous AI Lakehouse obtiene datos de los orígenes de datos federados mediante funciones de conectividad heterogéneas gestionadas por Oracle
Oracle Autonomous AI Lakehouse utiliza bases de datos de destino accesibles desde la red pública de Internet que están configuradas y permiten conexiones SSL/TLS entrantes, para que la conectividad heterogénea gestionada por Oracle pueda conectar y consultar datos de forma segura
Oracle Autonomous AI Lakehouse lee datos de Databricks mediante recursos compartidos de datos
Se puede acceder a los recursos compartidos de datos del tejido de datos mediante la red pública de Internet, pero se protegen mediante los archivos de credenciales proporcionados por el tejido de datos
Los datos de AWS S3, Azure Blob y Google Cloud Storage están federados y se leen a demanda mediante tablas externas o se copian en Oracle Autonomous AI Lakehouse según el caso de uso y los requisitos
Los datos de orígenes de datos no federados se ingieren de forma segura mediante microlotes y archivos de orígenes de datos relacionales y no relacionales que no están federados
Los datos se procesan mediante una combinación de Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow
Los datos se almacenan en Oracle Autonomous AI Lakehouse y Oracle Cloud Infrastructure Object Storage y se organizan en función de su calidad y valor
Oracle Autonomous AI Lakehouse presta servicios de almacenamiento, lago y datos federados de forma segura a los consumidores
Oracle Analytics Cloud muestra los datos a los usuarios profesionales mediante visualizaciones
Oracle Analytics Cloud se muestra mediante el uso de Oracle Cloud Infrastructure Load Balancer protegido por Oracle Cloud Infrastructure Web Application Firewall (WAF) para proporcionar acceso mediante Internet
Oracle Cloud Infrastructure Data Science se utiliza para crear, entrenar y desplegar modelos de aprendizaje automático (ML).
Oracle Cloud Infrastructure API Gateway se utiliza para controlar los despliegues del modelo de aprendizaje automático de Data Science
Oracle Cloud Infrastructure Data Catalog recopila metadatos de Oracle Autonomous AI Lakehouse y el almacenamiento de objetos
Los administradores utilizan Oracle Cloud Infrastructure Bastion para gestionar recursos de nube privada

El siguiente diagrama ilustra la arquitectura:

A continuación se incluye la Descripción de data-platform-federation-physical.png

Descripción de la ilustración data-platform-federation-physical.png

data-platform-federation-physical-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

El diseño para la arquitectura física:

Aprovecha 2 VCN, una para hub y otra para la propia carga de trabajo
La conectividad local utiliza Oracle Cloud Infrastructure FastConnect y Oracle Cloud Infrastructure Site-to-Site VPN para obtener redundancia
Todo el tráfico entrante desde la ubicación local y desde Internet se enruta primero a la VCN de hub y, a continuación, a la VCN de carga de trabajo
Todos los datos son seguros en tránsito y estáticos
Los servicios se despliegan con puntos finales privados para aumentar la estrategia de seguridad
La VCN se divide en varias subredes privadas para aumentar la estrategia de seguridad
Los datos del lago se separan en varios cubos del almacenamiento de objetos, aprovechando una arquitectura de medallón
A los orígenes de datos federados y los almacenes en la nube se accede mediante conectividad pública y el gateway de NAT asociado a la VCN de carga de trabajo.

Las posibles mejoras de diseño que no se muestran en este despliegue por simplicidad incluyen:

Aproveche la conectividad heterogénea gestionada por el cliente, mediante Oracle Database Gateway, para conectarse a orígenes de datos federados mediante conectividad privada
Aprovechamiento de una zona de aterrizaje completa compatible con CIS
Utilizar un firewall de red para mejorar la estrategia de seguridad general mediante la inspección de todo el tráfico y la aplicación de políticas

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para utilizar datos de orígenes de datos heterogéneos para el análisis empresarial y el Machine Learning.

Sus requisitos pueden diferir de la arquitectura que se describe aquí.

Oracle Autonomous AI Lakehouse

Esta arquitectura utiliza Oracle Autonomous AI Lakehouse en una infraestructura compartida.

Considere el uso de vistas materializadas para aumentar el rendimiento al acceder a datos federados.
Considere refrescar las vistas materializadas con la frecuencia necesaria para evitar que los datos federados se detengan.
Considere la posibilidad de crear vistas para consultar datos mediante enlaces de base de datos de orígenes federados para que esas vistas se recopilen y catalogen en Oracle Cloud Infrastructure Data Catalog a fin de aumentar la gobernanza de datos.
Considere almacenar las credenciales de origen de datos federadas en un secreto en Oracle Cloud Infrastructure Vault para aumentar la estrategia de seguridad.
Considere el uso de las funciones de seguridad de Autonomous AI Database, como la ocultación (enmascaramiento dinámico de datos), en vistas que muestran datos federados para aumentar la seguridad de los datos.
Considere la posibilidad de utilizar el uso compartido de datos para consumir datos federados de orígenes de datos heterogéneos que sean compatibles con el protocolo abierto Delta Sharing.
Considere el uso compartido de datos para compartir datos seleccionados con consumidores que sean compatibles con el protocolo abierto Delta Sharing.
Considere la posibilidad de utilizar una conectividad heterogénea gestionada por el cliente con Oracle Database Gateway para conectarse a orígenes de datos federados con conectividad privada para la que necesita una mayor seguridad, una menor latencia o ambas.

Oracle Analytics Cloud

Esta arquitectura aprovecha Oracle Analytics Cloud (OAC) para ofrecer análisis aumentados a los usuarios finales.

Considera el uso de la amplia gama de orígenes de datos de OAC para complementar los orígenes de datos federados utilizados por Oracle Autonomous AI Lakehouse.
Considera federar los orígenes de datos necesarios en OAC en Oracle Autonomous AI Lakehouse para aumentar el rendimiento, el almacenamiento en caché, la descarga de procesamiento en el motor de servicio y la simplificación de la capa semántica analítica.

Tenga en cuenta que esta arquitectura se basa en una arquitectura de referencia de data lakehouse que incluye las recomendaciones que se aplican a su arquitectura. Consulte la sección Explorar más para obtener un enlace a la arquitectura de referencia de lakehouse y a los recursos.

Consideraciones

Al federar datos para el análisis, tenga en cuenta las siguientes opciones de implantación.

Orientación	Recomendación	Otras opciones	Racional
Refinería de datos	Oracle Cloud Infrastructure Data Integration	Oracle Data Integrator Transformaciones de datos de Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa de la nube, sin servidor y totalmente gestionada que es escalable y rentable.
Persistencia de datos	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse es una base de Datos fácil de usar, totalmente autónoma que se amplía en forma flexible, ofrece una rápida rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos de las tablas particionadas externas o híbridas de Object Storage. Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.
Procesamiento de datos	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow	Herramientas de terceros	Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa de la nube, sin servidor y totalmente gestionada que es escalable y rentable. Oracle Cloud Infrastructure Data Flow proporciona un entorno Spark sin servidor para procesar datos a escala con un modelo de pago por uso extremadamente flexible.
Acceso e interpretación	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Servicios de IA de Oracle Cloud Infrastructure	Herramientas de terceros	Oracle Analytics Cloud está totalmente gestionado y estrechamente integrado con los datos seleccionados enOracle Autonomous AI Lakehouse. Data Science es una plataforma totalmente gestionada de autoservicio que permite a los equipos de ciencias de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El servicio Data Science proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos. Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada para la ciencia de datos disponible con Oracle Autonomous AI Lakehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar y desplegar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén. Los servicios de IA de Oracle Cloud Infrastructure son un conjunto de servicios que proporcionan modelos predefinidos específicamente creados y entrenados para realizar tareas como inferir posibles anomalías o detectar sentimientos.

Explorar más

Obtenga más información sobre las características de esta arquitectura y sobre las arquitecturas relacionadas.

Acuses de recibo

Author: José Cruz

Contributors: Robert Lies