Plataforma de datos - Federación de datos

Una arquitectura de data lakehouse te ayudará a recopilar y analizar eficazmente datos de eventos y datos de transmisión de dispositivos en tiempo real y a correlacionarlos con una amplia gama de recursos de datos empresariales para aprovechar tu inversión en datos y obtener la información que deseas.

Pero, ¿cómo se correlacionan los datos de su data lakehouse con datos que residen en orígenes de datos heterogéneos o que se despliegan en otras nubes o sistemas locales, sin necesidad de duplicar datos?

La respuesta es aprovechar un enfoque de federación de datos que combine los datos del data lakehouse con datos federados de almacenes en la nube de terceros y datos de bases de datos locales y en la nube, independientemente de su ubicación física.

Esta arquitectura de referencia posiciona la solución tecnológica dentro del contexto empresarial general:



La federación de datos es una técnica que permite la integración, unificación y gobernanza de datos almacenados en diferentes almacenes de datos mediante un motor de consultas federado que traduce una sola consulta en subconsultas que se envían a los almacenes de datos de origen. Los resultados se fusionan y se presentan al usuario o aplicación, como se muestra a continuación.



descripción general de data-platform-federation-oracle.zip

A menudo, la federación de datos se intercambia con la virtualización de datos. La virtualización de datos crea una vista unificada de los datos de varios orígenes sin duplicar los datos y sirve datos nuevos en tiempo real.

A los efectos de esta arquitectura de referencia, se utiliza el término federación de datos, aunque las capacidades descritas a continuación aborden tanto la federación como la virtualización.

El uso de la federación de datos simplifica el acceso a los datos para los consumidores, como los motores de análisis y ciencia de datos, al conectarlos a un motor de servicio federado en lugar de a varios orígenes de datos, lo que aumenta la reutilización, la gobernanza y la seguridad de los datos federados.

Los motores de análisis ofrecen tradicionalmente capacidades de federación de datos que se pueden utilizar como complemento del motor de servicio federado. Por lo general, los motores de servicio de datos federados tienen más capacidades para aumentar el rendimiento y abordar la escalabilidad que beneficia implícitamente a esos motores de análisis.

En este documento se describe una posible solución para la federación de datos en Oracle Cloud Infrastructure, pero puede haber alternativas que utilicen diferentes tecnologías para diferentes escenarios.

Arquitectura funcional

Esta arquitectura utiliza un data lakehouse para almacenar y trabajar con datos, independientemente de su forma o forma. En el núcleo de esta arquitectura se encuentra el almacén de datos desplegado en Oracle Autonomous Data Warehouse.

Además, la arquitectura utiliza un motor de consultas unificado para federar los datos seleccionados de orígenes seleccionados con los datos de lakehouse. Los datos federados se obtienen mediante mecanismos como tablas externas, enlaces de base de datos y uso compartido de datos, según el almacén de datos.

Una arquitectura de federación que combina datos de lakehouse y almacenes de datos existentes le permite:

  • Unir todos los datos, independientemente de dónde estén almacenados
  • Admite una plataforma de datos multinube y de nube híbrida que federa datos almacenados en otras nubes y on-premises
  • Simplifique la experiencia del consumidor de datos al obtener y consultar datos de diferentes motores
  • Aumente la seguridad a medida que se aplica un único modelo de seguridad de datos en el motor de consultas federado
  • Aumentar la gobernanza mediante un catálogo de datos que unifica los metadatos de las entidades almacenadas en el lakehouse y federadas con el motor de consultas
  • Aumentar el rendimiento aprovechando la materialización de datos y el almacenamiento en caché de la base de datos autónoma
  • Exponga datos unificados y seleccionados a diferentes consumidores mediante paneles de control de análisis, interfaces SQL, puntos finales de API y uso compartido de datos
  • Aprovechar una base de datos de varios modelos como motor de consultas federado

El siguiente diagrama ilustra la arquitectura funcional. Por simplicidad, no se muestran todas las capacidades del lago.



datos-plataforma-federación-funcional-oracle.zip

Tenga en cuenta que esta arquitectura representa una plataforma de datos federada que utiliza principalmente el procesamiento por lotes, pero se puede aumentar con las capacidades de data lakehouse en tiempo real para procesar datos de transmisión.

El procesamiento de datos de transmisión a menudo necesita consumir datos contextuales dentro de sus pipelines de datos. Los datos contextuales se pueden almacenar en diferentes orígenes de datos, pero un motor de federación de datos que sirve todos los datos contextuales a los pipelines de datos simplifica esos pipelines.

La arquitectura se centra en las siguientes divisiones lógicas:

Ingestión, transformación

Ingesta y refina los datos para su uso en cada una de las capas de datos de la arquitectura.

Los datos federados se consumen a demanda del almacenamiento en la nube, las bases de datos y los recursos compartidos de datos. Los datos no se transforman en esta capa porque ya se han seleccionado en el almacén de datos de origen.

Persistir, curar, crear

Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos pueden estar estructurados lógica o físicamente en formas relacionales, longitudinales, dimensionales o OLAP simples. Para los datos no relacionales, esta capa contiene uno o más pools de datos, ya sea salida de un proceso analítico o datos optimizados para una tarea analítica específica.

Esta capa contiene el motor de servicio federado que unifica y presta servicio a los datos que residen en el almacén de datos, el lago de datos y los orígenes de datos federados. Ofrece la capacidad de consultar datos federados a demanda y materializar datos federados para aumentar el rendimiento de las consultas.

El motor de federación ofrece la capacidad de servir datos mediante SQL, API de REST o uso compartido de datos, lo que aumenta la interoperabilidad al tiempo que simplifica la conectividad, ya que los consumidores de datos se conectan a un único motor de servicio en lugar de a varios almacenes de datos.

Análisis, aprendizaje y predicción

Resume la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles para el desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes de varios orígenes federados.

Esta capa aprovecha el motor de servicio para obtener datos federados que se pueden aumentar aún más con los conectores de datos disponibles en esta capa y proporcionados por los servicios de visualización o ciencia de datos.

El uso de un motor de consultas federado permite abstraer el acceso de los consumidores de datos de los almacenes de datos subyacentes, lo que aumenta la productividad a medida que los datos se federan una vez y son consumidos por muchos consumidores de datos. Esto también hace que el sistema sea más interoperable, ya que cualquier consumidor que pueda interoperar con SQL, API de REST o el uso compartido de datos puede utilizar y unir lakehouse y datos federados.

La arquitectura tiene los siguientes componentes funcionales:

Ingestión por lotes

La ingestión por lotes es útil para datos que no se pueden ingerir en tiempo real o que son demasiado costosos para adaptarse a la ingestión en tiempo real. También es importante para transformar los datos en información confiable y confiable que se pueda curar y persistir para el consumo regular.

La ingesta por lotes complementa el motor de federación de datos, ya que puede ingerir datos a los que el motor de federación no tiene acceso nativo o para casos de uso específicos en los que los datos deben transformarse para ajustarse al modelo de datos de lakehouse.

Puede utilizar los siguientes servicios de forma conjunta o independiente para lograr un flujo de trabajo de transformación e integración de datos altamente flexible y eficaz.

  • Oracle Cloud Infrastructure Data Integration es un servicio totalmente gestionado, sin servidor y en la nube que extrae, carga, transforma, limpia y vuelve a formar datos de una variedad de orígenes de datos en servicios de Oracle Cloud Infrastructure de destino, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) aprovecha el procesamiento de escalabilidad horizontal totalmente gestionado en Spark, y ELT (extract load transform) aprovecha las capacidades de reducción de SQL completas de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de obtención de valor para los datos recién ingeridos. Los usuarios diseñan los procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficientes, asignando y ampliando automáticamente el entorno de ejecución. Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.

  • Oracle Data Integrator proporciona una integración de datos completa, desde cargas por lotes de alto volumen y alto rendimiento, hasta procesos de integración de fuentes de goteo controlados por eventos y servicios de datos activados para SOA. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de validación y transformación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y ejecución de ELT y para ayudar a los usuarios a crear y programar datos y flujos de trabajo mediante un enfoque de diseño declarativo.

  • Oracle Data Transforms permite ELT para tecnologías soportadas seleccionadas, simplificando la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar flujos de datos y flujos de trabajo de forma declarativa. Oracle Data Transforms está disponible como un entorno totalmente gestionado en Oracle Autonomous Data Warehouse para cargar y transformar datos de varios orígenes de datos en una instancia de ADW.

En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una integración y transformación de datos muy flexibles y de gran rendimiento.

procesamiento por lotes

El procesamiento por lotes transforma juegos de datos a gran escala almacenados en el data lakehouse. El procesamiento por lotes aprovecha los servicios nativos de Oracle Cloud Infrastructure que se integran a la perfección con Oracle Cloud Infrastructure Object Storage y le permiten crear datos seleccionados para casos de uso como agregación y enriquecimiento de datos, ingesta de almacén de datos y aprendizaje automático y uso de datos de IA a escala.

Oracle Cloud Infrastructure Data Integration, descrito anteriormente, es un servicio totalmente gestionado, sin servidor y en la nube que extrae, carga, transforma, limpia y remodela datos de una variedad de orígenes de datos en servicios de Oracle Cloud Infrastructure de destino, como Oracle Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones Apache Spark sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, porque puede centrarse en sus aplicaciones sin tener que gestionar las operaciones. Las aplicaciones de flujo de datos son plantillas reutilizables que constan de una aplicación Spark y sus dependencias, los parámetros por defecto y una especificación de recurso en tiempo de ejecución por defecto.

Ración

Oracle Autonomous Data Warehouse es un servicio de base de datos autogestionado, autoseguridad y autorreparación optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, el cambio de versión y el ajuste de la base de datos.

Después del aprovisionamiento, puede escalar el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos en cualquier momento sin que la disponibilidad o el rendimiento se vean afectados.

ADW también puede virtualizar los datos que residen en el almacenamiento de objetos como tablas particionadas externas e híbridas para que pueda unir y consumir datos derivados de otros orígenes con los datos del almacén. También puede mover datos históricos del almacén al almacenamiento de objetos y, a continuación, consumirlos sin problemas mediante tablas particionadas híbridas.

ADW puede utilizar los metadatos recopilados anteriormente almacenados en Oracle Cloud Infrastructure Data Catalog para crear tablas externas y puede sincronizar automáticamente las actualizaciones de metadatos en Oracle Cloud Infrastructure Data Catalog con la definición de tablas externas para mantener la coherencia, simplificar la gestión y reducir el esfuerzo.

Las vistas analíticas, una función de Autonomous Database, proporcionan una forma rápida y eficaz de crear consultas analíticas de datos almacenados en tablas y vistas de base de datos existentes. Las vistas analíticas organizan los datos mediante un modelo dimensional. Permiten agregar fácilmente agregaciones y cálculos a los juegos de datos y presentar datos en vistas que se pueden consultar con SQL relativamente sencillo. Esta función permite modelar semánticamente un esquema de estrella o de copo de nieve directamente en ADW, mediante datos almacenados interna y externamente, y permite el consumo del modelo mediante SQL y cualquier consumidor de datos compatible con SQL.

ADW proporciona la capacidad de federar y consultar datos almacenados en tiendas en la nube de terceros (es decir, AWS S3, Azure Blob y GCP CGS), en bases de datos en la nube de terceros (es decir, AWS Redshift, Azure Synapse Analytics, Google BigQuery y Snowflake), bases de datos de terceros (es decir, IBM DB2, MongoDB, PostrgreSQL, Hive) e incluso aplicaciones SaaS.

En una sola consulta, ADW puede consultar y unir datos de almacenes en la nube, bases de datos en la nube y otras bases de datos populares, simplificando el acceso a los datos a los consumidores de motores de servicio, ya que se abstraen de la complejidad de realizar consultas por separado, varios motores de consulta, para obtener un resultado unificado. También puede combinar estos datos con datos obtenidos a partir de datos compartidos proporcionados por productores que cumplen con el protocolo abierto Delta Sharing.

Almacenamiento en la nube

Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Puede almacenar o recuperar datos de forma segura directamente desde Internet o desde la plataforma en la nube. Las múltiples interfaces de gestión le permiten empezar fácilmente a pequeña escala y escalar sin problemas, sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio.

Oracle Cloud Infrastructure Object Storage también se puede utilizar como capa de almacenamiento en frío para el almacén de datos mediante el almacenamiento de datos que se utilizan con poca frecuencia y, a continuación, su unión perfecta con los datos más recientes mediante tablas híbridas en Oracle Autonomous Data Warehouse.

Visualización/aprendizaje

Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un juego completo de capacidades para explorar y realizar análisis colaborativos para usted, su grupo de trabajo y su empresa. Apoya a los científicos de datos ciudadanos, la formación de analistas empresariales avanzados y la ejecución de modelos de aprendizaje automático (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous Data Warehouse como modelos integrados en OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén y los servicios de IA de OCI, como Oracle Cloud Infrastructure Vision.

Con Oracle Analytics Cloud también obtienes capacidades de gestión de servicios flexibles, que incluyen una configuración rápida, escalado y aplicación de parches fáciles y gestión automatizada del ciclo de vida.

Aprender y predecir

Oracle Cloud Infrastructure Data Science proporciona infraestructura, tecnologías de código abierto, bibliotecas, paquetes y herramientas de ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo de colaboración y controlado por proyectos proporciona una experiencia de usuario integral coherente y soporta el ciclo de vida de modelos predictivos. Data Science permite a los científicos de datos y a los ingenieros de aprendizaje automático descargar e instalar paquetes directamente desde el repositorio de Anaconda sin costo alguno, lo que les permite innovar en sus proyectos con un ecosistema de ciencia de datos curado de bibliotecas de aprendizaje automático.

La función Trabajos de Data Science permite a los científicos de datos definir y ejecutar tareas repetibles de aprendizaje automático en una infraestructura totalmente gestionada.

La función de despliegue de modelos de Data Science permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, infundir inteligencia en procesos y aplicaciones y permitir que el negocio reaccione a los eventos relevantes a medida que se producen.

Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Oracle Autonomous Database, con soporte para Python y AutoML. Soporta modelos que utilizan código abierto y algoritmos escalables en la base de datos que reducen la preparación y el movimiento de datos. AutoML ayuda a los científicos de datos a acelerar el tiempo de valor de las iniciativas de aprendizaje automático de la compañía mediante la selección automática de algoritmos, el muestreo de datos adaptativo, la selección automática de funciones y el ajuste automático de modelos. Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous Data Warehouse, no solo puedes gestionar modelos, sino que también puedes desplegar esos modelos como puntos finales REST para democratizar las predicciones en tiempo real dentro de la empresa, lo que permite a las empresas reaccionar a los eventos relevantes a medida que ocurren, en lugar de hacerlo después del hecho.

Servicios AI

Los servicios de Oracle Cloud Infrastructure AI Services proporcionan un conjunto de servicios de IA listos para consumir que se pueden utilizar para admitir una serie de casos de uso, desde el análisis de texto hasta el mantenimiento predictivo. Estos servicios tienen modelos predefinidos y finamente ajustados que puede integrar en pipelines de datos, análisis y aplicaciones mediante API.

Oracle Cloud Infrastructure Anomaly Detection proporciona un completo juego de herramientas para identificar eventos u observaciones deseados en los datos de negocio en tiempo real, de modo que pueda tomar medidas para evitar interrupciones en el negocio.

Oracle Cloud Infrastructure AI Language realiza análisis de texto sofisticados a escala. Con modelos preentrenados y personalizados, los desarrolladores pueden procesar texto no estructurado y extraer información sin experiencia en ciencia de datos. Los modelos entrenados admiten el análisis de sentimientos, la extracción de frases clave, la clasificación de texto y el reconocimiento de entidades con nombre. También puede entrenar modelos personalizados para el reconocimiento de entidades con nombre y la clasificación de texto con juegos de datos específicos del dominio. El servicio de traducción le permite traducir texto en 21 idiomas diferentes.

Oracle Cloud Infrastructure Speech aprovecha la potencia del lenguaje hablado al permitirle convertir fácilmente archivos de medios que contienen voz humana en transcripciones de texto muy precisas. OCI Speech se puede utilizar para transcribir llamadas al servicio de atención al cliente, automatizar subtítulos y generar metadatos para activos multimedia a fin de crear un archivo que permita realizar búsquedas completas.

Oracle Cloud Infrastructure Vision realiza tareas de reconocimiento de imágenes y análisis de documentos, como la clasificación de imágenes, la detección y las caras, la extracción de texto y el reconocimiento de tablas. Puede aprovechar modelos previamente entrenados o crear fácilmente modelos de visión personalizados para escenarios específicos del sector y del cliente. El servicio Vision es un servicio en la nube nativo multiinquilino totalmente gestionado que ayuda con todas las tareas comunes de visión por computadora.

Oracle Cloud Infrastructure Document Understanding realiza tareas de análisis de documentos, como la extracción de texto y el reconocimiento de tablas. El servicio OCI Document Understanding es un servicio en la nube nativo totalmente gestionado, multi-inquilino que ayuda con todas las tareas comunes de análisis de documentos.

Enriquecimiento de datos

El enriquecimiento de datos puede mejorar los datos que se utilizan para entrenar modelos de aprendizaje automático a fin de lograr resultados de predicción mejores y más precisos.

Oracle Cloud Infrastructure Data Labeling permite crear y examinar juegos de datos, ver registros de datos (texto o imágenes) y aplicar etiquetas para la creación de modelos de IA/AA. El servicio también proporciona interfaces de usuario interactivas diseñadas para ayudar en el proceso de etiquetado. Una vez etiquetados los registros, el juego de datos se puede exportar como JSON delimitado por líneas para su uso en el desarrollo de modelos de IA/AA.

API

La capa de API permite infundir la inteligencia derivada de Data Science y Oracle Machine Learning en aplicaciones, procesos de negocio y elementos para influir y mejorar su funcionamiento y función. La capa de API proporciona un consumo seguro de los modelos desplegados de Data Science en los puntos finales de REST de Oracle Machine Learning y la capacidad de controlar el sistema para garantizar la disponibilidad de los entornos de tiempo de ejecución. También puede aprovechar las funciones para realizar lógica adicional según sea necesario.

Oracle Cloud Infrastructure API Gateway le permite publicar API con puntos finales privados accesibles desde su red y que se pueden exponer con direcciones IP públicas si desea que acepten tráfico de Internet. Los puntos finales admiten la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes. Permite la observabilidad de API para supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar los consumidores de API y los clientes de API que acceden a las API y para configurar diferentes niveles de acceso para diferentes clientes con el fin de realizar un seguimiento del uso de datos que consumen las API. Los planes de uso son una función clave para admitir la monetización de datos.

Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multicliente, altamente escalable y a demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y en el motor de código abierto Fn Project.

Oracle REST Data Services (ORDS) es una aplicación de Java que permite a los desarrolladores con habilidades de SQL y base de datos desarrollar API de REST para Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje, sin instalar y mantener controladores de cliente, de la misma manera que acceden a otros servicios externos mediante REST, la tecnología de API más utilizada. ORDS se despliega como una función totalmente gestionada en ADW y se puede utilizar para exponer la información de lakehouse mediante el uso de API a los consumidores de datos.

Gobernanza de datos

Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de dónde residen activos técnicos, como metadatos y atributos respectivos, y ofrece la capacidad de mantener un glosario de negocio asignado a esos metadatos técnicos. Oracle Cloud Infrastructure Data Catalog también puede servir metadatos al almacén de Oracle Autonomous Data Warehouse para facilitar la creación de tablas externas en el almacén de datos.

Seguridad de datos

La seguridad de los datos es crucial para explorar y utilizar los datos de lakehouse al máximo. Aprovechando un modelo de seguridad de confianza cero con capacidades de defensa en profundidad y RBAC, y garantizando el cumplimiento de la regulación más estricta, la seguridad de los datos proporciona controles de seguridad preventivos, de detección y correctivos para garantizar que se eviten la filtración y las infracciones de datos.

Oracle Data Safe es un servicio de Oracle Cloud totalmente integrado que se centra en la seguridad de los datos. Proporciona un juego de funciones completo e integrado para proteger los datos confidenciales y regulados de las bases de datos de Oracle Cloud, como Oracle Autonomous Data Warehouse. Las funciones incluyen la evaluación de la seguridad, la evaluación de usuarios, la detección de datos, el enmascaramiento de datos y la auditoría de actividades.

Oracle Cloud Infrastructure Audit proporciona visibilidad de las actividades relacionadas con los recursos y los arrendamientos de Oracle Cloud Infrastructure (OCI). Los eventos del log de auditoría se pueden utilizar para realizar auditorías de seguridad para realizar un seguimiento del uso y los cambios realizados en los recursos de OCI, así como para ayudar a garantizar la conformidad con los estándares y las normativas.

Oracle Cloud Infrastructure Logging proporciona una interfaz única altamente escalable y totalmente gestionada para todos los logs del arrendamiento, incluidos los logs de auditoría. Utilice OCI Logging para acceder a los logs de todos los recursos de OCI para activarlos, gestionarlos y buscarlos.

Oracle Cloud Infrastructure Vault es un servicio de gestión de cifrado que almacena y gestiona claves de cifrado y secretos para acceder de forma segura a los recursos. Permite que las claves gestionadas por el cliente se utilicen para el cifrado de Oracle Autonomous Data Warehouse y lagos de datos para aumentar la protección de datos estáticos. Permite que los secretos almacenen de forma segura servicios y credenciales de usuario para mejorar su estrategia de seguridad y garantizar que las credenciales no se vean comprometidas y se utilicen de manera inapropiada.

Arquitectura Física

La arquitectura física de esta plataforma de datos soporta lo siguiente:
  • Oracle Autonomous Data Warehouse (ADW) obtiene datos de los orígenes de datos federados mediante las funciones de conectividad heterogénea gestionada por Oracle
  • ADW utiliza bases de datos de destino a las que se puede acceder desde la red pública de Internet que están configuradas y permiten conexiones SSL/TLS entrantes, para que la conectividad heterogénea gestionada por Oracle pueda conectar y consultar datos de forma segura
  • ADW lee datos de Databricks mediante recursos compartidos de datos
  • Se puede acceder a los recursos compartidos de datos de Databricks mediante la red pública de Internet, pero se protegen mediante los archivos de credenciales proporcionados por Databricks
  • Los datos de AWS S3, Azure Blob y Google Cloud Storage se federan y leen a demanda mediante tablas externas o se copian en ADW según el caso de uso y los requisitos
  • Los datos de orígenes de datos no federados se ingieren de forma segura mediante micro lotes y archivos de orígenes de datos relacionales y no relacionales que no están federados
  • Los datos se procesan mediante una combinación de Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow
  • Los datos se almacenan en ADW y Oracle Cloud Infrastructure Object Storage y se organizan en función de su calidad y valor
  • ADW presta servicios de almacenamiento, lago y datos federados de forma segura a los consumidores
  • Oracle Analytics Cloud muestra los datos a los usuarios profesionales mediante visualizaciones
  • Oracle Analytics Cloud se expone mediante Oracle Cloud Infrastructure Load Balancing protegido por Oracle Cloud Infrastructure Web Application Firewall (WAF) para proporcionar acceso mediante Internet
  • Oracle Cloud Infrastructure Data Science se utiliza para crear, entrenar y desplegar modelos de aprendizaje automático (ML).
  • Oracle Cloud Infrastructure API Gateway se utiliza para controlar los despliegues del modelo de aprendizaje automático de Data Science
  • Oracle Cloud Infrastructure Data Catalog recopila metadatos de ADW y almacenamiento de objetos
  • Los administradores utilizan Oracle Cloud Infrastructure Bastion para gestionar recursos de nube privada

En el siguiente diagrama se ilustra la arquitectura:



plataforma-datos-federación-física-oracle.zip

El diseño de la arquitectura física:

  • Aprovecha 2 VCN, una para hub y otra para la propia carga de trabajo
  • La conectividad local utiliza Oracle Cloud Infrastructure FastConnect y la VPN de sitio a sitio para conseguir redundancia
  • Todo el tráfico entrante desde la ubicación local y desde Internet se enruta primero a la VCN de hub y, a continuación, a la VCN de carga de trabajo
  • Todos los datos están protegidos tanto en tránsito como estáticos
  • Los servicios se despliegan con puntos finales privados para aumentar la estrategia de seguridad
  • La VCN se segrega en varias subredes privadas para aumentar la estrategia de seguridad
  • Los datos del lago se segmentan en varios cubos en el almacenamiento de objetos, aprovechando una arquitectura de medallón
  • A los orígenes de datos federados y los almacenes en la nube se accede mediante la conectividad pública y el gateway de NAT asociado a la VCN de carga de trabajo

Las posibles mejoras de diseño que no se muestran en este despliegue por simplicidad incluyen:

  • Aproveche la conectividad heterogénea gestionada por el cliente mediante Oracle Database Gateway para conectarse a orígenes de datos federados mediante conectividad privada
  • Aprovechamiento de una zona de aterrizaje totalmente compatible con CIS
  • Utilice un firewall de red para mejorar la estrategia de seguridad general mediante la inspección de todo el tráfico y la aplicación de políticas

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para utilizar datos de orígenes de datos heterogéneos para el análisis empresarial y el aprendizaje automático.

Los requisitos pueden diferir de la arquitectura que se describe aquí.

Oracle Autonomous Data Warehouse

Esta arquitectura utiliza Oracle Autonomous Data Warehouse (ADW) en una infraestructura compartida.

  • Considere el uso de vistas materializadas para aumentar el rendimiento al acceder a datos federados.
  • Considere refrescar las vistas materializadas con la frecuencia necesaria para evitar que los datos federados se paren.
  • Considere la posibilidad de crear vistas para consultar datos mediante enlaces de base de datos de orígenes federados para que dichas vistas se recopilen y catalogen en Oracle Cloud Infrastructure Data Catalog para una mayor gobernanza de datos.
  • Considere almacenar las credenciales del origen de datos federado en un secreto de Oracle Cloud Infrastructure Vault para aumentar la estrategia de seguridad.
  • Considere el uso de las funciones de seguridad de Autonomous Database, como la ocultación (enmascaramiento de datos dinámico), en vistas que muestren datos federados para aumentar la seguridad de los datos.
  • Considere el uso compartido de datos para consumir datos federados de orígenes de datos heterogéneos que sean compatibles con el protocolo abierto Delta Sharing.
  • Considere el uso compartido de datos para compartir datos seleccionados con consumidores compatibles con el protocolo abierto Delta Sharing.
  • Considere el uso de la conectividad heterogénea gestionada por el cliente con Oracle Database Gateway para conectarse a orígenes de datos federados con conectividad privada para los que necesita mayor seguridad, menor latencia o ambos.

Oracle Analytics Cloud

Esta arquitectura utiliza Oracle Analytics Cloud (OAC) para ofrecer análisis aumentados a los usuarios finales.

  • Considere el uso de la amplia gama de orígenes de datos de OAC para complementar los orígenes de datos federados utilizados por ADW.
  • Considere la federación de orígenes de datos necesarios en OAC en ADW para aumentar el rendimiento, el almacenamiento en caché, la descarga de procesamiento en el motor de servicio y la simplificación de la capa semántica analítica.

Tenga en cuenta que esta arquitectura se basa en una arquitectura de referencia de Data Lakehouse que incluye las recomendaciones aplicables a su arquitectura. Consulte la sección Explorar más para obtener un enlace a la arquitectura de referencia de lakehouse y a los recursos.

Consideraciones

Al federar datos para análisis, tenga en cuenta las siguientes opciones de implantación.

Orientación Recomendación Otras opciones Racional
Refinería de datos

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Los datos de Oracle Autonomous Database se transforman

Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es escalable y rentable.

Persistencia de datos
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse es una base de datos fácil de usar y totalmente autónoma que se escala de forma flexible, ofrece un rápido rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos de tablas particionadas híbridas o externas de almacenamiento de objetos.

Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.

Procesamiento de Datos
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
Herramientas de terceros

Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es escalable y rentable.

Oracle Cloud Infrastructure Data Flow proporciona un entorno de Spark sin servidor para procesar datos a escala con un modelo de pago por uso extremadamente flexible.

Acceso e interpretación
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Servicios de IA de Oracle Cloud Infrastructure
Herramientas de terceros

Oracle Analytics Cloud está totalmente gestionado e integrado con los datos seleccionados en Oracle Autonomous Data Warehouse.

Data Science es una plataforma de autoservicio totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El servicio Data Science proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos.

Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada para la ciencia de datos disponible con Oracle Autonomous Data Warehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar y desplegar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén.

Los servicios de IA de Oracle Cloud Infrastructure son un conjunto de servicios que proporcionan modelos predefinidos creados y entrenados específicamente para realizar tareas como inferir posibles anomalías o detectar sentimientos.

Confirmaciones

  • Author: José Cruz
  • Contributors: Robert Lies