Implante una arquitectura de integración de data lake multinube

Esta arquitectura de referencia muestra cómo las organizaciones pueden integrar datos de varios orígenes en el lago de datos de Oracle Cloud Infrastructure (OCI).

Esta arquitectura de referencia representa un caso de uso para una organización empresarial a gran escala con una estrategia de negocio que incluye la adquisición de nuevas organizaciones como parte de su plan de crecimiento a largo plazo. La organización está en proceso de crear un lago de datos con una plataforma de análisis y el análisis de costos es uno de los módulos incluidos.

La organización ha implantado Oracle Fusion Cloud Applications para finanzas en las que se almacenan los datos de factura.

La organización ha adquirido recientemente una nueva organización y utiliza Amazon Web Services (AWS) para alojar la aplicación de procesamiento de facturas. Es necesario llevar los datos de facturas de AWS a Oracle Cloud Infrastructure (OCI) donde se implanta el lago de datos y enriquecer los datos de facturas de alto volumen con información del centro de costos/proveedor antes de cargarlos en el lago de datos. Los datos del centro de costos se obtienen de Oracle Fusion Cloud Applications y los datos de proveedores se obtienen de una base de datos local MySQL.

Arquitectura

Esta arquitectura de referencia describe cómo puede llevar los datos de diferentes proveedores de nube y orígenes de datos locales a un lago de datos alojado en OCI. Esta arquitectura abarca la integración por lotes, la integración de datos, la integración en tiempo real y escenarios de integración basados en eventos.

El siguiente diagrama ilustra el flujo de datos para esta arquitectura de referencia.
A continuación se muestra la descripción de oci_multicloud_datalake_flow.png
Descripción de la ilustración oci_multicloud_datalake_flow.png

oci-multicloud-datalake-flow-oracle.zip

Integración de datos de OCI:
  1. Conecta y extrae datos de:
    • Servicios AWS y servicios Azure a través de adaptadores nativos.
    • Orígenes de datos locales mediante conectividad privada (FastConnect/VPN).
    • Aplicaciones de Oracle SaaS a través del conector BICC.
  2. Realiza la transformación de los datos extraídos.
  3. Carga datos en OCI Data Lake a través de adaptadores (ADB/Object Storage).
Oracle Integration Cloud:
  1. Recibe datos en tiempo real de distintos sistemas de origen, como aplicaciones de Oracle SaaS/servicios de IOT/Streaming/redes sociales/sistemas locales/otros proveedores de nube mediante adaptadores nativos.
  2. Realiza la lógica de transformación/orquestación.
  3. Carga datos en OCI Data Lake a través de adaptadores (ADB/Object Storage).

En el siguiente diagrama se ilustra esta arquitectura de referencia.



oci-multicloud-datalake-oracle.zip

Oracle Data Integration Service se utiliza para los siguientes escenarios:
  • Consolidación de datos mediante la captura de datos de varios sistemas de origen heterogéneos y la integración en un único almacén persistente. Esto se suele realizar mediante rutinas de extracción, transformación y carga (ETL).
  • Extracción de datos de gran volumen de los sistemas de origen (HDFS, base de datos autónoma de Oracle, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL, etc.) alojados en la red privada/pública (local del cliente, red en la nube de 3a parte (Azure VNet, AWS VPC)) y cargados en el lago de datos de OCI.
  • Extraer los datos de Oracle Fusion Cloud Applications mediante el conector de BICC/BI Publisher y, a continuación, cargarlos en el lago de datos de OCI.
  • Extracción de datos de gran volumen de varios orígenes con un patrón de orquestación.
  • Implementación de trabajos ETL programados (diarios, mensuales, semanales, mensuales, de expresión cron, etc.).

Oracle Integration Cloud (OIC) se utiliza para los siguientes escenarios:

  • Recepción de datos de aplicaciones de Oracle Cloud, CRM, comercio electrónico y aplicaciones en la nube locales/de 3a parte en tiempo real y, a continuación, carga en el lago de datos.
  • Cargar los datos en un lago de datos a partir de un archivo (menos volumen) generado por un origen de datos.
  • Exposición de las API de REST de Oracle Integration Cloud a plataformas de webhook, recepción de los datos en tiempo real y carga en el lago de datos.
  • Algunas plataformas de IOT (Geotab, CheckSafe, etc.) tienen la funcionalidad de webhook y envían datos a cualquier API de https para nuevos eventos a fin de que puedan conectarse directamente a API Gateway.
  • Recibir datos de plataformas de redes sociales (Facebook, LinkedIn, Twitter, Slack, etc.) y cargarlos en el lago de datos de OCI.
Oracle API Gateway se utiliza para los siguientes escenarios:
  • Publicación de API de OIC y API de aplicación con puntos finales privados a los que se puede acceder desde la red, o bien se puede exponer a la red pública de Internet si es necesario. Los puntos finales soportan la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes.
  • Separación de la seguridad y la lógica de negocio en el desarrollo de API.
  • Exposición de las API a los orígenes restringidos con controles de seguridad que pueden alimentar los datos al lago de datos descendente.

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones, y las grandes distancias pueden separarlas (entre países e incluso continentes).

  • dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten una infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, es improbable que un fallo en un dominio de disponibilidad afecte a los otros dominios de la región.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las redes virtuales le proporcionan un control completo de su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está compuesta por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Integración

    Oracle Integration es un servicio totalmente gestionado que permite integrar las aplicaciones, automatizar los procesos, obtener información detallada de los procesos de su negocio y crear aplicaciones visuales.

  • Oracle Data Integration

    Oracle Cloud Infrastructure Data Integration es un servicio en la nube totalmente gestionado, sin servidor y nativo que extrae, carga, transforma, limpia y vuelve a codificar datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. ETL (carga de transformación de extracción) aprovecha el procesamiento de ampliación totalmente gestionado en Spark y ELT (transformación de carga de extracción) aprovecha las capacidades de inserción de SQL completas de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de valor de los datos recién incorporados. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficientes, asignando y ampliando automáticamente el entorno de ejecución. Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos, y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.

  • Oracle Business Intelligence Conector en la nube

    Oracle BI Cloud Connector (BICC) es una herramienta útil para extraer datos de Fusion y almacenarlos en recursos compartidos como Oracle Universal Content Management (UCM) Server o almacenamiento en la nube en formato CSV.

  • Agente de conectividad de OIC

    Con el agente de conectividad de OIC, puede crear integraciones híbridas e intercambiar mensajes entre aplicaciones en redes privadas o locales y Oracle Integration Cloud.

  • Lago de datos

    Un lago de datos es un repositorio escalable y centralizado que puede almacenar datos no procesados y permite a una empresa almacenar todos sus datos en un entorno rentable y flexible. Un lago de datos proporciona un mecanismo de almacenamiento flexible para almacenar datos no procesados.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin problemas sin que se produzca ninguna degradación del rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "activo" al que tenga que acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que retiene durante largos períodos de tiempo y a los que rara vez o rara vez accede.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database es un entorno de base de datos totalmente gestionado y preconfigurado que puede utilizar para cargas de trabajo de procesamiento de transacciones y almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la realización de copias de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

  • Análisis

    Oracle Analytics Cloud es un servicio en la nube pública escalable y seguro que ofrece a los analistas empresariales funciones de autoservicio modernas y que funcionan con IA para la preparación de datos, la visualización, la generación de informes empresariales, los análisis aumentados y el procesamiento y la generación de lenguaje natural. Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, incluida la configuración rápida, la ampliación sencilla y la aplicación de parches, y la gestión automatizada del ciclo de vida.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Proporciona a los ingenieros de datos, científicos de datos, administradores de datos y responsables de datos un único entorno de colaboración para gestionar los metadatos técnicos, empresariales y operativos de la organización.

Recomendaciones

Utilice la siguiente recomendación como punto de partida. Los requisitos pueden ser diferentes de la arquitectura descrita aquí.
  • Seguridad

    Todas las conexiones se establecen a través de una red privada y todas las transacciones ETL se enrutan a través de Fastconnect para entornos locales, Colt para AWS y Azure Interconnect para Azure. También se recomienda utilizar cifrado y descifrado en el origen y el destino. Esto garantizará la seguridad en tránsito.

Consideraciones

Tenga en cuenta los siguientes puntos al desplegar esta arquitectura de referencia.

  • Seguridad
    Utilice las políticas de OCI Identity and Access Management (IAM) para controlar quién puede acceder a sus recursos en la nube y qué operaciones se pueden realizar. Para proteger las contraseñas de la base de datos o cualquier otro secreto, considere utilizar el servicio OCI Vault.
    • Asigne acceso con el mínimo de privilegios para usuarios y grupos de IAM a los tipos de recursos en dis-family.
    • Para minimizar la pérdida de datos debido a supresiones inadvertidas por un usuario autorizado o supresiones maliciosas, Oracle recomienda asignar el permiso DIS_WORKSPACE_DELETE a un conjunto mínimo posible de usuarios y grupos de IAM. Asigne el permiso DIS_WORKSPACE_DELETE solo a los administradores de arrendamiento y compartimento.
    • Para proteger sus orígenes de datos contra cualquier vulnerabilidad de seguridad, solo proporcione credenciales a las cuentas de solo lectura. La integración de datos solo necesita acceso de lectura para la ingesta de datos de activos de datos.
  • Costo
    • Si los datos a gran escala se transfieren a través de la frontera de la nube con frecuencia, la dirección del flujo de datos se vuelve esencial. Normalmente, los proveedores de servicios en la nube no cobran por la entrada de datos, pero todos cobran una tarifa de salida de datos. Las tasas de salida de datos varían entre los proveedores de la nube. Es fundamental tener en cuenta el costo de salida en el diseño multinube. Además, se debe tener en cuenta la residencia de datos al mover los datos.
    • OCI FastConnect: el costo de FastConnect es el mismo en todas las regiones de OCI.
    • Microsoft Azure ExpressRoute: el costo de Microsoft Azure ExpressRoute varía de una región a otra. Azure tiene más de un SKU disponible para una ruta rápida. Oracle recomienda utilizar la configuración local, ya que no tiene cargos de entrada o salida independientes y se inicia con el ancho de banda mínimo de 1 Gbps. Las configuraciones Standard y Premium ofrecen menor ancho de banda, pero generan cargos de salida independientes en una configuración medida.
    • Utilice el servicio Archive Storage de bajo costo para almacenar datos a los que rara vez se accede pero que se deben conservar durante más tiempo. Defina políticas de gestión del ciclo de vida para mover automáticamente datos al almacenamiento de archivos o suprimir datos después de una duración especificada.
  • Alta disponibilidad

    Cada circuito de interconexión (ExpressRoute y FastConnect) incluye un circuito redundante en el mismo POP, pero un enrutador físico diferente, lo que proporciona alta disponibilidad.

Acuses de recibo

  • Author: Subburam Mathuraiveeran
  • Contributors: Wei Han, Phil Wilkins