Procesar datos masivos mediante OCI Data Integration y Oracle Integration Cloud Services

Procese o integre datos masivos de orígenes externos en sistemas o aplicaciones de destino.

Teniendo en cuenta este escenario: recibe datos de forma masiva desde un origen externo (por ejemplo, clientes, proveedores, empleados, productos, etc.). Antes de que llegue a sus sistemas o aplicaciones finales, es necesario organizar, enriquecer, combinar u organizar los datos. Como parte del flujo para ello, debe integrarse con dos o más aplicaciones o servicios intermedios, o aplicar transformaciones complejas a los datos. Este proceso puede agregar atributos adicionales a los datos después de realizar llamadas u orquestar con varias aplicaciones de terceros (basadas en REST, SOAP, etc.). Estos datos transaccionales también pueden necesitar transformaciones complejas (JSON o XML), consultas o referencias cruzadas.

Este escenario se puede implantar fácilmente con dos servicios en la nube: integración de datos de OCI (OCI DI) y Oracle Integration Cloud (OIC), donde OCI DI aborda todas sus necesidades de integración de datos o "extracción, transformación, carga" (ETL) y OIC aborda toda la integración de aplicaciones o conectividad empresarial, independientemente de las aplicaciones que se conecten o de dónde residan.

Arquitectura

Esta arquitectura de referencia representa un caso de uso para utilizar OCI DI y OIC Service para procesar datos masivos.

Esta arquitectura de referencia también aborda los desafíos del procesamiento de archivos de Apache Parquet, Apache Avro y Microsoft Excel en OIC mediante OCI DI. Por ejemplo, para procesar datos de informes financieros (por ejemplo, cuentas a pagar, cuentas a cobrar, contabilidad general, flujos de caja, activos y pasivos, ingresos, etc.) OCI DI convierte estos formatos de archivo en archivos de valores separados por comas (CSV), que luego son procesados por OIC.

En el siguiente diagrama se ilustra esta arquitectura de referencia.



oci-bulk-data-integration-architecture-diagram-oracle.zip

A continuación se muestra una explicación de los pasos que se muestran en la arquitectura de referencia anterior:

  1. Los orígenes externos (por ejemplo, aplicaciones personalizadas, aplicaciones que no son de Oracle, bases de datos Oracle que se ejecutan en nubes de terceros, servicios en la nube de terceros, bases de datos locales y aplicaciones) cargan o borran el archivo de carga de datos en bloque en un cubo de OCI Object Storage.
  2. Servicio OCI Observability & Management: el servicio OCI Events busca un objeto o archivo cargado en el bloque OCI Object Storage.
  3. El servicio OCI Events dispara una acción para llamar a las funciones de OCI con un cubo y un nombre de archivo.
  4. OCI Functions recibe el evento y llama al pipeline de OCI DI con parámetros de entrada: nombre de cubo y nombre de archivo.
  5. El pipeline de OCI DI lee el archivo de carga de datos masiva del cubo de OCI Object Storage y divide el archivo de datos único y grande en varios archivos más pequeños. A continuación, carga los archivos divididos en el cubo de OCI Object Storage.
  6. Otra instancia de un servicio OCI Events busca archivos divididos cargados en el cubo OCI Object Storage.
  7. El servicio OCI Events dispara una acción para llamar a OCI Functions con un nombre de cubo y para cada nombre de archivo.
  8. OCI Functions recibe el evento y llama al flujo de integración de OIC con los parámetros de entrada del nombre del cubo y cada nombre de archivo.
  9. La integración de OIC lee cada archivo del cubo de OCI Object Storage.
  10. La integración de OIC, basada en el requisito, organiza y enriquece los datos realizando llamadas a una o más aplicaciones o sistemas intermedios. A continuación, realiza transformaciones complejas, consultas, referencias cruzadas, etc., y finalmente procesa los datos en sistemas o aplicaciones descendentes.

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones, y grandes distancias pueden separarlas (entre países o incluso continentes).

  • Data Integration

    OCI Data Integration es un servicio multi-inquilino y totalmente gestionado que ayuda a los ingenieros de datos y a los desarrolladores de "extracción, transformación y carga" (ETL) con tareas ETL comunes, como la ingesta de datos de una variedad de activos de datos; la limpieza, transformación y remodelación de esos datos; y su carga eficaz en activos de datos de destino.

  • Oracle Integration Cloud

    Con Oracle Integration Cloud, tiene la capacidad de integrar sus aplicaciones en la nube y locales, automatizar los procesos de negocio, obtener estadísticas sobre los procesos de negocio, desarrollar aplicaciones visuales, utilizar un servidor de archivos compatible con SFTP para almacenar y recuperar archivos e intercambiar documentos de negocio con un partner comercial B2B.

  • Eventos

    OCI Events Service realiza un seguimiento de los cambios de recursos mediante eventos que cumplen con el estándar CloudEvents de Cloud Native Computing Foundation (CNCF). Los desarrolladores pueden responder a los cambios en tiempo real disparando código con Functions, escribiendo en Streaming o enviando alertas mediante Notifications.

  • Funciones

    OCI Functions es una plataforma sin servidor que permite a los desarrolladores crear, ejecutar y escalar aplicaciones sin gestionar ninguna infraestructura. Functions se integra con OCI, servicios de plataforma y aplicaciones SaaS. Debido a que Functions se basa en Fn Project de código abierto, los desarrolladores pueden crear aplicaciones que se pueden migrar fácilmente a otros entornos locales y en la nube. El código basado en Functions normalmente se ejecuta durante períodos cortos y los clientes pagan solo por los recursos que utilizan.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las redes virtuales le proporcionan un control completo sobre su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango contiguo de direcciones que no se superponen con las otras subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Lista de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Tabla de rutas

    Las tablas de rutas virtuales contienen reglas para enrutar el tráfico desde subredes hasta destinos fuera de una VCN, normalmente a través de gateways.

Agradecimientos

  • Autores: Pavan Rajalbandi
  • Colaboradores: John Sulyok