Procesamiento de datos masivos mediante OCI Data Integration y Oracle Integration Cloud Services
Procese o integre datos masivos de orígenes externos en sistemas o aplicaciones de destino.
Considere este escenario: recibe datos de forma masiva de un origen externo (por ejemplo, clientes, proveedores, empleados, productos). Antes de que llegue a sus sistemas o aplicaciones finales, los datos deben organizarse, enriquecerse, combinarse u organizarse. Como parte del flujo para lograr esto, debe integrarse con dos o más aplicaciones o servicios intermedios, o aplicar transformaciones complejas a los datos. Este proceso puede agregar atributos adicionales a los datos después de realizar llamadas u orquestar con varias aplicaciones de terceros (basadas, por ejemplo, en REST, SOAP). Estos datos transaccionales también pueden necesitar transformaciones complejas (JSON o XML), consultas o referencias cruzadas.
Este escenario se puede implantar fácilmente con dos servicios en la nube: OCI Data Integration y Oracle Integration, donde OCI Data Integration aborda todas las necesidades de integración de datos o "Extraer, transformar, cargar" (ETL) y Oracle Integration aborda toda la integración de aplicaciones o la conectividad de nivel empresarial, independientemente de las aplicaciones que esté conectando o dónde residan.
Arquitectura
Esta arquitectura de referencia representa un caso de uso para utilizar OCI Data Integration y Oracle Integration para procesar datos masivos.
Esta arquitectura de referencia también aborda los desafíos del procesamiento de archivos de Apache Parquet, Apache Avro y Microsoft Excel en Oracle Integration a través de OCI Data Integration. Por ejemplo, para procesar datos de informes financieros (por ejemplo, cuentas a pagar, cuentas a cobrar, GL, flujos de efectivo, activos y pasivos, ingresos) OCI Data Integration convierte estos formatos de archivo en archivos de valores separados por comas (CSV), que luego son procesados por Oracle Integration.
El siguiente diagrama ilustra esta arquitectura de referencia.
oci-bulk-data-integration-architecture-diagram-oracle.zip
A continuación se muestra una explicación de los pasos mostrados en la arquitectura de referencia anterior:
- Orígenes externos (por ejemplo, aplicaciones personalizadas, aplicaciones que no son de Oracle, bases de datos Oracle que se ejecutan en nubes de terceros, servicios en la nube de terceros, bases de datos locales y aplicaciones) cargan o borran el archivo de carga de datos masiva en un cubo de OCI Object Storage.
- Servicio OCI Observability & Management: OCI Events busca un objeto o archivo cargado en el cubo de OCI Object Storage.
- OCI Events dispara una acción para llamar a OCI Functions con un cubo y un nombre de archivo.
- OCI Functions recibe el evento y llama al pipeline de OCI Data Integration con parámetros de entrada: nombre de cubo y nombre de archivo.
- El pipeline de OCI Data Integration lee el archivo de carga de datos en bloque del cubo de OCI Object Storage y divide el archivo de datos único y grande en numerosos archivos más pequeños. A continuación, carga los archivos divididos en el cubo de OCI Object Storage.
- Otra instancia de OCI Events busca archivos divididos cargados en el cubo de OCI Object Storage.
- OCI Events dispara una acción para llamar a OCI Functions con un nombre de cubo y para cada nombre de archivo.
- OCI Functions recibe el evento y llama al flujo de Oracle Integration con los parámetros de entrada del nombre de cubo y cada nombre de archivo.
- Oracle Integration lee cada archivo del cubo de OCI Object Storage.
- Oracle Integration, según los requisitos, organiza y enriquece los datos mediante llamadas a una o más aplicaciones o sistemas intermedios. A continuación, realiza funciones complejas (por ejemplo, transformaciones, consultas, referencias cruzadas) y finalmente procesa los datos en sistemas o aplicaciones descendentes.
La arquitectura tiene los siguientes componentes:
- Región
Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes entre sí y puede haber grandes distancias que las separen (entre países e incluso continentes).
- Data Integration
Oracle Cloud Infrastructure Data Integration es un servicio totalmente gestionado, sin servidor y nativo en la nube que extrae, carga, transforma, limpia y vuelve a formar datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficaces y asignar y ampliar automáticamente el entorno de ejecución.
ETL (carga de transformación de extracción) aprovecha el procesamiento de escala horizontal totalmente gestionado en Spark y ELT (transformación de carga de extracción) aprovecha las capacidades de transferencia SQL completa de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de obtención de resultados para los datos recién ingeridos.
Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos, y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.
- Integración
Oracle Integration es un entorno preconfigurado y totalmente gestionado que permite integrar aplicaciones en la nube y locales, automatizar los procesos de negocio y desarrollar aplicaciones visuales. Utiliza un servidor de archivos compatible con SFTP para almacenar y recuperar archivos y le permite intercambiar documentos con partners comerciales de negocio a negocio mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
- Eventos
Los servicios de Oracle Cloud Infrastructure emiten eventos, que son mensajes estructurados que describen los cambios en los recursos. Los eventos se emiten para operaciones de creación, lectura, actualización o supresión (CRUD), cambios de estado del ciclo de vida de los recursos y eventos del sistema que afectan a los recursos en la nube.
- Funciones
Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio (FaaS) totalmente gestionada, multi-inquilino, altamente escalable y bajo demanda. Se basa en el motor de origen abierto Fn Project. Las funciones le permiten desplegar el código y llamarlo directamente o dispararlo en respuesta a eventos. Oracle Functions utiliza contenedores de Docker alojados en Oracle Cloud Infrastructure Registry.
- Red y subredes virtuales en la nube (VCN)
Una VCN es una red personalizable y definida por software que puede configurar en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.
- Lista de seguridad
Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.
- Tabla de rutas
Las tablas de rutas virtuales contienen reglas para enrutar el tráfico de subredes a destinos fuera de una VCN, normalmente a través de gateways.