Cree un entorno seguro de OCI Data Integration con tareas preconfiguradas a partir de plantillas

Cree tareas de procesamiento de datos seguras y escalables desde orígenes externos hasta un almacén de datos de destino de Oracle Autonomous Data Warehouse mediante el servicio Oracle Cloud Infrastructure Data Integration (OCI Data Integration).

En esta arquitectura de referencia, estamos considerando un escenario en el que los datos de negocio se distribuyen entre almacenes de datos locales, mientras que la compañía ya ha intentado migrar algunas aplicaciones a la nube. OCI Data Integration puede ampliar cualquier capacidad, ya existente en entornos locales y en otras nubes, aprovechando la conectividad de almacenamiento de datos y redes presente en el tejido de OCI de una manera segura y escalable.

Arquitectura

Esta arquitectura representa los diferentes componentes que podrían estar implicados en el escenario anterior.

Para una estrategia multinube, puede encontrar tecnologías y servicios de datos en otros proveedores de nube para los que OCI proporciona referencias de arquitectura para la conectividad con otros proveedores de nube. Los almacenes de datos locales varían en función de las distintas tecnologías, desde los datos almacenados en archivos hasta los conjuntos de datos controlados por procesos en ERP.

En el siguiente diagrama se ilustra la arquitectura de referencia y el recorrido de los datos.



oci-data-integration-flow-oracle.zip

A continuación, se muestran los pasos para ingerir, procesar y enriquecer datos de forma segura para convertirse en una parte de la información de destino almacenada en la base de datos descendente o el almacén de datos.

  1. A través de Oracle Cloud Infrastructure FastConnect o una VPN de sitio a sitio, los orígenes de datos locales se pueden ingerir mediante conectores de activos de datos de integración de datos de OCI.
  2. Del mismo modo, los orígenes de datos a los que pueden acceder los conectores de activos de datos de integración de datos de OCI se pueden utilizar para extraer conjuntos de datos que residan en otras nubes (por ejemplo, aplicaciones personalizadas, aplicaciones no de Oracle, bases de datos Oracle que se ejecutan en nubes de terceros, Oracle Fusion SaaS, servicios en la nube de terceros y aplicaciones). Los datos también se pueden cargar en archivos de carga masiva en cubos de Oracle Cloud Infrastructure Object Storage cuando un conector de activo de datos de OCI Data Integration no pueda acceder directamente a ellos.

    Oracle ha desarrollado soluciones de conectividad en la nube específicas para otros proveedores de nube como Microsoft Azure, Amazon Web Services y Google Cloud Platform. Si no hay interoperabilidad vertical en la nube, la conectividad con servicios o aplicaciones se puede realizar de forma segura a través de un gateway de NAT, lo que garantiza que solo se permite el tráfico saliente a Internet. OCI mitiga cualquier exposición de datos en Internet cifrando la conectividad de extremo a extremo a los puntos finales. Sin embargo, en la ingestión, los pipelines de integración de datos de OCI pueden orquestar otros tipos de ingesta de datos, como el flujo de datos en tiempo real de gran volumen y las réplicas de orígenes de datos con Oracle GoldenGate. Las capacidades de orquestación de la llamada a las llamadas de la API de REST a los servicios de OCI pueden aprovechar la detección de cambios de archivos en cubos de OCI Object Storage y, junto con Events y Integration Functions, flujos de datos de ingesta de goteo.

  3. Una vez que los datos se ingieren en el tejido de OCI, se procesan en redes virtuales en la nube (VCN) exclusivas que se pueden aislar aún más del acceso a Internet. Los servicios de integración de datos (OCI Data Integration) a través de flujos de datos pueden realizar varias transformaciones en una interfaz sin código, asignando entidades de origen y destino y las transformaciones respectivas. Al mismo tiempo, se producen transformaciones de datos, los servicios de OCI Data Catalog realizan la catalogación para proporcionar linaje. Los datos estáticos en las bases de datos Oracle pueden estar sujetos a regulaciones de privacidad y conformidad. Oracle Data Safe evalúa la estrategia de seguridad de la base de datos, identificando y categorizando los riesgos y, finalmente, enmascarando la información considerada confidencial. Otro recurso para la seguridad de datos e información, OCI Vault, proporciona servicios para almacenar y gestionar claves y secretos, como la información de cuenta y las contraseñas, cifrarlas y simplificar el proceso general de protección de datos.
  4. Aunque los pipelines de integración de datos de OCI y los flujos de datos de integración de datos de OCI promueven el enriquecimiento de activos de datos, los operadores de REST también pueden proteger el acceso a otros servicios de OCI. En esta capacidad, OCI Data Integration Orchestration puede invocar blocs de notas en Data Science para el aprendizaje automático o interrogar servicios de inteligencia artificial para aumentar los datos con Forecast o Anomaly Detection. OCI Data Integration Orchestration puede poner en marcha motores de Spark para ampliar el procesamiento de datos mediante OCI Data Flow con el mismo tejido seguro de OCI. Toda la gestión de orquestación, como Monitoring, Logging y Notifications, se integra a través del mecanismo exacto.
  5. OCI Data Integration escribe en cualquier almacén de Oracle dentro de OCI o local, además de combinaciones de lago de datos de OCI y MySQL. Los análisis aprovechan inmediatamente los almacenes de destino con amplios recursos para la visualización de datos, el modelado empresarial y la generación de informes de pixelado perfecto.
  6. Los consumidores, productores y desarrolladores de datos se organizan de forma segura en políticas detalladas para el control de acceso a los datos y los recursos.

El siguiente diagrama de arquitectura profundiza aún más en la implementación, ideando una separación de subred de red sugerida.



oci-data-integration-archivo-oracle.zip

Los servicios de integración de datos de OCI proporcionan conectividad lista para usar a muchos orígenes de datos, y los microlotes pueden procesar los datos de forma incremental en el entorno de OCI. Del mismo modo, se puede llamar a otros servicios de OCI para enriquecer y curar aún más los conjuntos de datos.

  • El procesamiento por lotes transforma conjuntos de datos a gran escala de sistemas de origen, aprovechando servicios nativos de OCI que se integran perfectamente con OCI Object Storage y le permiten crear datos seleccionados para casos de uso como la agregación y el enriquecimiento de datos, la ingestión de almacenes de datos y el aprendizaje automático y el uso de datos de IA a escala.
  • OCI Data Integration es un servicio en la nube totalmente gestionado y sin servidor que extrae, carga, transforma, limpia y vuelve a codificar datos de distintos orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y OCI Object Storage.
  • OCI Data Integration organiza las dependencias dentro de los flujos de datos de procesamiento, pero también con los servicios restantes de Oracle Cloud Infrastructure, como OCI Artificial Intelligence y Oracle Machine Learning para enriquecimiento de datos o clasificación adicional y Data Safe para seguridad y conformidad de datos. Las políticas con control granular del acceso mantienen la autenticación y autorización de servicio a servicio.
  • Las plantillas de aplicación de integración de datos de OCI proporcionan un juego de tareas de integración de datos de OCI (REST (API), SQL, integración (flujo de datos) y pipelines) inmediatamente disponibles para su uso. Las tareas están completamente parametrizadas, lo que permite su uso directo. Las tareas también se pueden guardar en nuevos proyectos y carpetas, lo que permite modificar el diseño para adaptarlo a más detalles de implantación.

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones, y las grandes distancias pueden separarlas (entre países e incluso continentes).

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red definida por software y personalizable que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan un control completo de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Data Integration

    Oracle Cloud Infrastructure Data Integration es un servicio en la nube totalmente gestionado, multiinquilino, sin servidor y nativo que le ayuda a realizar tareas ETL comunes, como la ingestión de datos de diferentes orígenes, la limpieza, la transformación y la nueva conformación de esos datos y la carga eficiente en orígenes de datos de destino en OCI.

    La ingestión de datos de distintos orígenes (por ejemplo, Amazon Redshift, Azure SQL Database y Amazon S3) en Object Storage y Autonomous Data Warehouse es el primer paso de este proceso.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de base de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin problemas sin experimentar ninguna degradación del rendimiento ni de la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento de acceso rápido al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivo para el almacenamiento en frío que conserva durante largos períodos de tiempo y a los que rara vez accede.

  • Data Science

    Oracle Cloud Infrastructure Data Science es una plataforma totalmente gestionada y sin servidor que los equipos de ciencia de datos pueden utilizar para crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure (OCI). Puede integrarse fácilmente con otros servicios de OCI como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage y mucho más. Puede crear y evaluar modelos de aprendizaje automático de alta calidad que aumenten la flexibilidad del negocio al poner los datos de confianza en la empresa a trabajar rápidamente, y puede soportar objetivos de negocio basados en datos con un despliegue más sencillo de modelos de aprendizaje automático.

  • Oracle Machine Learning

    Oracle Machine Learning ofrece funciones para crear, entrenar y desplegar modelos para datos en la base de datos. Oracle Machine Learning proporciona una interfaz de bloc de notas Zeppelin que permite a los científicos de datos entrenar modelos con la biblioteca de clientes Python OML4Py. Oracle Machine Learning también ofrece un enfoque sin código para el entrenamiento de modelos con la interfaz de usuario AutoML. El despliegue de modelos como API de REST se puede realizar mediante los servicios de Oracle Machine Learning. Sin embargo, existe un soporte limitado para software de código abierto.

  • Servicios AI

    Los servicios de IA de Oracle Cloud Infrastructure proporcionan una recopilación de API de modelos predefinidas y personalizables sobre casos de uso que abarcan desde el idioma, la visión, el habla, la decisión y la previsión. Los servicios de IA proporcionan predicciones de modelos a las que se puede acceder mediante puntos finales de API de REST. Estos servicios proporcionan modelos previamente entrenados de última generación y se deben considerar y evaluar antes de entrenar modelos de aprendizaje automático personalizados mediante los servicios 1-6. Como alternativa, los servicios de Oracle Machine Learning también proporcionan una serie de modelos previamente entrenados para el lenguaje (tema, palabras clave, resumen, similitud) y la visión.

  • Seguridad de los datos

    Oracle Data Safe es un servicio en la nube regional totalmente integrado que proporciona un juego completo de funciones para proteger los datos confidenciales y regulados de las bases de datos Oracle. Data Safe también soporta bases de datos locales, Oracle Exadata Database Service on Cloud@Customer y despliegues multinube. Todos los clientes de Oracle Database pueden reducir el riesgo de una infracción de datos y simplificar el cumplimiento mediante el uso de Oracle Data Safe para evaluar el riesgo de configuración y de usuario, supervisar y auditar la actividad de los usuarios y para detectar, clasificar y enmascarar datos confidenciales.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoseguridad y autorreparación optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la realización de copias de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida. Es posible que sus requisitos difieran de la arquitectura descrita aquí.
  • VCN

    Al crear una VCN, determine el número de bloques CIDR necesarios y el tamaño de cada bloque en función del número de recursos que planea asociar a las subredes de la VCN. Utilice bloques CIDR que estén dentro del espacio de dirección IP privada estándar.

    Seleccione bloques CIDR que no se superpongan con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor de nube) a la que desea configurar conexiones privadas.

    Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques CIDR.

    Al diseñar las subredes, tenga en cuenta el flujo de tráfico y los requisitos de seguridad. Asocie todos los recursos de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.

  • Plantillas de OCI Data Integration

    Muchas tareas de gestión diarias se pueden automatizar fácilmente utilizando o reutilizando tareas de plantilla. Además, las plantillas amplían las capacidades de procesamiento y gestión de datos de OCI Data Integration ofreciendo un conjunto distinto de tareas diseñadas para ayudar a los ingenieros de datos. Los casos de uso para llamar a otros servicios de OCI como Oracle Cloud Infrastructure AI Services para clasificaciones de documentos, Oracle Data Safe para enmascarar el contenido que se va a almacenar y el control y la generación de informes en la fuente incremental para Autonomous Data Warehouse son bloques de creación de plantillas para facilitar el uso de OCI Data Integration.

    La lista de plantillas disponibles actualmente es:

    • Gestión del almacén de objetos de Oracle

      Aplicación con tareas de REST para Object Storage a fin de copiar, suprimir y renombrar objetos, así como para crear y suprimir cubos.

    • Imagen de Oracle Vision

      Aplicación con tareas de REST para realizar análisis de imágenes de OCI Vision. Las tareas incluyen la clasificación de imágenes, la detección de objetos y la detección de texto de imagen.

    • Documento de Oracle Vision

      Aplicación con tareas de REST para realizar IA de documentos de OCI Vision. Las tareas incluyen clasificación de documentos, detección de clave-valor de documento, clasificación de idioma de documento, detección de tabla de documentos y detección de texto de documento.

    • Enmascaramiento de Oracle DataSafe

      Aplicación con tareas con parámetros para generar un modelo confidencial de Oracle Data Safe y enmascaramiento a partir de un esquema de base de datos de Oracle de destino.

    • Cargar archivos del almacenamiento de objetos de Oracle en ADW

      Aplicación con tareas para cargar diferentes tipos de archivos desde OCI Object Storage a Autonomous Data Warehouse: JSON, Parquet, CSV, Avro.

    • Carga incremental de Oracle Database a Autonomous Data Warehouse (gestionada por el cliente)

      Aplicación que permite ejecutar tareas incrementales basadas en la última ejecución en una tabla de metadatos almacenada en un esquema de destino de Autonomous Data Warehouse e informando de ella.

    • Oracle Fusion Applications con Oracle Business Intelligence Publisher (BIP) para carga incremental de ADW

      Aplicación que permite a Oracle Fusion Applications mediante informes de Oracle Business Intelligence Publisher (BIP) ejecutar extracciones basadas en la última ejecución en una tabla de metadatos almacenada en un esquema de destino de Autonomous Data Warehouse e informar sobre ella.

Consideraciones

Al recopilar, procesar y curar datos de aplicaciones para análisis y aprendizaje automático, tenga en cuenta las siguientes opciones de implantación.

  • Procesamiento de datos
    • Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es ampliable y rentable.
    • Oracle Cloud Infrastructure Data Flow proporciona un entorno de Spark sin servidor para procesar datos a escala con un modelo de pago por uso y extremadamente flexible.
    • Oracle Cloud Infrastructure Big Data Service proporciona Hadoop como servicio de nivel empresarial con seguridad integral, alto rendimiento, facilidad de gestión y capacidad de actualización.
  • Persistencia de datos
    • Oracle Autonomous Data Warehouse es una base de datos fácil de usar y totalmente autónoma que se escala de forma flexible, ofrece un rápido rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos desde tablas particionadas externas o híbridas del almacenamiento de objetos.
    • Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.
  • Refinería de datos

    Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es ampliable y rentable.

Despliegue

El código de Terraform para esta arquitectura de referencia está disponible en GitHub.

  1. Vaya a GitHub.
  2. Clone o descargue el repositorio en la computadora local.
  3. Siga las instrucciones del documento README.

Acuses de recibo

  • Author: Mario Miola