Plataforma de datos - Data Lakehouse

Puede recopilar y analizar de forma eficaz datos de eventos y datos de transmisión de Internet de las cosas (IoT) y orígenes de redes sociales, pero ¿cómo se correlaciona con la amplia gama de recursos de datos empresariales para aprovechar su inversión y obtener la información que desea?

Aproveche un Data Lakehouse en la nube que combina las capacidades de un lago de datos y un almacén de datos para procesar una amplia gama de datos empresariales y de transmisión para el análisis empresarial y el aprendizaje automático.

Esta arquitectura de referencia coloca la solución tecnológica en el contexto de negocio general:



Un lago de datos permite a una empresa almacenar todos sus datos en un entorno rentable y flexible, al tiempo que proporciona los servicios de procesamiento, persistencia y análisis necesarios para descubrir nuevas estadísticas de negocio. Un lago de datos almacena y organiza datos estructurados y no estructurados, y proporciona métodos para organizar grandes volúmenes de datos muy diversos de varios orígenes.

Con un almacén de datos, puede realizar la transformación y la depuración de datos antes de confirmar los datos en el almacén. Con un lago de datos, puede ingerir datos rápidamente y prepararlos sobre la marcha a medida que las personas acceden a él. Un lago de datos admite informes operativos y control de negocio que requieren acceso inmediato a los datos y análisis flexibles para comprender lo que está sucediendo en el negocio mientras este está sucediendo.

Arquitectura funcional

Esta arquitectura combina las capacidades de un lago de datos y un almacén de datos para proporcionar una plataforma moderna de Data Lakehouse que procesa datos de transmisión y otros tipos de datos de una amplia gama de recursos de datos empresariales. Utilice esta arquitectura para aprovechar los datos para análisis de negocio, aprendizaje automático, servicios de datos y productos de datos.

Una arquitectura de Data Lakehouse combina las capacidades tanto del lago de datos como del almacén de datos para aumentar la eficiencia operativa y ofrecer capacidades mejoradas que permiten:

  • Uso eficiente de datos e información sin necesidad de replicarlo en el lago de datos y el almacén de datos
  • Compatibilidad diversa con tipos de datos en una arquitectura políglota y multimodelo mejorada
  • Gobernanza y seguridad de datos detallada que aprovecha un modelo de seguridad de confianza cero
  • La capacidad de disociar por completo los recursos de almacenamiento y recursos informáticos, y de consumir solo los recursos necesarios en cualquier momento.
  • La capacidad de aprovechar varios motores de recursos informáticos, incluidos los motores de código abierto, para procesar los mismos datos en distintos casos de uso con el fin de lograr la máxima reutilización, liquidez y uso de datos.
  • La capacidad de aprovechar los servicios nativos de Oracle Cloud Infrastructure (OCI) gestionados por Oracle y que reducen la sobrecarga operativa
  • Mejor economía de la nube con ampliación automática que ajusta la infraestructura de recursos en la nube para satisfacer la demanda real
  • Modularidad para que el uso del servicio se base en casos de uso
  • Interoperabilidad con cualquier sistema o nube que cumpla con estándares abiertos
  • Soporte de un amplio conjunto de casos de uso, incluidos transmisión, análisis, ciencia de datos y aprendizaje automático
  • Soporte para diferentes enfoques arquitectónicos, desde un lago centralizado hasta una malla de datos descentralizada

En el siguiente diagrama se ilustra la arquitectura funcional.



lakehouse-funcional-oracle.zip

La arquitectura se centra en las siguientes divisiones lógicas:

  • Ingestión, transformación

    Ingiere y refina los datos para su uso en cada una de las capas de datos de la arquitectura.

  • Conservar, curar, crear

    Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos pueden estar estructurados lógica o físicamente en formas relacionales, longitudinales, dimensionales o OLAP simples. Para datos no relacionales, esta capa contiene una o más agrupaciones de datos, ya sea de salida de un proceso analítico o de datos optimizados para una tarea analítica específica.

  • Análisis, aprendizaje y previsión

    Resume la vista de negocio lógica de los datos para los consumidores. Esta abstracción facilita enfoques ágiles del desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes de varios orígenes federados.

La arquitectura tiene los siguientes componentes funcionales:

  • Ingesta de lotes

    La ingesta de lotes es útil para datos que no se pueden ingerir en tiempo real o que resultan demasiado costosos de adaptarse a la ingestión en tiempo real. También es importante transformar los datos en información fiable y fiable que pueda ser seleccionada y mantenida para su consumo regular. Puede utilizar los siguientes servicios de forma conjunta o independiente para lograr un flujo de trabajo de transformación e integración de datos muy flexible y eficaz.

    • Oracle Cloud Infrastructure Data Integration es un servicio en la nube totalmente gestionado y sin servidor que extrae, carga, transforma, limpia y vuelve a codificar datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. ETL (carga de transformación de extracción) aprovecha el procesamiento de ampliación totalmente gestionado en Spark y ELT (transformación de carga de extracción) aprovecha las capacidades de inserción de SQL completas de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de valor de los datos recién incorporados. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficientes, asignando y ampliando automáticamente el entorno de ejecución. Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos, y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.

    • Oracle Data Integrator proporciona integración completa de datos desde cargas por lotes de alto volumen y alto rendimiento, hasta procesos de integración de alimentación por goteo basados en eventos y servicios de datos con SOA activado. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de transformación y validación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y ejecución de ELT y ayudar a los usuarios a crear y programar datos y flujos de trabajo mediante un enfoque de diseño declarativo.

    • Las transformaciones de datos de Oracle permiten ELT para las tecnologías admitidas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar flujos de trabajo y flujos de datos de forma declarativa. Las transformaciones de datos de Oracle están disponibles como un entorno totalmente gestionado en Oracle Autonomous Data Warehouse (ADW) para cargar y transformar datos de varios orígenes de datos en una instancia de ADW.

    En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una integración y transformación de datos muy flexibles y eficaces.

  • Ingesta en tiempo real

    Oracle Cloud Infrastructure GoldenGate es un servicio totalmente gestionado que permite la ingestión de datos desde orígenes que residen localmente o en cualquier nube. Utiliza la tecnología de los CDC GoldenGate para una captura y entrega de datos no intrusiva y eficiente a Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage u Oracle Cloud Infrastructure Streaming en tiempo real y a escala para que la información relevante esté disponible para los consumidores lo más rápido posible.

  • Transferencia masiva

    La transferencia masiva permite mover grandes volúmenes por lotes de datos mediante diferentes métodos. Para los almacenes de datos a gran escala, recomendamos Oracle Cloud Infrastructure FastConnect y los servicios de transferencia de datos.

    • Oracle Cloud Infrastructure FastConnect proporciona una forma sencilla de crear una conexión dedicada y privada entre su centro de datos y Oracle Cloud Infrastructure. FastConnect proporciona opciones de mayor ancho de banda y una experiencia de red más fiable en comparación con las conexiones basadas en Internet.

    • La interfaz de línea de comandos (CLI) de Oracle Cloud Infrastructure permite ejecutar y automatizar la transferencia de datos de ubicaciones locales a OCI aprovechando el circuito privado de Oracle Cloud Infrastructure FastConnect. Los SDK de OCI permiten escribir código para copiar datos y archivos desde entornos locales o desde otras nubes en Oracle Cloud Infrastructure Object Storage, aprovechando una variedad de lenguajes de programación como Python, Java o Go para nombrar algunos. Las API de REST permiten interactuar con los servicios de OCI y controlarlos, como mover datos al almacenamiento de objetos mediante la API del servicio Object Storage.
    • El gateway de almacenamiento es un gateway de almacenamiento en la nube que permite conectar aplicaciones locales con OCI. Las aplicaciones pueden escribir datos en un destino NFS situado en la misma región que cargará esos archivos en OCI Object Storage sin necesidad de modificar las aplicaciones para que se integren con las API de REST.
    • La transferencia de datos de Oracle Cloud Infrastructure es un servicio de migración de datos fuera de línea que le permite mover de forma segura los conjuntos de datos a escala de petabytes desde su centro de datos a Oracle Cloud Infrastructure Object Storage o a Archive Storage. El uso de la Internet pública para trasladar datos a la nube no siempre es posible debido a los altos costos de red, la conectividad de red poco fiable, los largos tiempos de transferencia y las preocupaciones de seguridad. El servicio Transferencia de datos supera estos retos y puede reducir significativamente el tiempo que lleva la migración de datos a la nube. La transferencia de datos está disponible a través de un disco o dispositivo. La selección de uno sobre otro depende principalmente de la cantidad de datos, con Data Transfer Appliance compatible con conjuntos de datos más grandes para cada dispositivo.
  • Ingesta de flujo

    La ingestión de flujos está soportada por el uso de servicios nativos de OCI que permiten la ingestión en tiempo real de conjuntos de datos a gran escala de un amplio conjunto de productores de datos. La ingestión de flujo persiste y sincroniza los datos en el almacenamiento de objetos, que se encuentra en el centro del Data Lakehouse. La sincronización de datos con el almacenamiento de objetos le permite conservar datos históricos que se pueden seleccionar y transformar para extraer valiosas estadísticas.

    • Oracle Cloud Infrastructure Streaming proporciona una solución duradera, escalable y totalmente gestionada para la ingestión de flujos de datos continuos y de elevado volumen que puede utilizar y procesar en tiempo real. La transmisión se puede utilizar para la mensajería, los logs de aplicación de alto volumen, la telemetría operativa, los datos de flujo de clics en la web u otros casos de uso del modelo de mensajería de publicación y suscripción en los que se producen y procesan datos de forma continua y secuencial. Los datos se sincronizan con Oracle Cloud Infrastructure Object Storage y se pueden seleccionar y transformar para extraer valiosas estadísticas.

    • El hub de conector de servicio de Oracle Cloud Infrastructure es una plataforma de bus de mensajes en la nube que ofrece un único panel para describir, ejecutar y supervisar el movimiento de datos entre servicios en Oracle Cloud Infrastructure. Para esta arquitectura de referencia concreta, se utilizará para mover datos de Oracle Cloud Infrastructure Streaming a Oracle Cloud Infrastructure Object Storage para mantener los datos raw y preparados en la capa de persistencia del almacén de datos.

  • Procesamiento de flujo

    El procesamiento de transmisión enriquece los datos de transmisión, detecta patrones de eventos y crea un juego diferente de flujos que se mantienen en el Data Lakehouse.

    GoldenGate Stream Analytics (GGSA) procesa y analiza información a gran escala en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real a través de gráficos en directo, mapas, visualizaciones y crear gráficamente pipelines de transmisión sin necesidad de codificación manual. Estos pipelines se ejecutan en un entorno de big data en cluster ampliable y altamente disponible utilizando Spark integrado con el motor de consultas continuo de Oracle para abordar casos de uso críticos en tiempo real de empresas modernas.

    GoldenGate Stream Analytics puede aprovechar el cluster de Spark que se despliega con Oracle Cloud Infrastructure Big Data Service para procesar flujos de forma altamente escalable y resistente.

  • Ecosistema de código abierto

    Puedes utilizar el ecosistema de código abierto:

    • Para el procesamiento de lotes y flujos que aprovechan varios motores de código abierto populares como Hadoop, Spark, Flink o Trino
    • Con Oracle Cloud Infrastructure Streaming tanto como productor como como consumidor
    • Con Oracle Cloud Infrastructure Object Storage, donde puede tanto conservar datos como consumir datos

    Puede utilizar Oracle Cloud Infrastructure Object Storage como lago de datos para mantener los juegos de datos que desea compartir entre los distintos servicios de Oracle Cloud Infrastructure en diferentes momentos.

    Oracle Big Data Cloud aprovisiona clusters de Hadoop, Spark o Flink dedicados totalmente configurados, seguros, de alta disponibilidad y entre otras tecnologías, a demanda. Amplíe el cluster para que se adapte a sus cargas de trabajo de big data y análisis mediante una gama de unidades de computación de Oracle Cloud Infrastructure que soportan todo, desde pequeños clusters de prueba y desarrollo hasta grandes clusters de producción. Saque el máximo partido a la demanda del negocio y optimice los costos con configuraciones de ampliación automática, ya sean basadas en métricas o en el programa. Aproveche los perfiles de cluster para crear clusters óptimos para una carga de trabajo o tecnología específicas.
  • Procesamiento por lotes

    El procesamiento por lotes transforma juegos de datos a gran escala almacenados en el Data Lakehouse. El procesamiento por lotes utiliza los servicios nativos de Oracle Cloud Infrastructure que se integran a la perfección con Oracle Cloud Infrastructure Object Storage y permite crear datos seleccionados para casos de uso como la agregación y el enriquecimiento de datos, la ingestión de almacenes de datos y el aprendizaje automático y el uso de datos de IA a escala.

    • Oracle Cloud Infrastructure Data Integration, descrito anteriormente, es un servicio en la nube totalmente gestionado y sin servidor que extrae, carga, transforma, limpia y vuelve a codificar datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage.

    • Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones Apache Spark sin tener que desplegar o gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar las operaciones. Las aplicaciones de flujo de datos son plantillas reutilizables que constan de una aplicación Spark y sus dependencias, parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto.

  • En servicio

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoseguridad y autorreparación optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la realización de copias de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

    Después del aprovisionamiento, puede ampliar el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos en cualquier momento sin que ello afecte a la disponibilidad o al rendimiento.

    Oracle Autonomous Data Warehouse también puede virtualizar los datos que residen en el almacenamiento de objetos como tablas particionadas externas e híbridas para que pueda unir y consumir datos derivados de otros orígenes con los datos del almacén. También puede mover datos históricos del almacén al almacenamiento de objetos y, a continuación, consumirlos sin problemas mediante el uso de tablas particionadas híbridas.

    Oracle Autonomous Data Warehouse puede utilizar los metadatos recopilados anteriormente almacenados en el catálogo de datos para crear tablas externas y puede sincronizar automáticamente las actualizaciones de metadatos en el catálogo de datos con la definición de tablas externas para mantener la coherencia, simplificar la gestión y reducir el esfuerzo.

    Las vistas analíticas, una función de Autonomous Database, proporcionan una forma rápida y eficaz de crear consultas analíticas de datos almacenados en tablas y vistas de base de datos existentes. Las vistas analíticas organizan los datos mediante un modelo dimensional. Permiten agregar fácilmente agregaciones y cálculos a los juegos de datos y presentar datos en las vistas que se pueden consultar con SQL relativamente sencillo. Esta función permite modelar semánticamente un esquema de estrella o copo de nieve directamente en ADW, utilizando datos almacenados internamente y externamente, y permite el consumo del modelo mediante SQL y cualquier consumidor de datos compatible con SQL.

    Además, Autonomous Data Lake Accelerator, un componente de Autonomous Database, puede consumir fácilmente datos de almacenamiento de objetos, escalar el procesamiento para entregar consultas rápidas, escalar automáticamente la instancia informática de la base de datos cuando sea necesario y reducir el impacto en la carga de trabajo de la base de datos aislando las consultas de almacenamiento de objetos de la instancia informática de la base de datos.

  • Almacenamiento en la nube

    Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Puede almacenar o recuperar de forma segura los datos directamente desde Internet o desde la plataforma en la nube. Varias interfaces de gestión le permiten empezar a pequeña escala fácilmente y ampliarlas sin problemas, sin experimentar ninguna degradación en el rendimiento ni en la fiabilidad del servicio.

    Oracle Cloud Infrastructure Object Storage también se puede utilizar como capa de almacenamiento en frío para el almacén de datos almacenando datos que se utilizan con poca frecuencia y, a continuación, uniéndolos a la perfección con los datos más recientes mediante el uso de tablas híbridas en Oracle Autonomous Data Warehouse.

  • Visualización y aprendizaje

    Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un conjunto completo de capacidades para explorar y realizar análisis de colaboración para usted, su grupo de trabajo y su empresa. Soporta la formación de científicos de datos ciudadanos, analistas de negocio avanzados y la ejecución de modelos de aprendizaje automático (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous Data Warehouse como modelos integrados en OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén y los servicios de IA de OCI, como Oracle Cloud Infrastructure Vision.

    Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, incluida la configuración rápida, la ampliación sencilla y la aplicación de parches, y la gestión automatizada del ciclo de vida.

  • Aprender y predecir

    • Data Science proporciona infraestructura, tecnologías de código abierto, bibliotecas, paquetes y herramientas de ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo colaborativo y basado en proyectos proporciona una experiencia de usuario coherente de extremo a extremo y soporta el ciclo de vida de los modelos predictivos. Data Science permite a los científicos de datos e ingenieros de aprendizaje automático descargar e instalar paquetes directamente desde el repositorio de Anaconda sin costo alguno y, por lo tanto, les permite innovar en sus proyectos con un ecosistema de ciencia de datos seleccionado de bibliotecas de aprendizaje automático.

      La función Trabajos de Data Science permite a los científicos de datos definir y ejecutar tareas repetibles de aprendizaje automático en una infraestructura totalmente gestionada.

      La función de despliegue de modelos de ciencia de datos permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, transmitir inteligencia a procesos y aplicaciones, y permitir que el negocio reaccione a los eventos relevantes a medida que se producen.

    • Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Autonomous Database, con soporte para Python y AutoML. Admite modelos con código abierto y algoritmos escalables en la base de datos que reducen la preparación y el movimiento de datos. AutoML ayuda a los científicos de datos a acelerar la obtención de resultados de las iniciativas de aprendizaje automático de la compañía mediante la selección automática de algoritmos, el muestreo adaptativo de datos, la selección automática de funciones y el ajuste automático de modelos. Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous Data Warehouse, no solo puede gestionar modelos, sino que también puede desplegar esos modelos como puntos finales de REST para democratizar las predicciones en tiempo real dentro de la compañía, lo que permite a las empresas reaccionar ante eventos relevantes a medida que se producen, en lugar de hacerlo después del hecho.

  • Servicios AI

    Los servicios de IA de Oracle Cloud Infrastructure proporcionan un juego de servicios de IA listos para consumir que se pueden utilizar para soportar una gama de casos de uso, desde el análisis de texto hasta el mantenimiento predictivo. Estos servicios cuentan con modelos predefinidos y ajustados que puede integrar en pipelines de datos, análisis y aplicaciones mediante API.

    • La detección de anomalías de Oracle Cloud Infrastructure proporciona un amplio conjunto de herramientas para identificar eventos u observaciones no deseados en los datos de negocio en tiempo real, de modo que pueda realizar acciones para evitar interrupciones en el negocio.

    • Oracle Cloud Infrastructure AI Language realiza análisis de texto sofisticados a escala. Con modelos personalizados y previamente entrenados, los desarrolladores pueden procesar texto no estructurado y extraer información sin experiencia en ciencia de datos. Los modelos previamente entrenados admiten el análisis de sentimientos, la extracción de frases clave, la clasificación de texto y el reconocimiento de entidades con nombre. También puede entrenar modelos personalizados para el reconocimiento de entidades con nombre y la clasificación de texto con juegos de datos específicos del dominio. El servicio de traducción le permite traducir texto en 21 idiomas diferentes.

    • Oracle Cloud Infrastructure Speech aprovecha la potencia del lenguaje hablado al permitirle convertir fácilmente archivos multimedia que contienen voz humana en transcripciones de texto muy precisas. OCI Speech puede utilizarse para transcribir llamadas al servicio de atención al cliente, automatizar subtítulos y generar metadatos para activos multimedia a fin de crear un archivo que permita realizar búsquedas completas.

    • Oracle Cloud Infrastructure Vision realiza tareas de reconocimiento de imágenes y análisis de documentos, como clasificar imágenes, detectar y encarar, extraer texto y reconocer tablas. Puede aprovechar modelos previamente entrenados o crear fácilmente modelos de visión personalizados para escenarios específicos del sector y del cliente. El servicio de visión es un servicio en la nube nativo multi-inquilino y totalmente gestionado que ayuda a realizar todas las tareas comunes de visión informática.

    • La descripción de documentos de Oracle Cloud Infrastructure realiza tareas de análisis de documentos, como extraer texto y reconocer tablas. El servicio de descripción de documentos de OCI es un servicio en la nube nativo multi-inquilino y totalmente gestionado que ayuda con todas las tareas comunes de análisis de documentos.

  • Enriquecimiento de datos

    El enriquecimiento de datos puede mejorar los datos que se utilizan para entrenar modelos de aprendizaje automático a fin de lograr resultados de predicción mejores y más precisos.

    El etiquetado de datos de Oracle Cloud Infrastructure permite crear y examinar juegos de datos, ver registros de datos (texto o imágenes) y aplicar etiquetas con el fin de crear modelos de IA/AA. El servicio también proporciona interfaces de usuario interactivas diseñadas para ayudar en el proceso de etiquetado. Una vez etiquetados los registros, el juego de datos se puede exportar como JSON delimitado por líneas para su uso en el desarrollo del modelo AI/ML.
  • Buscar

    Las capacidades de búsqueda se pueden utilizar como una función complementaria para exponer datos a usuarios finales que requieren datos de análisis operativos preindexados y, por lo tanto, se proporcionan con baja latencia.

    La búsqueda de Oracle Cloud Infrastructure con OpenSearch es un motor de búsqueda de texto completo, distribuido y totalmente gestionado, sin mantenimiento. OpenSearch permite almacenar, buscar y analizar grandes volúmenes de datos rápidamente con tiempos de respuesta rápidos. El servicio soporta la visualización de datos de OpenSearch API de código abierto y OpenSearch Paneles de control.
  • Análisis de flujo

    Los análisis de flujo proporcionan paneles de control que proporcionan análisis en tiempo real de datos de flujo contextualizados con datos maestros y seleccionados almacenados en el Data Lakehouse para detectar patrones de interés que luego pueden servir a usuarios, aplicaciones y cosas.

    GoldenGate Stream Analytics procesa y analiza información a gran escala en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real a través de gráficos en directo, mapas, visualizaciones y crear gráficamente pipelines de transmisión sin necesidad de codificación manual. Estos pipelines se ejecutan en un entorno de big data en cluster ampliable y altamente disponible utilizando Spark integrado con el motor de consultas continuo de Oracle para abordar casos de uso críticos en tiempo real de empresas modernas. GoldenGate Stream Analytics puede aprovechar el cluster de Spark que se despliega con Oracle Cloud Infrastructure Big Data Service para procesar flujos de una forma altamente escalable y resistente.

  • Servicio de transmisión

    Los datos y la información se proporcionan a los consumidores mediante flujos compatibles con un gran conjunto de usuarios que consumen información simultáneamente y casi en tiempo real, y se desvinculan del sistema de análisis de flujo para aumentar la resiliencia y las posibilidades de ampliación.

    El servicio de transmisión de Oracle Cloud Infrastructure proporciona una solución duradera, escalable y totalmente gestionada para la ingestión de flujos de datos continuos y de elevado volumen que puede utilizar y procesar en tiempo real. La transmisión se puede utilizar para la mensajería, los logs de aplicación de alto volumen, la telemetría operativa, los datos de flujo de clics en la web u otros casos de uso del modelo de mensajería de publicación y suscripción en los que se producen y procesan datos de forma continua y secuencial.

  • API

    La capa de API le permite incorporar la inteligencia derivada de Data Science y Oracle Machine Learning en aplicaciones, procesos de negocio y cosas para influir y mejorar su funcionamiento. La capa API proporciona un consumo seguro de los modelos desplegados por Data Science en los puntos finales de REST de Oracle Machine Learning y la capacidad de controlar el sistema para garantizar la disponibilidad de entornos en tiempo de ejecución. También puede aprovechar las funciones para realizar una lógica adicional según sea necesario.

    • El gateway de API de Oracle Cloud Infrastructure permite publicar API con puntos finales privados a los que se puede acceder desde la red y exponer con direcciones IP públicas si desea que acepten tráfico de Internet. Los puntos finales soportan la validación de API, la transformación de solicitudes y respuestas, CORS, la autenticación y autorización, y la limitación de solicitudes. Permite que la observabilidad de la API controle el uso y garantice los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar los consumidores de API y los clientes de API que acceden a las API, así como para configurar distintos niveles de acceso para distintos clientes, a fin de realizar un seguimiento del uso de los datos que se consume mediante las API. Los planes de uso son una función clave para respaldar la monetización de datos.

    • Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multi-inquilino, altamente escalable y a demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y cuenta con la tecnología del motor de código abierto Fn Project.

    • Oracle REST Data Services (ORDS) es una aplicación Java que permite a los desarrolladores con conocimientos de SQL y de base de datos desarrollar API de REST para Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de idioma, sin instalar ni mantener controladores de cliente, de la misma manera que accede a otros servicios externos mediante REST, la tecnología de API más utilizada. ORDS se despliega como una función totalmente gestionada en ADW y se puede utilizar para exponer la información de los almacenes mediante API a los consumidores de datos.

  • Control de datos

    Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de dónde residen los activos técnicos, como los metadatos y los atributos respectivos, y ofrece la capacidad de mantener un glosario de negocio asignado a esos metadatos técnicos. Data Catalog también puede servir metadatos a Oracle Autonomous Data Warehouse para facilitar la creación de tablas externas en el almacén de datos.

  • Seguridad de datos

    La seguridad de los datos es crucial para explorar y utilizar al máximo los datos de los lagos. Al aprovechar un modelo de seguridad de confianza cero con capacidades de defensa en profundidad y RBAC y garantizar el cumplimiento de la normativa más estricta, la seguridad de los datos proporciona controles de seguridad preventivos, de detección y correctivos para garantizar que se eviten las filtraciones y las filtraciones de datos.

    • Oracle Data Safe es un servicio de Oracle Cloud totalmente integrado centrado en la seguridad de los datos. Proporciona un conjunto completo e integrado de funciones para proteger datos confidenciales y regulados en bases de datos de Oracle Cloud, como Oracle Autonomous Data Warehouse. Las funciones incluyen la evaluación de la seguridad, la evaluación de usuarios, la detección de datos, el enmascaramiento de datos y la auditoría de actividades.

    • Oracle Cloud Infrastructure Audit proporciona visibilidad de las actividades relacionadas con los recursos y arrendamientos de Oracle Cloud Infrastructure (OCI). Los eventos del log de auditoría se pueden utilizar para auditorías de seguridad para realizar un seguimiento del uso y los cambios en los recursos de OCI, así como para ayudar a garantizar el cumplimiento de los estándares y las normativas.

    • Oracle Cloud Infrastructure Logging proporciona una interfaz única altamente escalable y totalmente gestionada para todos los logs del arrendamiento, incluidos los logs de auditoría. Utilice OCI Logging para acceder a los logs de todos los recursos de OCI, de modo que pueda activarlos, gestionarlos y buscarlos.

    • Oracle Cloud Infrastructure Vault es un servicio de gestión del cifrado que almacena y gestiona claves y secretos de cifrado para acceder de forma segura a los recursos. Permite utilizar claves gestionadas por el cliente para Oracle Autonomous Data Warehouse y el cifrado de lago de datos para aumentar la protección de datos estáticos. Permite que los secretos almacenen de forma segura servicios y credenciales de usuario para mejorar su estrategia de seguridad y garantizar que las credenciales no se vean comprometidas y utilizadas de manera inadecuada.

Arquitectura Física

La arquitectura física de este Data Lakehouse admite lo siguiente:

  • Los datos se ingieren de forma segura mediante micro lotes, transmisión, API y archivos de orígenes de datos relacionales y no relacionales.
  • Los datos se procesan mediante una combinación de Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow
  • Los datos se almacenan en Oracle Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage, y se organizan según su calidad y valor
  • Oracle Autonomous Data Warehouse presta servicios de datos de almacenes y lagos de forma segura a los consumidores
  • Oracle Analytics Cloud muestra los datos a los usuarios empresariales mediante visualizaciones
  • Oracle Analytics Cloud se expone mediante el uso de Oracle Cloud Infrastructure Load Balancing, que está protegido por Oracle Cloud Infrastructure Web Application Firewall (WAF) para proporcionar acceso mediante Internet.
  • Oracle Cloud Infrastructure Data Science se utiliza para crear, entrenar y desplegar modelos de aprendizaje automático (ML)
  • El gateway de API de Oracle Cloud Infrastructure se utiliza para controlar los despliegues del modelo de ML de Data Science.
  • Oracle Cloud Infrastructure Data Catalog recopila metadatos de Oracle Autonomous Data Warehouse y el almacenamiento de objetos
  • Oracle Data Safe evalúa los riesgos de los datos, implementa y supervisa controles de seguridad, evalúa la seguridad del usuario, supervisa la actividad del usuario y aborda los requisitos de conformidad de seguridad de los datos
  • Los administradores utilizan Oracle Cloud Infrastructure Bastion para gestionar recursos de nube privada

En el siguiente diagrama se ilustra esta arquitectura de referencia.



lakehouse-arquitectura-oracle.zip

El diseño de la arquitectura física:

  • Aprovecha 2 VCN, una para el concentrador y otra para la propia carga de trabajo
  • La conectividad local aprovecha Oracle Cloud Infrastructure FastConnect y la VPN de sitio a sitio para la redundancia
  • Todo el tráfico entrante desde la ubicación local y desde Internet se enruta por primera vez a la VCN de hub y, a continuación, a la VCN de carga de trabajo
  • Todos los datos son seguros en tránsito y estáticos
  • Los servicios se despliegan con puntos finales privados para aumentar la estrategia de seguridad
  • La VCN está segregada en varias subredes privadas para aumentar la estrategia de seguridad
  • Los datos del lago se segregan en varios bloques del almacenamiento de objetos mediante una arquitectura de medallón

Las posibles mejoras de diseño no representadas en este despliegue por simplicidad incluyen:

  • Aprovechamiento de una zona de llegada compatible con CIS completa
  • Aproveche un firewall de red para mejorar la estrategia de seguridad general mediante la inspección de todo el tráfico y la aplicación de políticas

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para procesar datos de transmisión y una amplia gama de recursos de datos empresariales para el análisis empresarial y el aprendizaje automático.

Sus requisitos pueden ser diferentes de la arquitectura descrita aquí.

  • Oracle Autonomous Data Warehouse

    Esta arquitectura utiliza Oracle Autonomous Data Warehouse en una infraestructura compartida.

    • Active la escala automática para proporcionar a las cargas de trabajo de la base de datos hasta tres veces la potencia de procesamiento.
    • Puede utilizar Oracle Autonomous Data Warehouse en una infraestructura dedicada si desea la capacidad de la base de datos de autoservicio en un entorno de base de datos privada en la nube que se ejecute en la nube pública.
    • Considere el uso de la función de tablas particionadas híbridas de Autonomous Data Warehouse para mover particiones de datos a Oracle Cloud Infrastructure Object Storage y servirlas a usuarios y aplicaciones de forma transparente. Recomendamos que utilice esta función para los datos que no se consumen con frecuencia y para los que no necesite el mismo rendimiento que para los datos almacenados en Autonomous Data Warehouse.
    • Considere el uso de la función de tablas externas para consumir datos almacenados en Oracle Cloud Infrastructure Object Storage en tiempo real sin necesidad de replicarlos en Autonomous Data Warehouse. Esta función se une de forma transparente y perfecta a los juegos de datos seleccionados fuera de Autonomous Data Warehouse, independientemente del formato (parquet, avro, orc, json, csv, etc.), con datos que residen en Autonomous Data Warehouse.
    • Considere el uso de Autonomous Data Lake Accelerator al consumir datos de almacenamiento de objetos para ofrecer una experiencia mejorada y más rápida a los usuarios que consumen y unen datos entre el almacén de datos y el lago de datos.
    • Considere la posibilidad de utilizar vistas analíticas para modelar semánticamente el esquema subyacente de estrella o copo de nieve del almacén de datos directamente en el almacén de datos autónomo para que los datos granulares se agreguen automáticamente sin necesidad de agregarlo previamente, el modelo semántico se consume utilizando SQL de forma consistente con cualquier cliente compatible con SQL, incluido Oracle Analytics Cloud, lo que garantiza los hechos y los KPI. se proporcionan de forma consistente independientemente del cliente y todos los datos se pueden utilizar en el modelo semántico, independientemente de si se almacenan en ADW o en Object Storage, lo que convierte esta función en una capa de modelado semántico perfecta para una arquitectura de Data Lakehouse en la que los hechos y las dimensiones pueden recorrer tanto el almacén de datos como el lago.
    • Considere el uso de claves gestionadas por el cliente que aprovechan el servicio Vault si se necesita un control completo de las claves de cifrado de ADW debido a las políticas de la compañía o la regulación.
    • Considere el uso de Database Vault en ADW para evitar que usuarios con privilegios no autorizados accedan a datos confidenciales y, por lo tanto, evitar la exfiltración de datos y las filtraciones de datos.
    • Considere el uso de Autonomous Data Guard para soportar un plan de continuidad del negocio mediante la configuración y el mantenimiento de los datos replicados en una instancia en espera, ya sea en la misma región o en otra región.
    • Considere el uso del enmascaramiento de datos dinámico con la redacción de datos para servir datos enmascarados a los usuarios en función de su rol y, por lo tanto, garantizar un acceso adecuado a los datos sin necesidad de duplicación de datos y enmascaramiento estático.
  • Almacenamiento de objetos/Lago de datos

    Esta arquitectura utiliza Oracle Cloud Infrastructure Object Storage, un almacenamiento en la nube muy ampliable y duradero, como almacenamiento en el lago.

    • Considere la posibilidad de organizar su lago en diferentes conjuntos de bloques aprovechando una arquitectura medallón (bronce, plata, oro) u otra lógica de partición para separar los datos en función de su calidad y enriquecimiento, aplicar seguridad detallada a los consumidores que leen los datos y aplicar diferentes políticas de gestión del ciclo de vida a los distintos niveles.
    • Considere el uso de diferentes niveles de almacenamiento de objetos y políticas de ciclo de vida para optimizar los costos de almacenamiento de datos del lago a escala.
    • Considere el uso de claves gestionadas por el cliente que aprovechan el servicio Vault si se necesita un control total de las claves de cifrado del almacenamiento de objetos debido a las políticas de la compañía o de las normativas.
    • Puede utilizar la replicación de Object Storage para soportar un plan de continuidad del negocio mediante la configuración de la replicación de cubo en otra región. Puesto que el almacenamiento de objetos es muy duradero y mantiene varias copias del mismo objeto en una sola región para su recuperación en la misma replicación de cubo de región, no es necesario.
  • Oracle Machine Learning y Oracle Cloud Infrastructure Data Science

    Esta arquitectura utiliza Oracle Machine Learning y Oracle Cloud Infrastructure Data Science para ejecutar y entregar predicciones en tiempo real a personas y aplicaciones.

    • Considere utilizar AutoML en OCI Data Science u Oracle Machine Learning para acelerar el desarrollo de modelos de aprendizaje automático.
    • Considere el uso de Open Neural Networks Exchange (ONNX) para la interoperabilidad. Los modelos de 3a parte ONNX se pueden desplegar en OML y exponer como punto final de REST o en OCI Data Science y exponerlos como punto final HTTP.
    • Considere guardar el modelo en OCI Data Science como ONNX e importarlo a OCI GoldenGate Stream Analytics si es necesario ejecutar la puntuación y la predicción en un pipeline de datos en tiempo real para tener predicciones más oportunas que puedan impulsar resultados empresariales en tiempo real.
    • Considere el uso de entornos Conda de OCI Data Science para mejorar la gestión y el empaquetado de las dependencias de Python en sesiones de bloc de notas de Jupyter. Aproveche el repositorio seleccionado Anaconda de paquetes de OCI Data Science para utilizar sus herramientas favoritas de código abierto para crear, entrenar e implementar modelos.
    • Considere el uso de OCI Data Flow en el entorno de Jupyter de Data Science para realizar análisis de datos exploratorios, creación de perfiles de datos y preparación de datos a escala aprovechando el procesamiento de escalabilidad horizontal de Spark.
    • Considere el uso del etiquetado de datos para etiquetar datos como imágenes, texto o documentos y utilícelo para entrenar modelos de aprendizaje automático creados en OCI Data Science o OCI AI Services y, por lo tanto, mejorar la precisión de las predicciones.
    • Considere desplegar un gateway de API para proteger y controlar el consumo del modelo desplegado si los partners y las entidades externas consumen predicciones en tiempo real.
  • Oracle Cloud Infrastructure Data Integration

    Esta arquitectura utiliza Oracle Cloud Infrastructure Data Integration para soportar el desarrollo de ETL y pipelines de datos declarativos, sin código o con poco código.

    • Aproveche Oracle Cloud Infrastructure Data Integration para coordinar y programar ejecuciones de aplicaciones de Oracle Cloud Infrastructure Data Flow y poder combinar ETL declarativo con lógica de código de Spark personalizada. Utilice funciones de Oracle Cloud Infrastructure Data Integration para ampliar aún más las capacidades de los pipelines de datos.
    • Considere el uso de la inserción de SQL para transformaciones que tienen ADW como destino para utilizar un enfoque de ELT más eficiente, eficaz y seguro en comparación con ETL.
    • Considere la posibilidad de permitir que OCI Data Integration maneje el cambio de esquema de orígenes de datos para tener pipelines de datos más resistentes y a prueba de futuro que soporten los cambios de esquema de orígenes de datos.
  • Oracle Cloud Infrastructure Data Flow

    Esta arquitectura utiliza Oracle Cloud Infrastructure Data Flow para soportar el procesamiento de transmisión de Spark y Spark a gran escala sin necesidad de tener y gestionar clusters permanentes.

    • Considere el uso de Oracle Cloud Infrastructure Data Catalog como metastore de Hive para Oracle Cloud Infrastructure Data Flow con el fin de almacenar y recuperar de forma segura definiciones de esquema para objetos en activos de datos no estructurados y semiestructurados, como Oracle Cloud Infrastructure Object Storage.
    • Considere el uso de Delta Lake en OCI Data Flow si se necesitan transacciones ACID y unificación de flujo y procesamiento por lotes para los datos de lago.
  • Servicio de Big Data

    Esta arquitectura utiliza Oracle Cloud Infrastructure Big Data Service para desplegar clusters escalables y de alta disponibilidad de varias tecnologías de código abierto como Spark, Hadoop, Trino o Flink que pueden procesar datos por lotes y de transmisión. Big Data Service mantiene datos en HDFS, mantiene y lee datos de Oracle Cloud Infrastructure Object Storage y puede intercambiar juegos de datos con otros servicios de Oracle Cloud Infrastructure como Oracle Cloud Infrastructure Data Flow y Oracle Autonomous Data Warehouse.

    • Considere el uso de la ampliación automática para escalar automáticamente horizontal o verticalmente los nodos de trabajador en función de las métricas o el programa para optimizar continuamente los costos en función de la demanda de recursos.
    • Considere el uso del conector HDFS de OCI para que el almacenamiento de objetos lea y escriba datos en el almacenamiento de objetos y, de esta forma, proporcione un mecanismo para producir o consumir datos compartidos con otros servicios de OCI sin necesidad de replicarlos y duplicarlos.
    • Considere utilizar Delta Lake en OCI BDS si se necesitan transacciones ACID y unificación del flujo y el procesamiento por lotes para los datos del lago.
  • Transmisión de Oracle Cloud Infrastructure

    Esta arquitectura utiliza la transmisión de Oracle Cloud Infrastructure para consumir datos de transmisión de orígenes y proporcionar datos de transmisión a los consumidores.

    Considere aprovechar el hub de conector de servicio de Oracle Cloud Infrastructure para mover datos del flujo de Oracle Cloud Infrastructure y mantenerlos en Oracle Cloud Infrastructure Object Storage para soportar más análisis de datos históricos.

  • Oracle Analytics Cloud

    Esta arquitectura utiliza Oracle Analytics Cloud (OAC) para proporcionar análisis aumentados a los usuarios finales.

    Considere aprovechar la integración predefinida que OAC tiene con los servicios de IA de OCI (modelos de lenguaje y visión) y OML (cualquier modelo) para integrar la inteligencia en los flujos de datos y las visualizaciones que consumen los usuarios finales y, por lo tanto, democratizar el consumo de IA y ML.

  • Servicios de IA de Oracle Cloud Infrastructure

    Esta arquitectura puede aprovechar los servicios de IA de Oracle Cloud Infrastructure, según los casos de uso desplegados.

    • Para los casos de uso de mantenimiento predictivo y detección de anomalías, considere utilizar el servicio Oracle Cloud Infrastructure Anomaly Detection que ayuda a identificar anomalías en un conjunto de datos multivariante aprovechando la interrelación entre las señales.
    • Considere la posibilidad de utilizar el etiquetado de datos para etiquetar datos de entrenamiento que se utilizarán para ajustar y obtener predicciones más precisas para servicios de IA como Visión, Descripción de documentos e Idioma.
  • Gateway de API

    Esta arquitectura utiliza API Gateway para exponer de forma segura servicios de datos e inferir en tiempo real a los consumidores de datos.

    • Considere el uso de Oracle Cloud Infrastructure Functions para agregar la lógica de tiempo de ejecución necesaria para soportar el procesamiento de API específico que está fuera del ámbito de las capas de procesamiento de datos y acceso e interpretación.
    • Considere la posibilidad de utilizar planes de uso para gestionar el acceso de los suscriptores a las API, controlar y gestionar el consumo de las API, configurar diferentes niveles de acceso para diferentes consumidores y soportar la monetización de datos mediante el seguimiento de las métricas de uso que se pueden proporcionar a un sistema de facturación externo.
  • Oracle Cloud Infrastructure Data Catalog

    Para tener una vista completa e integral de los datos almacenados y que fluyen en la plataforma, considere la posibilidad de recopilar no solo almacenes de datos que soportan la capa de persistencia de datos, sino también los almacenes de datos de origen. La asignación de estos metadatos técnicos recopilados al glosario de negocio y su enriquecimiento con propiedades personalizadas le permite asignar conceptos de negocio y documentar y controlar las definiciones de seguridad y acceso.

    Para facilitar la creación de tablas externas de Oracle Autonomous Data Warehouse que virtualicen los datos almacenados en Oracle Cloud Infrastructure Object Storage, utilice los metadatos previamente recopilados por Oracle Cloud Infrastructure Data Catalog. Esto simplifica la creación de tablas externas, aplica la consistencia de los metadatos en los almacenes de datos y es menos susceptible a errores humanos.

  • Servicio de transferencia de datos de Oracle Cloud Infrastructure

    Utilice el servicio de transferencia de datos de Oracle Cloud Infrastructure al cargar datos mediante Internet no es posible. Recomendamos considerar el uso de Data Transfer si la carga de datos a través de la red pública de Internet tarda entre 1 y 2 semanas.

  • Seguridad y auditoría de los datos

    Aumentar la postura de seguridad aprovechando las capacidades de auditoría y alerta permitirá evitar la exfiltración de datos y poder realizar análisis forenses en caso de que se produzca una infracción de datos.

    Considere el uso de Data Safe para la actividad de auditoría en el almacén de datos y el uso del servicio de auditoría para auditar la actividad en los datos del lago.

    Considere el uso de Data Safe para detectar datos confidenciales en ADW y enmascararlos estáticamente al crear clones de ADW para entornos que no sean de producción y, por lo tanto, evitar riesgos de seguridad.

  • Enfoque organizativo

    Esta arquitectura es flexible y puede soportar diferentes tipos de enfoques organizativos que van desde un enfoque centralizado hasta un enfoque completamente descentralizado y, por lo tanto, puede ser adoptada y utilizada por cualquier organización que desee extraer valor de sus datos.

    Esta arquitectura utiliza controles detallados y ampliados para la autenticación y autorización con OCI Identity and Access Management (IAM).

    Considere la posibilidad de utilizar IAM para separar las distintas líneas de negocio y equipos mediante el Data Lakehouse a fin de descentralizar la propiedad de la creación de productos de datos y aplicar la segregación de dominios de datos si su organización desea adoptar un enfoque organizativo descentralizado.

    OCI cuenta con capacidades de automatización e infraestructura como código para un despliegue de arquitectura exitoso, aprovechando marcos como Terraform y Ansible.

    Si su organización está adoptando un enfoque descentralizado e implementando dominios de datos bajo ese enfoque, considere aprovechar plantillas de terraform predefinidas y OCI Resource Manager para incorporar dominios de datos de forma rápida y coherente a la plataforma de datos.

Consideraciones

Al recopilar, procesar y curar datos de aplicaciones para análisis y aprendizaje automático, tenga en cuenta las siguientes opciones de implantación.

Orientación Recomendaciones Otras Opciones Racional
Refinería de datos
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Transformaciones de datos de Oracle Autonomous Database

Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es ampliable y rentable.

Oracle Cloud Infrastructure GoldenGate proporciona una plataforma de replicación de datos en la nube, sin servidor, totalmente gestionada y no intrusiva que es escalable, rentable y se puede desplegar en entornos híbridos.

Persistencia de datos
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse es una base de datos fácil de usar y totalmente autónoma que se escala de forma flexible, ofrece un rápido rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos desde tablas particionadas externas o híbridas del almacenamiento de objetos.

Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.

Procesamiento de datos
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure Servicio de big data
Herramientas de terceros

Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es ampliable y rentable.

Oracle Cloud Infrastructure Data Flow proporciona un entorno de Spark sin servidor para procesar datos a escala con un modelo de pago por uso y extremadamente flexible.

Oracle Cloud Infrastructure Big Data Service proporciona Hadoop como servicio de nivel empresarial con seguridad integral, alto rendimiento y facilidad de gestión y capacidad de actualización.

Acceso e interpretación
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Servicios de IA de Oracle Cloud Infrastructure
Herramientas de terceros

Oracle Analytics Cloud está totalmente gestionado e integrado con los datos seleccionados en Oracle Autonomous Data Warehouse.

Data Science es una plataforma de autoservicio totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El servicio Data Science proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos.

Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada para la ciencia de datos disponible con Oracle Autonomous Data Warehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar y desplegar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén.

Los servicios de IA de Oracle Cloud Infrastructure son un conjunto de servicios que proporcionan modelos incorporados creados y entrenados específicamente para realizar tareas como inferir posibles anomalías o detectar sentimientos.

Despliegue

El código de Terraform para esta arquitectura de referencia está disponible en GitHub. Puede extraer el código en Oracle Cloud Infrastructure Resource Manager con un solo clic, crear la pila y desplegarla. También puede descargar el código de GitHub en su computadora, personalizar el código y desplegar la arquitectura mediante la CLI de Terraform.
  • Despliegue mediante Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic en Despliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca el arrendamiento y las credenciales de usuario.

    2. Revise y acepte los términos y las condiciones.
    3. Seleccione la región en la que desea desplegar la pila.
    4. Siga las indicaciones y las instrucciones en pantalla para crear la pila.
    5. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
    6. Espere a que se complete el trabajo y revise el plan.

      Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    7. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Despliegue con la CLI de Terraform:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en la computadora local.
    3. Siga las instrucciones del documento README.

Confirmaciones

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Robert Lies

Log de Cambios

Este log muestra cambios significativos: