Plataforma de datos - Lakehouse de datos
Puede recopilar y analizar eficazmente datos de eventos y datos de transmisión de Internet de las cosas (IoT) y fuentes de redes sociales, pero ¿cómo los correlaciona con la amplia gama de recursos de datos empresariales para aprovechar su inversión y obtener las estadísticas que desea?
Aproveche un data lakehouse en la nube que combina las capacidades de un lago de datos y un almacén de datos para procesar una amplia gama de datos empresariales y de transmisión para el análisis empresarial y el aprendizaje automático.
Esta arquitectura de referencia posiciona la solución tecnológica dentro del contexto empresarial general, donde las intenciones estratégicas impulsan la creación de resultados estratégicos medibles. Estos resultados generan nuevas intenciones estratégicas, ofreciendo de forma eficaz mejoras empresariales continuas y basadas en datos.
Un data lake permite a una empresa almacenar todos sus datos en un entorno flexible y rentable, al tiempo que proporciona los servicios de procesamiento, persistencia y análisis necesarios para descubrir nuevas estadísticas empresariales. Un data lake almacena y cura datos estructurados y no estructurados y proporciona métodos para organizar grandes volúmenes de datos muy diversos de múltiples fuentes.
Con un almacén de datos, puede realizar la transformación y limpieza de datos antes de confirmar los datos en el almacén. Con un data lake, ingieres datos rápidamente y los preparas sobre la marcha a medida que las personas acceden a él. Un lago de datos soporta la generación de informes operativos y la supervisión del negocio que requieren acceso inmediato a los datos y análisis flexibles para comprender lo que está sucediendo en el negocio mientras está sucediendo.
Arquitectura Funcional
Puede combinar las capacidades de un lago de datos y un almacén de datos para proporcionar una plataforma de data lakehouse moderna que procese la transmisión y otros tipos de datos de una amplia gama de recursos de datos empresariales para que pueda aprovechar los datos para el análisis empresarial, el aprendizaje automático, los servicios de datos y los productos de datos.
Una arquitectura de data lakehouse combina las capacidades tanto del data lake como del data warehouse para aumentar la eficiencia operativa y ofrecer capacidades mejoradas que permitan:
- Uso fluido de datos e información sin necesidad de replicarlos en el lago de datos y el almacén de datos
- Diverso soporte de tipos de datos en una arquitectura multimodelo y políglota mejorada
- Ingestión de datos perfecta de cualquier consumidor mediante mecanismos de ingestión masiva, transmisión, por lotes, interfaz de programación de aplicaciones (API) y en tiempo real.
- Extracción de inteligencia continua a partir de datos mediante servicios de inteligencia artificial (IA), IA generativa y aprendizaje automático (ML)
- Capacidad de infundir y ofrecer inteligencia a cualquier consumidor de datos mediante el uso de API, una interfaz de usuario, un flujo y mecanismos de integración
- Gobernanza y seguridad de datos detallada que aprovecha un modelo de seguridad de confianza cero
- Capacidad de disociar por completo los recursos informáticos y de almacenamiento, y de consumir solo los recursos necesarios en cualquier momento.
- La capacidad de aprovechar varios motores de cálculo, incluidos los motores de código abierto, para procesar los mismos datos para diferentes casos de uso a fin de lograr la máxima reutilización, liquidez y uso de los datos.
- Capacidad de almacenar datos mediante diferentes formatos de archivo y tabla abiertos en el lago de datos
- La capacidad de aprovechar los servicios nativos de Oracle Cloud Infrastructure (OCI) gestionados por Oracle y que reducen la sobrecarga operativa
- Mejor economía en la nube con escala automática que ajusta la infraestructura de recursos en la nube para satisfacer la demanda real
- Modularidad para que el uso del servicio esté basado en casos de uso
- Interoperabilidad con cualquier sistema o nube que cumpla con los estándares abiertos
- Soporte para un conjunto variado de casos de uso que incluyen transmisión, análisis, ciencia de datos y aprendizaje automático
- Soporte para diferentes enfoques arquitectónicos, desde un lakehouse centralizado hasta una malla de datos descentralizada
El siguiente diagrama ilustra la arquitectura funcional.
lakehouse-funcional-oracle.zip
La arquitectura se centra en las siguientes divisiones lógicas:
- Conexión, ingestión, transformación
Se conecta a orígenes de datos, ingiere y acota sus datos para su uso en cada una de las capas de datos de la arquitectura.
- Persistir, curar, crear
Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos pueden estar estructurados lógica o físicamente en formas relacionales simples, longitudinales, dimensionales o OLAP. Para los datos no relacionales, esta capa contiene uno o más pools de datos, ya sea la salida de un proceso analítico o los datos optimizados para una tarea analítica específica.
- Análisis, aprendizaje y predicción
Abstrae la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles para el desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes de varios orígenes federados.
La arquitectura tiene los siguientes componentes funcionales:
- Ingestión por lotes
La ingestión por lotes es útil para datos que no se pueden ingerir en tiempo real o que son demasiado costosos para adaptarse a la ingestión en tiempo real. También es importante para transformar los datos en información confiable y confiable que pueda ser curada y persistente para el consumo regular. Puede utilizar los siguientes servicios juntos o de forma independiente para lograr un flujo de trabajo de transformación e integración de datos altamente flexible y eficaz.
-
Oracle Cloud Infrastructure Data Integration es un servicio totalmente gestionado, sin servidor y nativo en la nube que extrae, carga, transforma, limpia y vuelve a formar datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficaces y asignar y ampliar automáticamente el entorno de ejecución.
ETL (carga de transformación de extracción) aprovecha el procesamiento de escala horizontal totalmente gestionado en Spark y ELT (transformación de carga de extracción) aprovecha las capacidades de transferencia SQL completa de Autonomous Data Warehouse para minimizar el movimiento de datos y mejorar el tiempo de obtención de resultados para los datos recién ingeridos.
Oracle Cloud Infrastructure Data Integration proporciona exploración interactiva y preparación de datos, y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.
-
Oracle Data Integrator proporciona una integración completa de datos, desde cargas por lotes de alto volumen y alto rendimiento, hasta procesos de integración de alimentación por goteo basados en eventos y servicios de datos activados para SOA. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de validación y transformación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y ejecución de ELT y para ayudar a los usuarios a crear y programar datos y flujos de trabajo mediante un enfoque de diseño declarativo.
-
Las transformaciones de datos de Oracle permiten ELT para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar flujos de datos y flujos de trabajo de forma declarativa. Oracle Data Transforms está disponible como un entorno totalmente gestionado en Oracle Autonomous Data Warehouse (ADW) para cargar y transformar datos de varios orígenes de datos en una instancia de ADW.
En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una integración y transformación de datos altamente flexibles y de gran rendimiento.
-
- Ingesta basada en API
La ingesta basada en API permite a las aplicaciones y sistemas transferir datos de eventos mediante API o webhooks.
-
Oracle Integration es un entorno preconfigurado y totalmente gestionado que permite integrar aplicaciones en la nube y locales, automatizar los procesos de negocio y desarrollar aplicaciones visuales. Utiliza un servidor de archivos compatible con SFTP para almacenar y recuperar archivos y le permite intercambiar documentos con partners comerciales de negocio a negocio mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
-
Oracle Cloud Infrastructure API Gateway permite publicar API con puntos finales privados accesibles desde la red y que se pueden exponer a la red pública de Internet si es necesario. Los puntos finales admiten la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes.
OCI API Gateway permite la observabilidad de la API para supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar clientes y consumidores de API y para configurar diferentes niveles de acceso de API para diferentes clientes. Los planes de uso son una función clave para admitir la monetización de datos.
Los planes de uso admiten la monetización de datos mediante la creación de planes de uso por niveles para gestionar clientes y consumidores de API y realizar un seguimiento del uso de los datos.
-
Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio (FaaS) totalmente gestionada, multi-inquilino, altamente escalable y bajo demanda. Se basa en el motor de origen abierto Fn Project. Las funciones le permiten desplegar el código y llamarlo directamente o dispararlo en respuesta a eventos. Oracle Functions utiliza contenedores de Docker alojados en Oracle Cloud Infrastructure Registry.
-
Oracle REST Data Services (ORDS) es una aplicación de Java que permite a cualquier desarrollador con conocimientos de SQL y base de datos desarrollar API de REST para Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje sin tener que instalar y mantener controladores de cliente de la misma manera que accede a otros servicios externos mediante REST, la tecnología de API más utilizada.
ORDS se despliega como una función totalmente gestionada en Oracle Autonomous Data Warehouse y se puede utilizar para exponer información de lakehouse mediante API a los consumidores de datos.
-
-
Ingesta en tiempo real
Oracle Cloud Infrastructure GoldenGate es un servicio totalmente gestionado que permite la ingestión de datos desde orígenes que residan en una ubicación local o en cualquier nube. Utiliza la tecnología CDC GoldenGate para una captura y entrega de datos no intrusiva y eficiente a Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage u Oracle Cloud Infrastructure Streaming en tiempo real y a escala para que la información relevante esté disponible para los consumidores lo más rápido posible.
- Transferencia masiva
La transferencia masiva permite mover grandes volúmenes de datos por lotes mediante diferentes métodos. Para almacenes de lagos de datos a gran escala, recomendamos los servicios Oracle Cloud Infrastructure FastConnect y Data Transfer.
-
Oracle Cloud Infrastructure FastConnect proporciona una forma sencilla de crear una conexión privada y dedicada entre el centro de datos y Oracle Cloud Infrastructure. FastConnect proporciona opciones de mayor ancho de banda y una experiencia de red más fiable en comparación con las conexiones basadas en Internet.
- La interfaz de línea de comandos (CLI) de Oracle Cloud Infrastructure (OCI) permite ejecutar y automatizar la transferencia de datos de ubicaciones locales a OCI mediante el circuito privado de Oracle Cloud Infrastructure FastConnect. Los SDK de OCI le permiten escribir código para copiar o sincronizar datos y archivos de ubicaciones locales o de otras nubes en Oracle Cloud Infrastructure Object Storage, aprovechando una variedad de lenguajes de programación como Python, Java o Go, entre otros. Las API de REST permiten interactuar con los servicios de OCI y controlarlos, como mover datos al almacenamiento de objetos mediante la API del servicio de almacenamiento de objetos.
- Data Transfer de Oracle Cloud Infrastructure es un servicio de migración de datos fuera de línea que le permite mover de forma segura juegos de datos a escala de petabyte desde su centro de datos a Oracle Cloud Infrastructure Object Storage o Archive Storage. El uso de la red pública de Internet para trasladar datos a la nube no siempre es factible debido a los altos costos de red, la conectividad de red poco fiable, los largos tiempos de transferencia y las preocupaciones de seguridad. El servicio Data Transfer supera estos retos y puede reducir significativamente el tiempo que lleva la migración de datos a la nube. La transferencia de datos está disponible a través de un dispositivo o disco. La elección de uno sobre otro depende principalmente de la cantidad de datos. Data Transfer Appliance soporta conjuntos de datos más grandes para cada dispositivo.
-
- Ingesta de transmisión
La ingestión de transmisión está soportada mediante el uso de servicios nativos de OCI que permiten la ingestión en tiempo real de juegos de datos a gran escala de un amplio conjunto de productores de datos. La ingesta de flujo mantiene y sincroniza los datos en el almacenamiento de objetos, que es el núcleo del data lakehouse. La sincronización de datos con el almacenamiento de objetos permite mantener datos históricos que se pueden curar y transformar para extraer información valiosa.
-
Oracle Cloud Infrastructure Streaming proporciona una solución de almacenamiento duradero, escalable y totalmente gestionada para la ingesta de flujos de datos continuos y de alto volumen que puede consumir y procesar en tiempo real. El flujo se puede utilizar para mensajes, logs de aplicación de gran volumen, datos de telemetría operativa, datos de flujo de clics en la web u otros casos de uso de modelos de mensajería de publicación/suscripción en los que se producen y procesan datos de forma continua y secuencial. Los datos se sincronizan con Oracle Cloud Infrastructure Object Storage y se pueden curar y transformar para extraer información valiosa.
-
Oracle Cloud Infrastructure Queue es un servicio sin servidor totalmente gestionado que ayuda a disociar sistemas y a activar operaciones asíncronas. Queue maneja grandes volúmenes de datos transaccionales que requieren mensajes procesados de forma independiente sin pérdidas ni duplicación.
-
Oracle Cloud Infrastructure Service Connector Hub es una plataforma de bus de mensajes en la nube que ofrece un único panel para describir, ejecutar y supervisar el movimiento de datos entre servicios de Oracle Cloud Infrastructure. Para esta arquitectura de referencia concreta, se utilizará para mover datos de Oracle Cloud Infrastructure Streaming u OCI Queue a Oracle Cloud Infrastructure Object Storage para mantener los datos raw y preparados en la capa de persistencia del data lakehouse.
-
-
Procesamiento de Streaming
El procesamiento de transmisión enriquece los datos de transmisión, detecta patrones de eventos y crea un juego diferente de flujos que se conservan en el data lakehouse.
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics procesa y analiza información a gran escala en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real a través de gráficos en vivo, mapas, visualizaciones, y pueden construir gráficamente pipelines de transmisión sin necesidad de codificación manual. Estos pipelines se ejecutan en un servicio totalmente gestionado y ampliable para abordar casos de uso críticos en tiempo real de empresas modernas.
-
Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones de Apache Spark y Spark Streaming sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar operaciones. Las aplicaciones de flujo de datos son plantillas reutilizables que constan de una aplicación Spark y sus dependencias, parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto.
-
- Ecosistema de código abierto
Puede utilizar el ecosistema de código abierto:
- Para el procesamiento por lotes y de flujos que aprovechan varios motores de código abierto populares como Hadoop, Spark, Flink o Trino
- Con Oracle Cloud Infrastructure Streaming tanto como productor como consumidor
- Con Oracle Cloud Infrastructure Object Storage, donde puede conservar datos y consumir datos
Puede utilizar Oracle Cloud Infrastructure Object Storage como lago de datos para mantener los juegos de datos que desea compartir entre los distintos servicios de Oracle Cloud Infrastructure en diferentes momentos.
Big Data Service proporciona a demanda clusters de Hadoop, Spark o Flink totalmente configurados, seguros, altamente disponibles y dedicados, entre otras tecnologías. Escale el cluster para que se ajuste a sus cargas de trabajo de big data y análisis mediante un rango de unidades de computación de Oracle Cloud Infrastructure que soportan todo, desde clusters de prueba y desarrollo pequeños hasta clusters de producción grandes. Ajuste rápidamente a la demanda del negocio y optimice los costos aprovechando las configuraciones de ampliación automática, ya sea en función de las métricas o según lo programado. Aproveche los perfiles de cluster para crear clusters óptimos para una carga de trabajo o tecnología específicas. - Procesamiento por lotes
El procesamiento por lotes transforma los juegos de datos a gran escala almacenados en el data lakehouse. El procesamiento por lotes aprovecha los servicios nativos de Oracle Cloud Infrastructure que se integran a la perfección con Oracle Cloud Infrastructure Object Storage y permite crear datos seleccionados para casos de uso como la agregación y el enriquecimiento de datos, la ingestión de almacenes de datos y el aprendizaje automático y el uso de datos de IA a escala.
-
Oracle Cloud Infrastructure Data Integration, descrito anteriormente, es un servicio totalmente gestionado, sin servidor y nativo en la nube que extrae, carga, transforma, limpia y remodela datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage.
-
Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones de Apache Spark y Spark Streaming sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar operaciones. Las aplicaciones de flujo de datos son plantillas reutilizables que constan de una aplicación Spark y sus dependencias, parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto.
-
Las transformaciones de datos de Oracle permiten la extracción, carga y transformación (ELT) para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar flujos de datos y flujos de trabajo de forma declarativa. Oracle Data Transforms está disponible como un entorno totalmente gestionado en Oracle Autonomous Data Warehouse (ADW) para cargar y transformar datos de varios orígenes de datos en una instancia de ADW.
En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr un procesamiento de datos altamente flexible y eficaz.
-
- Ración
Oracle Autonomous Data Warehouse es un servicio de base de datos autogestionado, autoseguridad y autorreparable optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación, la copia de seguridad, la aplicación de parches, el cambio de versión y el ajuste de la base de datos.
Después del aprovisionamiento, puede escalar el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos en cualquier momento sin que esto afecte a la disponibilidad o el rendimiento.
Oracle Autonomous Data Warehouse también puede virtualizar los datos que residen en el almacenamiento de objetos como tablas particionadas híbridas y externas para que pueda unir y consumir datos derivados de otros orígenes con los datos del almacén. También puede mover datos históricos del almacén al almacenamiento de objetos y, a continuación, consumirlos sin problemas mediante el uso de tablas particionadas híbridas.
Oracle Autonomous Data Warehouse puede utilizar metadatos recopilados previamente almacenados en Data Catalog para crear tablas externas, y puede sincronizar automáticamente las actualizaciones de metadatos en Data Catalog con la definición de tablas externas para mantener la coherencia, simplificar la gestión y reducir el esfuerzo.
Los vectores están soportados en Autonomous Database, ya que es una base de datos de varios modelos que soporta varios tipos de datos, es decir, relacionales, JSON, espaciales y gráficos. El tipo de dato de vectores permite cargar y almacenar incrustaciones de vectores, así como crear índices vectoriales que se pueden utilizar para aplicaciones de generación aumentada de recuperación (RAG), todo en una única instancia de Autonomous Data Warehouse en la nube. Esta capacidad multimodelo permite realizar análisis utilizando todos los tipos de datos que se pueden unir en una sola consulta, lo que reduce la complejidad y el riesgo de tener bases de datos aisladas especializadas por tipo de dato, al tiempo que garantiza una mayor seguridad, fiabilidad, escalabilidad y facilidad para analizar todos los datos.
Seleccione AI, una función de Autonomous Database, que permite consultar datos mediante lenguaje natural, utilizando LLM para convertir el texto de entrada del usuario en Oracle SQL. Select AI procesa la petición de datos en lenguaje natural, complementa la petición de datos con metadatos y, a continuación, genera y ejecuta una consulta SQL.
El uso compartido de datos, una función de Autonomous Database, permite proporcionar y consumir de forma segura datos y metadatos de otras partes que utilizan la instancia de Autonomous Database o una tecnología compatible con Delta-Sharing. El uso compartido de datos facilita el consumo sin problemas de datos de proveedores de recursos compartidos, como vistas que abstraen las tablas compartidas subyacentes. Además, los recursos compartidos activos, que permiten a los destinatarios consumir datos activos y nuevos, se pueden utilizar cuando tanto el proveedor como el destinatario utilizan Autonomous Database.
Las vistas analíticas, una función de Autonomous Database, proporcionan una forma rápida y eficaz de crear consultas analíticas de los datos almacenados en tablas y vistas de base de datos existentes. Las vistas analíticas organizan los datos mediante un modelo dimensional. Permiten agregar fácilmente agregaciones y cálculos a los juegos de datos y presentar datos en vistas que se pueden consultar con SQL relativamente sencillo. Esta función permite modelar semánticamente un esquema de estrella o copo de nieve directamente en ADW, utilizando datos almacenados interna y externamente, y permite el consumo del modelo mediante SQL y cualquier consumidor de datos compatible con SQL.
Además, Autonomous Data Lake Accelerator, un componente de Autonomous Database, puede consumir sin problemas datos de almacenamiento de objetos, escalar el procesamiento para ofrecer consultas rápidas, escalar automáticamente la instancia informática de la base de datos cuando sea necesario y reducir el impacto en la carga de trabajo de la base de datos aislando las consultas de almacenamiento de objetos de la instancia informática de la base de datos.
- Almacenamiento en la nube
Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Puede almacenar o recuperar de manera segura los datos directamente desde Internet o desde la plataforma en la nube. Las múltiples interfaces de gestión le permiten iniciar fácilmente pequeñas y escalar sin problemas, sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio.
Oracle Cloud Infrastructure Object Storage también se puede utilizar como capa de almacenamiento en frío para el almacén de datos almacenando datos que se utilizan con poca frecuencia y, a continuación, uniéndolos a la perfección con los datos más recientes mediante el uso de tablas híbridas en Oracle Autonomous Data Warehouse.
El control de acceso granular a nivel de objeto se puede aplicar mediante políticas de IAM para objetos, lo que aumenta la seguridad de los datos para los accesos directos al lago de datos.
- Visualice y aprenda
Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un conjunto completo de capacidades para explorar y realizar análisis de colaboración para usted, su grupo de trabajo y su empresa. Admite científicos de datos ciudadanos, formación avanzada de analistas empresariales y ejecución de modelos de machine learning (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous Data Warehouse como modelos integrados en OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén y los servicios de IA de OCI, como Oracle Cloud Infrastructure Vision.
Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, como una configuración rápida, una ampliación y aplicación de parches fáciles y una gestión automatizada del ciclo de vida.
-
Aprender y predecir
-
Data Science proporciona infraestructura, tecnologías de código abierto, bibliotecas, paquetes y herramientas de ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo de colaboración y controlado por proyectos proporciona una experiencia de usuario integral coherente y soporta el ciclo de vida de modelos predictivos. Data Science permite a los científicos de datos e ingenieros de aprendizaje automático descargar e instalar paquetes directamente desde el repositorio de Anaconda sin costo alguno, lo que les permite innovar en sus proyectos con un ecosistema de ciencia de datos seleccionado de bibliotecas de aprendizaje automático.
La función Trabajos de Data Science permite a los científicos de datos definir y ejecutar tareas repetibles de aprendizaje automático en una infraestructura totalmente gestionada.
La función de despliegue de modelos de Data Science permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, infundir inteligencia en procesos y aplicaciones, y permitir que la empresa reaccione a los eventos relevantes a medida que se producen.
-
Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Autonomous Database, con soporte para Python y AutoML. Admite modelos que utilizan algoritmos de código abierto y escalables en la base de datos que reducen la preparación y el movimiento de datos. AutoML ayuda a los científicos de datos a acelerar el tiempo de obtención de resultados de las iniciativas de aprendizaje automático de la compañía mediante la selección automática de algoritmos, el muestreo adaptativo de datos, la selección automática de funciones y el ajuste automático de modelos. Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous Data Warehouse, no solo puede gestionar modelos, sino que también puede desplegar esos modelos como puntos finales de REST para democratizar las predicciones en tiempo real dentro de la empresa, lo que permite a las empresas reaccionar a los eventos relevantes a medida que se producen, en lugar de hacerlo después del hecho.
-
- Servicios de IA y IA generativa
Los servicios de IA de Oracle Cloud Infrastructure proporcionan un conjunto de servicios de IA listos para el consumo que se pueden utilizar para soportar una serie de casos de uso, desde el análisis de texto hasta el mantenimiento predictivo. Estos servicios tienen modelos predefinidos y finamente ajustados que puede integrar en pipelines de datos, análisis y aplicaciones mediante API.
-
Oracle Cloud Infrastructure Language realiza sofisticados análisis de texto y traducciones a escala. Con modelos preentrenados y personalizados, los desarrolladores pueden procesar texto no estructurado y extraer información sin experiencia en ciencia de datos. Realice análisis de sentimientos, extracción de frases clave, clasificación de texto, reconocimiento de entidades con nombre y detecte datos de PII en el texto. Adapta modelos para tareas específicas del dominio y traduce texto sin esfuerzo en varios idiomas. Oracle Cloud Infrastructure Language también soporta la traducción de documentos y trabajos asíncronos para procesar de forma eficaz cargas de trabajo de gran volumen.
- Oracle Cloud Infrastructure Speech aprovecha la potencia del lenguaje hablado al permitirle convertir fácilmente archivos multimedia que contienen voz humana en transcripciones de texto de alta precisión. OCI Speech se puede utilizar para transcribir llamadas al servicio de atención al cliente, automatizar subtítulos y generar metadatos para activos multimedia a fin de crear un archivo que permita realizar búsquedas completas. OCI Speech soporta trabajos de transcripción por lotes y activos.
-
OCI Vision realiza tareas de reconocimiento de imágenes y análisis de video, como la clasificación de imágenes, la detección de objetos y caras y la extracción de texto. Puede aprovechar modelos preentrenados o crear fácilmente modelos de visión personalizados para escenarios específicos del sector y del cliente. OCI Vision es un servicio en la nube nativo, multi-inquilino y totalmente gestionado que ayuda con todas las tareas comunes de visión informática.
- Oracle Cloud Infrastructure Document Understanding realiza tareas de clasificación y análisis de documentos, como la extracción de texto, valores clave y tablas. El servicio OCI Document Understanding es un servicio en la nube nativo, totalmente gestionado y multi-inquilino que ayuda con todas las tareas comunes de análisis de documentos.
- Oracle Cloud Infrastructure Generative AI es una solución totalmente gestionada que proporciona un conjunto de modelos de lenguaje grandes (LLM) personalizables y de última generación que abarcan una amplia gama de casos de uso, como chat, generación de texto, resúmenes y la creación de incrustaciones de texto. Utilice el patio de recreo para probar los modelos preentrenados listos para usar o crear y alojar sus propios modelos personalizados de ajuste basados en sus propios datos en clusters de IA dedicados.
-
- Mejora de datos
El enriquecimiento de datos puede mejorar los datos que se utilizan para entrenar modelos de aprendizaje automático a fin de lograr resultados de predicción mejores y más precisos.
Oracle Cloud Infrastructure Data Labeling permite crear y examinar juegos de datos, ver registros de datos (texto o imágenes) y aplicar etiquetas para crear modelos de IA/AA. El servicio también proporciona interfaces de usuario interactivas diseñadas para ayudar en el proceso de etiquetado. Después de etiquetar los registros, el juego de datos se puede exportar como JSON delimitado por líneas para su uso en el desarrollo del modelo de IA/AA. - Buscar
Las capacidades de búsqueda se pueden utilizar como una función complementaria para exponer datos a los usuarios finales que requieren datos de análisis operativos preindexados y, por lo tanto, con baja latencia.
La búsqueda de Oracle Cloud Infrastructure con OpenSearch es un motor de búsqueda de texto completo, distribuido, totalmente gestionado, sin mantenimiento. OpenSearch permite almacenar, buscar y analizar grandes volúmenes de datos rápidamente con tiempos de respuesta rápidos. El servicio soporta las API OpenSearch de código abierto y la visualización de datos de paneles de control de OpenSearch. - Análisis de flujo
Streaming Analytics proporciona paneles de control que proporcionan análisis en tiempo real de los datos transmitidos contextualizados con datos seleccionados y maestros almacenados en el data lakehouse para detectar patrones de interés que luego pueden servir a usuarios, aplicaciones y cosas.
Oracle Cloud Infrastructure GoldenGate Stream Analytics procesa y analiza información a gran escala en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real a través de gráficos, mapas, visualizaciones y pipelines de transmisión gráficamente sin necesidad de codificación manual. Estos pipelines se ejecutan en un servicio totalmente gestionado y ampliable para abordar casos de uso críticos en tiempo real de empresas modernas.
- ETL/reescritura inversa
El ETL inverso, a veces denominado reescritura, permite la activación de datos en sistemas y dispositivos operativos, lo que permite infundir inteligencia derivada de datos, directamente en aplicaciones y dispositivos utilizados para soportar procesos de negocio.
Los datos se sirven a los consumidores mediante varios mecanismos, a saber, a través de flujos y colas que soportan un gran conjunto de consumidores que extraen información simultáneamente que está en tiempo casi real y está desacoplada de el sistema de análisis de transmisión con el fin de aumentar la resiliencia y la escalabilidad, a través de la integración de aplicaciones o datos para transferir datos a través de adaptadores predefinidos, o a través de funciones sin servidor para llamar a prácticamente cualquier punto final de aplicación o dispositivo.
-
El servicio Oracle Cloud Infrastructure Streaming proporciona una solución de almacenamiento duradero, escalable y totalmente gestionada para la ingesta de flujos de datos continuos y de alto volumen que puede consumir y procesar en tiempo real. El flujo se puede utilizar para mensajes, logs de aplicación de gran volumen, datos de telemetría operativa, datos de flujo de clics en la web u otros casos de uso de modelos de mensajería de publicación/suscripción en los que se producen y procesan datos de forma continua y secuencial.
-
Oracle Cloud Infrastructure Queue es un servicio sin servidor totalmente gestionado que ayuda a disociar sistemas y a activar operaciones asíncronas. Queue maneja grandes volúmenes de datos transaccionales que requieren mensajes procesados de forma independiente sin pérdidas ni duplicación.
-
Oracle Integration Cloud es un entorno totalmente gestionado y preconfigurado que permite integrar aplicaciones en la nube y locales, automatizar procesos de negocio, desarrollar aplicaciones visuales, utilizar un servidor de archivos compatible con SFTP para almacenar y recuperar archivos e intercambiar documentos de negocio con un partner comercial B2B mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
-
Las transformaciones de datos de Oracle permiten ELT para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar flujos de datos y flujos de trabajo de forma declarativa. Las transformaciones de datos de Oracle están disponibles como un entorno totalmente gestionado dentro de Oracle Autonomous Data Warehouse (ADW) para cargar y transformar datos de varios orígenes de datos en una instancia de ADW.
-
Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multi-inquilino, altamente escalable y bajo demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y en el motor de código abierto Fn Project.
-
- API
La capa de API permite infundir la inteligencia derivada de Data Science y Oracle Machine Learning en aplicaciones, procesos de negocio y cosas para influir y mejorar su funcionamiento y función. La capa de API proporciona un consumo seguro de los modelos desplegados por Data Science en los puntos finales de REST de Oracle Machine Learning y la capacidad de controlar el sistema para garantizar la disponibilidad de entornos de tiempo de ejecución. También puede aprovechar las funciones para realizar lógica adicional según sea necesario.
-
El gateway de API de Oracle Cloud Infrastructure permite publicar API con puntos finales privados accesibles desde la red y que se pueden exponer con direcciones IP públicas si desea que acepten tráfico de Internet. Los puntos finales admiten la validación de API, la transformación de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes. Permite la observabilidad de API para supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar los consumidores de API y los clientes de API que acceden a las API y para configurar diferentes niveles de acceso para diferentes clientes con el fin de realizar un seguimiento del uso de datos que se consume mediante las API. Los planes de uso son una función clave para admitir la monetización de datos.
-
Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multi-inquilino, altamente escalable y bajo demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y en el motor de código abierto Fn Project.
-
Oracle REST Data Services (ORDS) es una aplicación de Java que permite a los desarrolladores con habilidades de SQL y base de datos desarrollar API de REST para Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje, sin tener que instalar y mantener controladores de cliente, de la misma manera que acceden a otros servicios externos mediante REST, la tecnología de API más utilizada. ORDS se despliega como una función totalmente gestionada en ADW y se puede utilizar para exponer información de lakehouse mediante API a los consumidores de datos.
-
- Gobernanza de datos
Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de dónde residen los activos técnicos, como los metadatos y los atributos respectivos, y ofrece la capacidad de mantener un glosario de negocio asignado a esos metadatos técnicos. Data Catalog también puede servir metadatos a Oracle Autonomous Data Warehouse para facilitar la creación de tablas externas en el almacén de datos.
-
Seguridad de datos
La seguridad de los datos es crucial para explorar y utilizar al máximo los datos de lakehouse. Aprovechando un modelo de seguridad de confianza cero con capacidades de defensa en profundidad y RBAC, y garantizando el cumplimiento de la regulación más estricta, la seguridad de datos proporciona controles de seguridad preventivos, de detección y correctivos para garantizar que se eviten la exfiltración y las infracciones de datos.
-
Oracle Data Safe es un servicio de Oracle Cloud totalmente integrado que se centra en la seguridad de los datos. Proporciona un juego de funciones completo e integrado para proteger los datos confidenciales y regulados de las bases de datos de Oracle Cloud, como Oracle Autonomous Data Warehouse. Las funciones incluyen la evaluación de la seguridad, la evaluación de usuarios, la detección de datos, el enmascaramiento de datos y la auditoría de actividades.
-
Oracle Cloud Infrastructure Audit proporciona visibilidad de las actividades relacionadas con los recursos y arrendamientos de Oracle Cloud Infrastructure (OCI). Los eventos del log de auditoría se pueden utilizar para realizar auditorías de seguridad con el fin de realizar un seguimiento del uso y los cambios realizados en los recursos de OCI, así como para ayudar a garantizar el cumplimiento de los estándares y las normativas.
-
Oracle Cloud Infrastructure Logging proporciona una interfaz única altamente escalable y totalmente gestionada para todos los logs del arrendamiento, incluidos los logs de auditoría. Utilice OCI Logging para acceder a logs de todos los recursos de OCI para que pueda activarlos, gestionarlos y buscarlos.
-
Oracle Cloud Infrastructure Vault es un servicio de gestión de cifrado que almacena y gestiona claves de cifrado y secretos para acceder de forma segura a los recursos. Permite que las claves gestionadas por el cliente se utilicen para Oracle Autonomous Data Warehouse y el cifrado del lago de datos para aumentar la protección de datos estáticos. Permite que los secretos almacenen de forma segura servicios y credenciales de usuario para mejorar su estrategia de seguridad y garantizar que las credenciales no se vean comprometidas y se utilicen de forma inapropiada.
-
Arquitectura Física
La arquitectura física de este data lakehouse soporta lo siguiente:
- Los datos se ingieren de forma segura mediante el uso de microprocesadores, transmisión, API y archivos de orígenes de datos relacionales y no relacionales
- Los datos se procesan mediante una combinación de Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow
- Los datos se almacenan en Oracle Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage y se organizan en función de su calidad y valor
- Oracle Autonomous Data Warehouse presta servicios de datos de almacenes y lagos de forma segura a los consumidores
- Oracle Analytics Cloud muestra datos a los usuarios profesionales mediante visualizaciones
- Oracle Analytics Cloud se expone mediante el uso de Oracle Cloud Infrastructure Load Balancing protegido por Oracle Cloud Infrastructure Web Application Firewall (WAF) para proporcionar acceso mediante Internet
- Oracle Cloud Infrastructure Data Science se utiliza para crear, entrenar y desplegar modelos de aprendizaje automático (ML)
- El gateway de API de Oracle Cloud Infrastructure se utiliza para controlar los despliegues del modelo de aprendizaje automático de Data Science
- Oracle Cloud Infrastructure Data Catalog recopila metadatos de Oracle Autonomous Data Warehouse y almacenamiento de objetos
- Oracle Data Safe evalúa los riesgos para los datos, implanta y supervisa los controles de seguridad, evalúa la seguridad del usuario, supervisa la actividad del usuario y aborda los requisitos de conformidad de seguridad de los datos
- Los administradores utilizan Oracle Cloud Infrastructure Bastion para gestionar recursos de nube privada.
El siguiente diagrama ilustra esta arquitectura de referencia.
lakehouse-arquitectura-oracle.zip
El diseño de la arquitectura física:
- Aprovecha 2 redes virtuales en la nube, una para el hub y otra para la carga de trabajo en sí
- La conectividad local aprovecha tanto Oracle Cloud Infrastructure FastConnect como la VPN de sitio a sitio para la redundancia
- Todo el tráfico entrante desde las ubicaciones locales y desde Internet se enruta primero a la VCN de hub y, a continuación, a la VCN de carga de trabajo.
- Todos los datos están protegidos en tránsito y estáticos
- Los servicios se despliegan con puntos finales privados para aumentar la estrategia de seguridad
- La VCN está segregada en varias subredes privadas para aumentar la estrategia de seguridad
- Los datos de los lagos se dividen en varios bloques del almacenamiento de objetos con una arquitectura de medallón
Las posibles mejoras de diseño no representadas en este despliegue por simplicidad incluyen:
- Aprovechamiento de una zona de aterrizaje completa compatible con CIS
- Aproveche un firewall de red para mejorar la estrategia de seguridad general mediante la inspección de todo el tráfico y la aplicación de políticas
Recomendaciones
Utilice las siguientes recomendaciones como punto de partida para procesar datos de transmisión y una amplia gama de recursos de datos empresariales para el análisis de negocio y el aprendizaje automático.
Sus requisitos pueden diferir de la arquitectura descrita aquí.
- Oracle Autonomous Data Warehouse
Esta arquitectura utiliza Oracle Autonomous Data Warehouse en una infraestructura compartida.
- Active la escala automática para proporcionar a las cargas de trabajo de base de datos hasta tres veces la potencia de procesamiento.
- Considere el uso de Oracle Autonomous Data Warehouse en una infraestructura dedicada si desea la capacidad de base de datos de autoservicio dentro de un entorno de nube de base de datos privada que se ejecute en la nube pública.
- Considere el uso de la función de tablas particionadas híbridas de Autonomous Data Warehouse para mover particiones de datos a Oracle Cloud Infrastructure Object Storage y servirlas a usuarios y aplicaciones de forma transparente. Recomendamos que utilice esta función para datos que no se consumen con frecuencia y para los que no necesita el mismo rendimiento que para los datos almacenados en Autonomous Data Warehouse.
- Considere el uso de la función de tablas externas para consumir los datos almacenados en Oracle Cloud Infrastructure Object Storage en tiempo real sin necesidad de replicarlos en Autonomous Data Warehouse. Esta función une de forma transparente y fluida juegos de datos seleccionados fuera de Autonomous Data Warehouse, independientemente del formato (parquet, avro, orc, json, csv, etc.), con datos que residen en Autonomous Data Warehouse.
- Considere el uso de la función de base de datos en memoria para mejorar significativamente el rendimiento de análisis en tiempo real y cargas de trabajo mixtas. Cargue los datos del lakehouse en la memoria que se deben servir con baja latencia y que residen en tablas internas, particionadas híbridas o externas de ADW.
- Considere el uso de Autonomous Data Lake Accelerator al consumir datos de almacenamiento de objetos para ofrecer una experiencia mejorada y más rápida a los usuarios que consumen y unen datos entre el almacén de datos y el lago de datos.
- Considere almacenar incrustaciones de vectores en Autonomous Data Warehouse junto con otros tipos de datos, como datos relacionales o datos JSON, para simplificar la ingeniería y el análisis de datos en todos los datos, y agentes de RAG terrestres de manera eficiente utilizando todos los datos.
- Considere el uso de Select AI como acelerador para crear SQL simple y complejo que se puede utilizar en ingeniería de datos, inteligencia empresarial, desarrollo de aplicaciones o cualquier tarea que necesite que se cree SQL.
- Considere el uso de Select AI con aplicaciones con poco código para simplificar aún más la capa de aplicación.
- Considere el uso de vistas analíticas para modelar semánticamente el esquema subyacente de estrella de almacén de datos o copo de nieve directamente en ADW para que los datos granulares se agreguen automáticamente sin necesidad de agregarlo previamente. El modelo semántico se consume mediante el uso de SQL de forma consistente con cualquier cliente compatible con SQL, incluido Oracle Analytics Cloud, lo que garantiza hechos y KPI se proporcionan de forma consistente independientemente del cliente, y todos los datos se pueden utilizar en el modelo semántico independientemente de si se almacenan en ADW o en Object Storage, lo que convierte esta función en una capa de modelado semántico perfecta para una arquitectura de lakehouse en la que los hechos y las dimensiones pueden atravesar tanto el almacén de datos como el lago.
- Considere el uso de claves gestionadas por el cliente aprovechando el servicio Vault si se necesita un control completo de las claves de cifrado de ADW debido a las políticas de la compañía o la regulación.
- Considere el uso de Database Vault en ADW para evitar que los usuarios con privilegios no autorizados accedan a datos confidenciales y, por lo tanto, evitar la filtración de datos y las infracciones de datos.
- Considere el uso de Autonomous Data Guard para soportar un plan de continuidad de negocio mediante la configuración y el mantenimiento de datos replicados en una instancia en espera en la misma región o en otra región.
- Considere el uso del enmascaramiento de datos dinámico con Data Redaction para servir datos enmascarados a los usuarios en función de su rol y, por lo tanto, garantizar el acceso a los datos adecuado sin necesidad de duplicación de datos y enmascaramiento estático.
- Considere el uso de clones de ADW para crear rápidamente otros entornos transitorios o no transitorios. Utilice clonaciones de refrescamiento si el entorno de destino necesita tener datos actualizados. Utilice Oracle Data Safe para enmascarar de forma estática los datos confidenciales de los clones para aumentar la seguridad.
- Considere el uso compartido de datos como una forma segura y sencilla de consumir y proporcionar datos, ya sea con otras instancias de Autonomous Database o con cualquier tecnología compatible con Delta Sharing.
- Considere utilizar el uso compartido de datos en directo entre instancias de Autonomous Database para consumir y proporcionar datos en tiempo real.
- Considere el uso compartido de datos con versiones para compartir datos con los consumidores. Esto evita el costo de consultar los datos, ya que los datos son procesados por los consumidores y no por el proveedor.
- Considere el uso de URL de solicitud autenticadas previamente para el acceso a datos de solo lectura y con límite de tiempo en ADW para permitir el uso compartido de datos no confidenciales para casos de uso en los que el consumidor no soporta el uso compartido delta.
- Almacenamiento de objetos/Lago de datos
Esta arquitectura utiliza Oracle Cloud Infrastructure Object Storage, un almacenamiento en la nube duradero y con grandes posibilidades de ampliación, como el almacenamiento de lago.
- Considere la posibilidad de organizar su lago en diferentes conjuntos de cubos aprovechando una arquitectura de medallón (bronce, plata, oro) u otra lógica de partición para separar los datos en función de su calidad y enriquecimiento, aplicar seguridad detallada a los consumidores que lean los datos y aplicar diferentes políticas de gestión del ciclo de vida a los diferentes niveles.
- Considere el uso de diferentes niveles de almacenamiento de objetos y políticas de ciclo de vida para optimizar los costos de almacenamiento de datos del lago a escala.
- Considere el uso de claves gestionadas por el cliente aprovechando el servicio Vault si se necesita un control completo de las claves de cifrado de Object Storage debido a las políticas de la compañía o la regulación.
- Considere el uso de la replicación de Object Storage para soportar un plan de continuidad del negocio mediante la configuración de la replicación de cubos en otra región. Dado que el almacenamiento de objetos es muy duradero y mantiene varias copias del mismo objeto en una sola región para su recuperación en la misma región, no es necesario realizar la replicación del cubo.
- Considere el uso de políticas de Oracle Cloud Infrastructure Identity and Access Management (IAM) para objetos, mediante nombres o patrones de objeto, lo que aumenta la seguridad de los datos para los accesos directos al lago de datos.
- Considere el uso de puntos finales privados en Oracle Cloud Infrastructure Object Storage para garantizar un acceso seguro y privado al lago de datos desde la VCN de la plataforma de datos.
- Considere el uso de orígenes de red y políticas de IAM para hacer referencia a ellos a fin de gestionar las direcciones IP autorizadas para acceder a los cubos y objetos del lago de datos.
- Considere el uso de OCIFS, una utilidad basada en python, para montar cubos de Oracle Cloud Infrastructure Object Storage como sistemas de archivos, lo que permite soporte para aplicaciones que solo funcionan con NFS y necesitan cargar archivos en Object Storage.
- Oracle Machine Learning y Oracle Cloud Infrastructure Data Science
Esta arquitectura aprovecha Oracle Machine Learning y Oracle Cloud Infrastructure Data Science para ejecutar y entregar predicciones en tiempo real a personas y aplicaciones.
- Considera usar AutoML en OCI Data Science u Oracle Machine Learning para acelerar el desarrollo de modelos de aprendizaje automático.
- Considere el uso de Open Neural Networks Exchange (ONNX) para la interoperabilidad. Los modelos de 3a parte de ONNX se pueden desplegar en OML y exponer como punto final de REST o en OCI Data Science y exponer como punto final HTTP.
- Considera guardar el modelo en OCI Data Science como ONNX e importarlo a OCI GoldenGate Stream Analytics si es necesario ejecutar la puntuación y la predicción en un pipeline de datos en tiempo real para tener predicciones más oportunas que puedan impulsar los resultados empresariales en tiempo real.
- Considere el uso de entornos OCI Data Science Conda para una mejor gestión y empaquetado de las dependencias de Python dentro de las sesiones de bloc de notas de Jupyter. Aprovecha el repositorio curado de paquetes de Anaconda dentro de OCI Data Science para usar tus herramientas favoritas de código abierto para crear, entrenar e implementar modelos.
- Considere el uso de acciones rápidas de IA de Oracle Cloud Infrastructure Data Science para desplegar, evaluar y ajustar modelos básicos en OCI Data Science. Trabaje con LLM seleccionados y de código abierto disponibles en el explorador de modelos o para traer su propio modelo.
- Considere el uso de operadores de IA con poco código de Data Science, disponibles en el paquete Accelerated Data Science Python, para realizar previsiones, detectar anomalías o crear funcionalidades de fuente de recomendación de forma rápida y eficiente.
- Considere el uso de OCI Data Flow en el entorno de Jupyter de Data Science para realizar análisis de datos exploratorios, creación de perfiles de datos y preparación de datos a escala mediante el procesamiento de escalabilidad horizontal de Spark.
- Considere el uso de Data Labeling para etiquetar datos como imágenes, texto o documentos y úselo para entrenar modelos de aprendizaje automático creados en OCI Data Science o OCI AI Services y, por lo tanto, mejorar la precisión de las predicciones.
- Considere desplegar un gateway de API para proteger y controlar el consumo del modelo desplegado si los partners y las entidades externas están consumiendo predicciones en tiempo real.
- Oracle Cloud Infrastructure Data Integration
Esta arquitectura utiliza Oracle Cloud Infrastructure Data Integration para soportar el desarrollo de ETL y pipeline de datos declarativos y sin código o con poco código.
- Utilice Oracle Cloud Infrastructure Data Integration para coordinar y programar ejecuciones de aplicaciones de Oracle Cloud Infrastructure Data Flow y poder combinar ETL declarativo con lógica de código Spark personalizada. Utilice funciones de Oracle Cloud Infrastructure Data Integration para ampliar aún más las capacidades de los pipelines de datos.
- Considere el uso de SQL pushdown para transformaciones que tienen ADW como destino para utilizar un enfoque ELT más eficaz, eficaz y seguro en comparación con ETL.
- Considere la posibilidad de permitir que OCI Data Integration maneje el cambio de esquema de orígenes de datos para tener pipelines de datos más resistentes y preparados para el futuro que soportarán cambios de esquema de orígenes de datos.
- Oracle Cloud Infrastructure Data Flow
Esta arquitectura utiliza Oracle Cloud Infrastructure Data Flow para soportar el procesamiento de flujo de Spark y Spark a gran escala sin necesidad de tener y gestionar clusters permanentes.
- Considere el uso de Oracle Cloud Infrastructure Data Catalog como metastore de Hive para Oracle Cloud Infrastructure Data Flow a fin de almacenar y recuperar de forma segura definiciones de esquema para objetos en activos de datos no estructurados y semiestructurados como Oracle Cloud Infrastructure Object Storage.
- Considere el uso de Delta Lake en OCI Data Flow si se necesitan transacciones ACID y unificación del flujo y el procesamiento por lotes para los datos del lago.
- Big Data Service
Esta arquitectura utiliza Oracle Cloud Infrastructure Big Data Service para desplegar clusters ampliables y de alta disponibilidad de diversas tecnologías de código abierto, como Spark, Hadoop, Trino o Flink, que pueden procesar datos por lotes y de transmisión. Big Data Service mantiene los datos en HDFS, mantiene y lee los datos de Oracle Cloud Infrastructure Object Storage y puede intercambiar juegos de datos con otros servicios de Oracle Cloud Infrastructure, como Oracle Cloud Infrastructure Data Flow y Oracle Autonomous Data Warehouse.
- Considere el uso de la escala automática para escalar automáticamente horizontal o verticalmente los nodos de trabajador en función de las métricas o la programación para optimizar continuamente los costos en función de la demanda de recursos.
- Considere el uso del conector HDFS de OCI para Object Storage para leer y escribir datos desde y hacia Object Storage, proporcionando así un mecanismo para producir/consumir datos compartidos con otros servicios de OCI sin necesidad de replicarlos y duplicarlos.
- Considere el uso de Delta Lake en OCI BDS si se necesitan transacciones ACID y unificación del procesamiento por lotes y de transmisión para los datos del lago.
- Si necesita utilizar otro software de código abierto, considere utilizar Oracle Cloud Infrastructure Registry, instancias de contenedor u Oracle Cloud Infrastructure Kubernetes Engine para desplegar cualquier software de código abierto que se pueda incluir en contenedores.
- Oracle Cloud Infrastructure Streaming
Esta arquitectura utiliza Streaming de Oracle Cloud Infrastructure para consumir datos de transmisión de orígenes, así como para proporcionar datos de transmisión a los consumidores.
Considere aprovechar el hub de conector de servicio de Oracle Cloud Infrastructure para mover datos de Streaming de Oracle Cloud Infrastructure y para continuar con Oracle Cloud Infrastructure Object Storage para soportar un mayor análisis de datos históricos.
- Oracle Analytics Cloud
Esta arquitectura utiliza Oracle Analytics Cloud (OAC) para ofrecer análisis aumentados a los usuarios finales.
Considera aprovechar la integración predefinida que OAC tiene con OCI AI Services (Language and Vision Models) y OML (cualquier modelo) para integrar la inteligencia en los flujos de datos y las visualizaciones que consumen los usuarios finales y, por lo tanto, democratizar el consumo de IA y AA.
- Servicios de IA de Oracle Cloud Infrastructure
Esta arquitectura puede aprovechar los servicios de IA de Oracle Cloud Infrastructure, según los casos de uso desplegados.
Considere el uso de Data Labeling para etiquetar los datos de entrenamiento que se utilizarán para ajustar y obtener predicciones más precisas para los servicios de IA, como Vision, Document Understanding e Language.
- Servicios de Oracle Cloud Infrastructure Generative AI
Esta arquitectura puede aprovechar los servicios de Oracle Cloud Infrastructure Generative AI, en función de los casos de uso desplegados.
- Considere el uso del patio de recreo bajo demanda y las API que utilizan LLM preentrenados para abordar la generación de texto, la conversación, la extracción de datos, el resumen, la clasificación, la transferencia de estilo o la similitud semántica, y para integrar rápidamente la IA generativa en sus pipelines y procesos.
- Considere el uso de clusters de IA dedicados para adaptar y ajustar de manera eficiente los LLM fundamentales a sus datos, garantizando el aislamiento completo y la seguridad de los datos.
- Considere la posibilidad de compartir clusters de IA dedicados de alojamiento en diferentes equipos de toda la organización para obtener rentabilidad. Un único cluster se puede utilizar para alojar varios modelos personalizados, todos los cuales se pueden servir con puntos finales independientes y se pueden proteger con políticas de IAM dedicadas.
- Gateway de API
Esta arquitectura utiliza API Gateway para exponer de forma segura los servicios de datos y la inferencia en tiempo real a los consumidores de datos.
- Considere el uso de Oracle Cloud Infrastructure Functions para agregar la lógica de tiempo de ejecución que finalmente se necesita para soportar el procesamiento de API específico que está fuera del ámbito de las capas de procesamiento de datos y acceso e interpretación.
- Considere el uso de planes de uso para gestionar el acceso de los suscriptores a las API, supervisar y gestionar el consumo de API, configurar diferentes niveles de acceso para diferentes consumidores y admitir la monetización de datos mediante el seguimiento de las métricas de uso que se pueden proporcionar a un sistema de facturación externo.
- Oracle Cloud Infrastructure Data Catalog
Para tener una vista completa e integral de los datos almacenados y que fluyen en la plataforma, considere recopilar no solo los almacenes de datos que soportan la capa de persistencia de datos, sino también los almacenes de datos de origen. La asignación de estos metadatos técnicos recopilados al glosario de negocio y su enriquecimiento con propiedades personalizadas permite asignar conceptos de negocio y documentar y controlar definiciones de seguridad y acceso.
- Para facilitar la creación de tablas externas de Oracle Autonomous Data Warehouse que virtualicen los datos almacenados en Oracle Cloud Infrastructure Object Storage, aproveche los metadatos recogidos anteriormente por Oracle Cloud Infrastructure Data Catalog. Esto simplifica la creación de tablas externas, aplica la consistencia de los metadatos en los almacenes de datos y es menos susceptible a errores humanos.
- Considere el uso del seguimiento de linaje para Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow para tener visibilidad de cómo se ingirieron, transformaron y almacenaron los datos. Para una mayor cobertura, utilice la ingestión basada en API para aprovechar el marco abierto OpenLineage con el fin de realizar un seguimiento del linaje de cualquier origen y sistema.
- Servicio de transferencia de datos de Oracle Cloud Infrastructure
Utilice el servicio de transferencia de datos de Oracle Cloud Infrastructure cuando la carga de datos a través de Internet no sea posible. Recomendamos utilizar Data Transfer si la carga de datos a través de la red pública de Internet tarda más de 1 a 2 semanas.
- Data Safe y Audit
Aumentar la postura de seguridad aprovechando las capacidades de auditoría y alerta permitirá prevenir la exfiltración de datos y ser capaz de realizar análisis forenses en caso de que haya una violación de datos.
- Considere el uso de Oracle Data Safe para auditar la actividad en el almacén de datos y considere el uso de Oracle Cloud Infrastructure Audit para auditar el tráfico a los datos del lago.
- Considere el uso de Oracle Data Safe para la detección de datos confidenciales en ADW y para enmascararlos estáticamente al crear clones de ADW para entornos que no sean de producción, evitando así riesgos de seguridad.
- Considere el uso del firewall de SQL de Oracle Data Safe con ADW para aumentar la estrategia de seguridad de los datos y protegerse contra riesgos como ataques de inyección SQL o cuentas comprometidas.
- Despliegue y automatización
Esta arquitectura física se despliega mediante la automatización de infraestructura como código (IaC) para crear los recursos para desplegar un data lakehouse
Oracle Cloud Infrastructure Resource Manager permite crear pilas de Terraform de recursos en la nube desplegables, compartir y gestionar configuraciones de infraestructura, y establecer archivos en varios equipos y plataformas. Considere el uso de Oracle Cloud Infrastructure Resource Manager para crear pilas de despliegue para la creación de entornos que no sean de producción, incorporar nuevos equipos que necesiten servicios adicionales y estandarizar e integrar políticas de IAM y protecciones de seguridad coherentes que se adhieran a las políticas definidas de seguridad y gobernanza de la organización.
- Continuidad del negocio
Esta arquitectura describe un despliegue en una sola región y se puede ampliar a dos regiones para soportar la recuperación ante desastres y permitir un plan de continuidad del negocio.
- Oracle Cloud Infrastructure Full Stack Disaster Recovery Service es un servicio de gestión y orquestación de recuperación ante desastres que proporciona funciones completas de recuperación ante desastres para todas las capas de una pila de aplicaciones, incluidas la infraestructura, el middleware, la base de datos y la aplicación.
Considere el uso de Full Stack Disaster Recovery para configurar planes de switchover y failover para el data lakehouse a fin de automatizar las tareas de recuperación ante desastres y reducir los pasos manuales en caso de una transición planificada o no planificada a la región en espera.
- Optimización de costos
Considere utilizar el seguimiento de uso y costos de Oracle Cloud Infrastructure, así como funciones de optimización de costos para respaldar continuamente sus operaciones financieras.
- Considere la posibilidad de utilizar informes de costos y uso para obtener y realizar un seguimiento del uso de los recursos en la nube y los costos respectivos. Aproveche los informes de costos CSV FOCUS estándar del sector que se producen para integrarse con las soluciones de operaciones financieras de 3a parte.
- Considere el uso del análisis de costos para realizar un seguimiento de los costos incurridos por diferentes equipos, proyectos y entornos.
- Considere el uso de etiquetas de seguimiento de costos para etiquetar recursos en la nube para equipos, proyectos o entornos específicos.
- Considere el uso de presupuestos para establecer límites flexibles en el gasto y establecer alertas que le permitan saber cuándo podría exceder su presupuesto para el proyecto, el equipo o el gasto general.
- Interoperabilidad
Esta arquitectura aprovecha ampliamente los estándares de la industria para interoperar con el panorama heterogéneo de TI más amplio de cualquier organización, de modo que pueda consumir y servir cualquier dato a cualquier aplicación, sistema o persona.
La arquitectura soporta formatos de archivo abiertos como Parquet o Avro, por lo que los datos se pueden almacenar en el formato más adecuado para cada caso de uso. Además, también admite formatos de mesa abierta como Iceberg y Delta Lake para garantizar la interoperabilidad entre las tecnologías de Oracle y otras tecnologías de 3a parte.- Considere la posibilidad de utilizar el soporte de Iceberg de Oracle Autonomous Data Warehouse para leer las tablas de Iceberg que persisten en el lago de datos y servirlas a los consumidores. Las mesas Iceberg se pueden servir como mesas externas o cargarse en ADW.
- Considere el uso del soporte de formato universal de Delta Lake de Data Flow para leer, procesar y mantener datos en el lago de datos. El uso de Delta Lake mientras se generan metadatos para otros formatos de tabla abierta como Iceberg y Hudi permite que diferentes motores de procesamiento lean los mismos datos.
- Enfoque organizativo
Esta arquitectura es flexible y puede soportar diferentes tipos de enfoques organizativos que van desde un enfoque centralizado hasta un enfoque completamente descentralizado y, por lo tanto, puede ser adoptado y utilizado por cualquier organización que desee extraer valor de sus datos.
Esta arquitectura aprovecha ampliamente los controles detallados para la autenticación y autorización con OCI Identity and Access Management (IAM).
Considere el uso de IAM para separar las diferentes líneas de negocio y equipos que utilizan el lakehouse para descentralizar la propiedad de la creación de productos de datos y aplicar la segregación de dominios de datos si su organización desea adoptar un enfoque organizativo descentralizado.
OCI cuenta con capacidades de automatización e infraestructura como código como clave para un despliegue de arquitectura exitoso, aprovechando marcos como Terraform y Ansible.
Si tu organización está adoptando un enfoque descentralizado e implementando dominios de datos bajo ese enfoque, considera aprovechar las plantillas de terraform predefinidas y OCI Resource Manager para incorporar rápida y consistentemente dominios de datos en la plataforma de datos.
Consideraciones
Al recopilar, procesar y curar datos de aplicaciones para análisis y aprendizaje automático, tenga en cuenta las siguientes opciones de implantación.
Instrucciones | Recomendación | Otras opciones | Racional |
---|---|---|---|
Refinería de datos |
|
|
Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es escalable y rentable. Oracle Cloud Infrastructure GoldenGate proporciona una plataforma de replicación de datos nativa en la nube, sin servidor, totalmente gestionada y no intrusiva que es escalable, rentable y se puede desplegar en entornos híbridos. |
Persistencia de datos |
|
Oracle Exadata Database Service |
Oracle Autonomous Data Warehouse es una base de datos fácil de usar y totalmente autónoma que se escala de forma flexible, ofrece un rápido rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos desde tablas particionadas externas o híbridas de Object Storage. Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw. |
Procesamiento de Datos |
|
Herramientas de terceros |
Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es escalable y rentable. Oracle Cloud Infrastructure Data Flow proporciona un entorno Spark sin servidor para procesar datos a escala con un modelo de pago por uso y extremadamente elástico. Oracle Cloud Infrastructure Big Data Service proporciona Hadoop como servicio empresarial con seguridad integral, alto rendimiento, facilidad de gestión y capacidad de actualización. |
Acceso e interpretación |
|
Herramientas de terceros |
Oracle Analytics Cloud está totalmente gestionado e integrado con los datos seleccionados en Oracle Autonomous Data Warehouse. Data Science es una plataforma de autoservicio totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El servicio Data Science proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos. Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada para ciencia de datos disponible con Oracle Autonomous Data Warehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar y desplegar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén. Los servicios de IA de Oracle Cloud Infrastructure son un conjunto de servicios que proporcionan modelos predefinidos específicamente creados y entrenados para realizar tareas como inferir posibles anomalías o detectar sentimientos. |
Despliegue
- Realice el despliegue con Oracle Cloud Infrastructure Resource Manager:
- Haga clic en
Si aún no ha iniciado sesión, introduzca el arrendamiento y las credenciales de usuario.
- Revise y acepte los términos y las condiciones.
- Seleccione la región en la que desea desplegar la pila.
- Siga las indicaciones e instrucciones en pantalla para crear la pila.
- Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
- Espere a que se complete el trabajo y revise el plan.
Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.
- Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
- Haga clic en
- Realice el despliegue con la CLI de Terraform:
- Vaya a GitHub.
- Clone o descargue el repositorio en su computadora local.
- Siga las instrucciones del documento
README
.
Explorar más
Obtenga más información sobre las funciones de esta arquitectura y las arquitecturas relacionadas.
Confirmaciones
- Author: José Cruz
- Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies
Log de Cambios
Este log muestra los cambios significativos:
Octubre de 28, 2024 |
|
Junio 21, 2023 |
|