Plataforma de datos - Data Lakehouse

Arquitectura funcional

Puede combinar las capacidades de un lago de datos y un almacén de datos para proporcionar una plataforma de data lakehouse moderna que procesa la transmisión y otros tipos de datos desde una amplia gama de recursos de datos empresariales para que pueda aprovechar los datos para el análisis empresarial, el aprendizaje automático, los servicios de datos y los productos de datos.

Una arquitectura de data lakehouse combina las capacidades tanto del lago de datos como del almacén de datos para aumentar la eficiencia operativa y ofrecer capacidades mejoradas que permitan:

Uso fluido de datos e información sin necesidad de replicarlos en el lago de datos y el almacén de datos
Diverso soporte de tipos de datos en una arquitectura multimodelo y políglota mejorada
Ingesta de datos fluida de cualquier consumidor mediante mecanismos de ingestión masiva, de transmisión, por lotes, de interfaz de programación de aplicaciones (API) y en tiempo real
Extracción continua de inteligencia a partir de datos mediante servicios de inteligencia artificial (IA), IA generativa y aprendizaje automático (ML)
La capacidad de infundir y servir inteligencia a cualquier consumidor de datos mediante el uso de API, interfaz de usuario, transmisión y mecanismos de integración
Gobernanza y seguridad de datos detallada que aprovecha un modelo de seguridad de confianza cero
La capacidad de desacoplar por completo los recursos informáticos y de almacenamiento, así como de consumir solo los recursos necesarios en cualquier momento
La capacidad de aprovechar varios motores de recursos informáticos, incluidos los motores de código abierto, para procesar los mismos datos para diferentes casos de uso con el fin de lograr la máxima reutilización de datos, liquidez y uso
Capacidad para almacenar datos mediante diferentes formatos de tablas y archivos abiertos en el lago de datos
La capacidad de aprovechar los servicios nativos de Oracle Cloud Infrastructure (OCI) gestionados por Oracle y que reducen la sobrecarga operativa
Mejor economía de la nube con escala automática que ajusta la infraestructura de recursos en la nube para satisfacer la demanda real
Modularidad para que el uso del servicio esté controlado por casos de uso
Interoperabilidad con cualquier sistema o nube que cumpla con estándares abiertos
Soporte para un conjunto diverso de casos de uso que incluyen transmisión, análisis, ciencia de datos y aprendizaje automático
Soporte para diferentes enfoques arquitectónicos, desde un lakehouse centralizado hasta una malla de datos descentralizada

El siguiente diagrama ilustra la arquitectura funcional.

A continuación se incluye la Descripción de lakehouse-functional.png

Descripción de la ilustración lakehouse-functional.png

lakehouse-funcional-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

La arquitectura se centra en las siguientes divisiones lógicas:

Conexión, ingestión, transformación
Se conecta a orígenes de datos, ingiere y refina sus datos para su uso en cada una de las capas de datos de la arquitectura.
Conservar, curar, crear
Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos se pueden estructurar lógica o físicamente en formas relacionales, longitudinales, dimensionales o OLAP simples. Para los datos no relacionales, esta capa contiene uno o más grupos de datos, ya sea de salida de un proceso analítico o datos optimizados para una tarea analítica específica.
Análisis, aprendizaje y predicción
Resume la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles para el desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes desde varios orígenes federados.

La arquitectura tiene los siguientes componentes funcionales:

Ingestión de lotes
La ingesta por lotes es útil para los datos que no se pueden ingerir en tiempo real o que son demasiado costosos para adaptarse a la ingesta en tiempo real. También es importante para transformar los datos en información confiable y confiable que se pueda curar y persistir para el consumo regular. Puede utilizar los siguientes servicios de forma conjunta o independiente para lograr un flujo de trabajo de transformación e integración de datos altamente flexible y eficaz.
- Oracle Cloud Infrastructure Data Integration es un servicio sin servidor y totalmente gestionado para diseñar y ejecutar pipelines de datos. Permite una extracción, transformación y carga perfectas de datos en destinos de OCI como Autonomous AI Lakehouse y OCI Object Storage. Los usuarios pueden crear flujos de integración a través de una interfaz intuitiva sin código que escala automáticamente los entornos de ejecución. Soporta ETL con procesamiento basado en Spark y ELT mediante SQL Pushdown para obtener rendimiento y eficiencia. El servicio también ofrece herramientas para la preparación de datos y protege contra el cambio de esquema con el manejo basado en reglas.
- Oracle Data Integrator proporciona una integración completa de datos, desde cargas por lotes de alto volumen y alto rendimiento, hasta procesos de integración basados en eventos y de alimentación por goteo, hasta servicios de datos activados para SOA. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de transformación y validación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y ejecución de ELT y ayudar a los usuarios a crear y programar datos y flujos de trabajo mediante un enfoque de diseño declarativo.
- Las transformaciones de datos de Oracle permiten ELT para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante el uso de una interfaz de usuario web que permite a los usuarios crear y programar de forma declarativa flujos de datos y flujos de trabajo. Oracle Data Transforms está disponible como un entorno totalmente gestionado dentro de Oracle Autonomous AI Lakehouse para cargar y transformar datos de varios orígenes de datos en una instancia de Oracle Autonomous AI Lakehouse.
En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una integración y transformación de datos altamente flexibles y eficaces.
Ingestión basada en API
La ingestión basada en API permite a las aplicaciones y los sistemas transferir datos de eventos mediante API o webhooks.
- Oracle Integration es un entorno preconfigurado y totalmente gestionado que permite integrar aplicaciones en la nube y locales, automatizar procesos de negocio y desarrollar aplicaciones visuales. Utiliza un servidor de archivos compatible con SFTP para almacenar y recuperar archivos y permite intercambiar documentos con partners comerciales de empresa a empresa mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
- Oracle Cloud Infrastructure API Gateway permite publicar API con puntos finales privados a los que se puede acceder desde la red y que, si es necesario, se pueden exponer a la red pública de Internet. Los puntos finales soportan las validaciones de API, las transformaciones de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes.
  
  OCI API Gateway permite la observación de la API para supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar clientes y consumidores de API, así como para configurar diferentes niveles de acceso de API para diferentes clientes. Los planes de uso son una función clave para admitir la monetización de datos.
  
  Los planes de uso soportan la monetización de datos mediante la creación de planes de uso por niveles para gestionar clientes y consumidores de API y para realizar un seguimiento del uso de los datos.
- Oracle Cloud Infrastructure Functions es una plataforma totalmente gestionada, multiinquilino, altamente escalable, a demanda y de funciones como servicio (FaaS). Se basa en el motor de código abierto Fn Project. OCI Functions le permite desplegar su código y llamarlo directamente o dispararlo en respuesta a eventos. OCI Functions utiliza contenedores de Docker alojados en Oracle Cloud Infrastructure Registry.
- Oracle REST Data Services (ORDS) es una aplicación Java que permite a cualquier desarrollador con conocimientos de SQL y base de datos desarrollar API de REST para Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje sin instalar y mantener controladores de cliente de la misma manera que acceden a otros servicios externos mediante REST, la tecnología de API más utilizada.
  
  ORDS se despliega como una función totalmente gestionada en Oracle Autonomous AI Lakehouse y se puede utilizar para exponer la información del lakehouse mediante el uso de API a los consumidores de datos.
Ingestión en tiempo real

Oracle Cloud Infrastructure GoldenGate es un servicio totalmente gestionado que permite la ingestión de datos de orígenes que residan en ubicaciones locales o en cualquier nube. Aprovecha la tecnología GoldenGate CDC para capturar y entregar datos no intrusivos y eficientes en Oracle Autonomous AI Lakehouse, Oracle Cloud Infrastructure Object Storage u Oracle Cloud Infrastructure Streaming en tiempo real y a escala para que la información relevante esté disponible para los consumidores lo antes posible.
Transferencia masiva
La transferencia masiva le permite mover grandes volúmenes de datos por lotes utilizando diferentes métodos. Para los data lakehouses a gran escala, recomendamos los servicios de Oracle Cloud Infrastructure FastConnect y transferencia de datos.
- Oracle Cloud Infrastructure FastConnect crea una conexión dedicada y privada entre tu centro de datos y OCI. FastConnect ofrece opciones de un mayor espacio de banda y una experiencia en redes más fiable en comparación con la conexión basada en internet.
- La interfaz de línea de comandos (CLI) de Oracle Cloud Infrastructure (OCI) permite ejecutar y automatizar la transferencia de datos de ubicaciones locales a OCI mediante el circuito privado de Oracle Cloud Infrastructure FastConnect. Los SDK de OCI permiten escribir código para copiar o sincronizar datos y archivos de ubicaciones locales o de otras nubes en Oracle Cloud Infrastructure Object Storage, aprovechando una variedad de lenguajes de programación como Python, Java o Go para nombrar algunos. Las API de REST le permiten interactuar con los servicios de OCI y controlarlos, como mover datos al almacenamiento de objetos mediante la API del servicio Object Storage.
- Data Transfer, de Oracle Cloud Infrastructure, es un servicio de migración de datos fuera de línea que le permite mover de forma segura petabytes de datos desde su centro de datos a Oracle Cloud Infrastructure Object Storage o Archive Storage. El uso de la red pública de Internet para trasladar datos a la nube no siempre es factible debido a los altos costos de red, la conectividad de red poco fiable, los largos tiempos de transferencia y las preocupaciones de seguridad. El servicio Data Transfer supera estos retos y puede reducir significativamente el tiempo que lleva la migración de datos a la nube. La transferencia de datos está disponible mediante el disco o el dispositivo. La elección de uno sobre el otro depende principalmente de la cantidad de datos, mientras que Data Transfer Appliance admite juegos de datos más grandes para cada dispositivo.
Ingestión de Streaming
La ingestión de flujos se soporta mediante el uso de servicios nativos de OCI que permiten la ingestión en tiempo real de grandes conjuntos de datos de un amplio conjunto de productores de datos. La ingesta de flujos persiste y sincroniza los datos en el almacenamiento de objetos, que es el núcleo del data lakehouse. La sincronización de datos con el almacenamiento de objetos le permite contener datos históricos que se pueden curar y transformar aún más para extraer información valiosa.
- Oracle Cloud Infrastructure Streaming proporciona una solución duradera, ampliable y totalmente gestionada para ingerir flujos de datos continuos, de elevado volumen, que puede utilizar y procesar en tiempo real. La transmisión se puede usar para la mensajería, con los logs de aplicación de gran volumen, la telemetría operativa, los datos de flujo de clics en Internet u otros casos de uso del modelo de mensajería publicación-suscripción en los que se producen y procesan datos de forma continua y secuencial. Los datos se sincronizan con Oracle Cloud Infrastructure Object Storage y se pueden seleccionar y transformar para extraer información valiosa.
- Oracle Cloud Infrastructure Queue es un servicio sin servidor totalmente gestionado que ayuda a desacoplar sistemas y activar operaciones asíncronas. Queue maneja grandes volúmenes de datos transaccionales que requieren mensajes procesados de forma independiente sin pérdidas ni duplicación.
- Oracle Cloud Infrastructure Service Connector Hub es una plataforma de bus de mensajes en la nube que ofrece un único panel para describir, ejecutar y supervisar el movimiento de datos entre servicios en Oracle Cloud Infrastructure. Para esta arquitectura de referencia concreta, se utilizará para mover datos de Oracle Cloud Infrastructure Streaming u OCI Queue a Oracle Cloud Infrastructure Object Storage para mantener los datos no procesados y preparados en la capa de persistencia del data lakehouse.
Procesamiento de flujo

El procesamiento de flujo enriquece los datos de flujo, detecta patrones de eventos y crea un conjunto diferente de flujos que se mantienen en el data lakehouse.
- El análisis de flujo de Oracle Cloud Infrastructure GoldenGate es un servicio escalable y totalmente gestionado que procesa y analiza información a gran escala y en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real mediante gráficos, mapas y visualizaciones en directo. Los usuarios pueden crear pipelines de transmisión sin necesidad de codificación manual mediante herramientas gráficas.
- Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones de Apache Spark y Spark Streaming sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar las operaciones. Las aplicaciones de Data Flow son plantillas reutilizables que constan de una aplicación de Spark, sus dependencias, los parámetros por defecto y una especificación del recurso de tiempo de ejecución por defecto.
Ecosistema de código abierto
Puede utilizar el ecosistema de código abierto:
- Para el procesamiento de lotes y flujos que aprovechan varios motores de código abierto populares, como Hadoop, Spark, Flink o Trino
- Con Oracle Cloud Infrastructure Streaming como productor y consumidor
- Con Oracle Cloud Infrastructure Object Storage, donde puede mantener los datos y consumirlos
Puede utilizar Oracle Cloud Infrastructure Object Storage como un lago de datos para mantener los juegos de datos que desea compartir entre los diferentes servicios de Oracle Cloud Infrastructure en diferentes momentos.
Big Data Service aprovisiona clusters de Hadoop, Spark o Flink totalmente configurados, seguros, de alta disponibilidad y dedicados, entre otras tecnologías, a demanda. Escale el cluster para que se ajuste a sus cargas de trabajo del big data y análisis mediante un rango de unidades Oracle Cloud Infrastructure de computación que soportan desde grupos de pruebas y desarrollo pequeños hasta clusters grandes de producción. Ajustarse rápidamente a la demanda empresarial y optimizar los costos aprovechando las configuraciones de escala automática, ya sea en función de métricas o según lo programado. Aproveche los perfiles de cluster para crear clusters óptimos para una carga de trabajo o tecnología específicas.
Procesamiento por lotes
El procesamiento por lotes transforma los juegos de datos a gran escala almacenados en el data lakehouse. El procesamiento por lotes aprovecha los servicios nativos de Oracle Cloud Infrastructure que se integran a la perfección con Oracle Cloud Infrastructure Object Storage y le permite crear datos seleccionados para casos de uso como agregación y enriquecimiento de datos, ingestión de almacenes de datos y uso de datos de inteligencia artificial y Machine Learning a escala.
- Oracle Cloud Infrastructure Data Integration, descrito anteriormente, es un servicio nativo en la nube sin servidor y totalmente gestionado que extrae, carga, transforma, limpia y remodela datos de una variedad de orígenes de datos en servicios de destino de Oracle Cloud Infrastructure, como Autonomous AI Lakehouse y Oracle Cloud Infrastructure Object Storage.
- Oracle Cloud Infrastructure Data Flow es un servicio de big data totalmente gestionado que permite ejecutar aplicaciones de Apache Spark y Spark Streaming sin tener que desplegar ni gestionar la infraestructura. Le permite entregar aplicaciones de big data e IA más rápido, ya que puede centrarse en sus aplicaciones sin tener que gestionar las operaciones. Las aplicaciones de Data Flow son plantillas reutilizables que constan de una aplicación de Spark, sus dependencias, los parámetros por defecto y una especificación del recurso de tiempo de ejecución por defecto.
- Las transformaciones de datos de Oracle permiten la extracción-carga-transformación (ELT) para tecnologías soportadas seleccionadas, lo que simplifica la configuración y ejecución de pipelines de datos mediante una interfaz de usuario web que permite a los usuarios crear y programar de forma declarativa flujos de datos y flujos de trabajo. Oracle Data Transforms está disponible como un entorno totalmente gestionado dentro de Oracle Autonomous AI Lakehouse para cargar y transformar datos de varios orígenes de datos en una instancia de Oracle Autonomous AI Lakehouse.
  
  En función del caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr un procesamiento de datos altamente flexible y eficaz.
Ración
Oracle Autonomous AI Lakehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que está optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. OCI gestiona la creación, la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

Después del aprovisionamiento, puede escalar el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos en cualquier momento sin que esto afecte a la disponibilidad o el rendimiento.

Oracle Autonomous AI Lakehouse también puede virtualizar los datos que residen en el almacenamiento de objetos como tablas particionadas externas e híbridas para que pueda unir y consumir datos derivados de otros orígenes con los datos del almacén. También puede mover datos históricos del almacén al almacenamiento de objetos y, a continuación, utilizarlos sin problemas mediante tablas particionadas híbridas.

Oracle Autonomous AI Lakehouse puede utilizar metadatos recopilados previamente almacenados en Data Catalog para crear tablas externas, y puede sincronizar automáticamente las actualizaciones de metadatos en Data Catalog con la definición de tablas externas para mantener la coherencia, simplificar la gestión y reducir el esfuerzo.

Los vectores están soportados en Autonomous Database, ya que es una base de datos de varios modelos que soporta varios tipos de datos, a saber, relacional, JSON, espacial y gráfico. El tipo de datos de vectores permite cargar y almacenar incrustaciones vectoriales, así como crear índices vectoriales que luego se pueden utilizar para aplicaciones de generación aumentada de recuperación (RAG), todo en una única instancia de Autonomous AI Lakehouse en la nube. Esta capacidad multimodelo permite realizar análisis con todos los tipos de datos que se pueden unir en una sola consulta, lo que reduce la complejidad y el riesgo de tener bases de datos aisladas especializadas por tipo de datos, al tiempo que garantiza una mayor seguridad, fiabilidad, escalabilidad y facilidad de análisis de todos los datos.

Seleccione AI, una función de base de datos de IA autónoma, que permite consultar datos mediante lenguaje natural, mediante LLM para convertir el texto de entrada del usuario en Oracle SQL. Seleccione AI procesa la petición de datos en lenguaje natural, complementa la petición de datos con metadatos y, a continuación, genera y ejecuta una consulta SQL.

El uso compartido de datos, una función de base de datos de IA autónoma, permite proporcionar y consumir de forma segura datos y metadatos, de otras partes que utilizan la base de datos de IA autónoma o una tecnología compatible con Delta-Sharing. El uso compartido de datos facilita el consumo fluido de datos de proveedores de recursos compartidos, ya que ofrece vistas que abstraen las tablas compartidas subyacentes. Además, los recursos compartidos activos, que permiten a los destinatarios consumir datos activos y frescos, se pueden utilizar cuando tanto el proveedor como el destinatario utilizan Autonomous AI Database.

Las vistas analíticas, una función de base de datos de IA autónoma, proporcionan una forma rápida y eficiente de crear consultas analíticas de datos almacenados en tablas y vistas de base de datos existentes. Las vistas analíticas organizan los datos mediante un modelo dimensional. Le permiten agregar fácilmente agregaciones y cálculos a los juegos de datos y presentar datos en vistas que se pueden consultar con SQL relativamente sencillo. Esta función le permite modelar semánticamente un esquema de estrella o copo de nieve directamente en Oracle Autonomous AI Lakehouse, utilizando datos almacenados interna y externamente, y permite el consumo del modelo mediante el uso de SQL y cualquier consumidor de datos compatible con SQL.

Además, Autonomous Data Lake Accelerator, un componente de Autonomous AI Database, puede consumir datos de almacenamiento de objetos sin problemas, escalar el procesamiento para ofrecer consultas rápidas, escalar automáticamente la instancia informática de la base de datos cuando sea necesario y reducir el impacto en la carga de trabajo de la base de datos aislando las consultas de almacenamiento de objetos de la instancia informática de la base de datos.
Almacenamiento en la nube
Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet que ofrece la durabilidad fiable y rentable de los datos. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo y contenido, incluidos datos analíticos. Puede almacenar datos de forma segura o recuperarlos directamente desde Internet o desde una plataforma de la nube. Varias interfaces de gestión le permiten empezar fácilmente a pequeña escala y ampliar sin problemas, sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio.

Oracle Cloud Infrastructure Object Storage también se puede utilizar como capa de almacenamiento en frío para el almacén de datos mediante el almacenamiento de datos que se utilizan con poca frecuencia y, a continuación, su unión sin problemas con los datos más recientes mediante el uso de tablas híbridas en Oracle Autonomous AI Lakehouse.

El control de acceso granular a nivel de objeto se puede aplicar mediante políticas de IAM para objetos, lo que aumenta la seguridad de los datos para los accesos directos al lago de datos.
Visualizar y aprender
Oracle Analytics Cloud es un servicio de nube pública escalable y seguro que proporciona capacidades para explorar y realizar análisis colaborativos para usted, su grupo a su empresa y su grupo. Apoya a los científicos de datos ciudadanos, la formación de analistas empresariales avanzados y la ejecución de modelos de aprendizaje automático (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous AI Lakehouse como modelos integrados en OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén y los servicios de IA de OCI, como Oracle Cloud Infrastructure Vision.

Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, como una configuración rápida, una fácil ampliación y aplicación de parches, y una gestión automatizada del ciclo de vida.
Aprender y predecir
- Data Science proporciona infraestructura, tecnologías de código abierto, bibliotecas, paquetes y herramientas de ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo colaborativo y controlado por proyectos proporciona una experiencia de usuario cohesiva de extremo a extremo y soporta el ciclo de Vida de los modelos predictivos.
  
  La función Trabajos de Data Science permite a los científicos de datos definir y ejecutar tareas repetibles de aprendizaje automático en una infraestructura totalmente gestionada.
  
  La función de despliegue de modelos de Data Science permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, infundiendo inteligencia en procesos y aplicaciones y permitiendo que el negocio reaccione a los eventos relevantes a medida que se producen.
- Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Autonomous AI Database, con soporte para Python y AutoML. Admite modelos que utilizan algoritmos escalables y de código abierto en la base de datos que reducen la preparación y el movimiento de datos. AutoML ayuda a los científicos de datos a acelerar el tiempo de obtención de valor de las iniciativas de aprendizaje automático de la empresa mediante la selección automática de algoritmos, el muestreo de datos adaptativo, la selección automática de funciones y el ajuste automático de modelos. Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous AI Lakehouse, no solo puede gestionar modelos, sino que también puede desplegar esos modelos como puntos finales de REST para democratizar las predicciones en tiempo real dentro de la empresa, lo que permite a las empresas reaccionar a los eventos relevantes a medida que ocurren, en lugar de hacerlo después.
Servicios de IA y IA generativa
Los servicios de IA de Oracle Cloud Infrastructure proporcionan un conjunto de servicios de IA listos para consumir que se pueden utilizar para admitir una variedad de casos de uso, desde el análisis de texto hasta el mantenimiento predictivo. Estos servicios tienen modelos predefinidos y ajustados finamente que puede integrar en pipelines de datos, análisis y aplicaciones mediante API.
- Oracle Cloud Infrastructure Language realiza sofisticados análisis de texto y traducciones a escala. Con modelos preentrenados y personalizados, los desarrolladores pueden procesar texto no estructurado y extraer información sin experiencia en ciencia de datos. Realice análisis de sentimientos, extracción de frases clave, clasificación de texto, reconocimiento de entidades con nombre y detecte datos de PII en texto. Adapta modelos para tareas específicas del dominio y traduce texto fácilmente en varios idiomas. Oracle Cloud Infrastructure Language también soporta la traducción de documentos y trabajos asíncronos para procesar de forma eficiente cargas de trabajo de gran volumen.
- Oracle Cloud Infrastructure Speech aprovecha la potencia del lenguaje hablado al permitirle convertir fácilmente archivos de medios que contengan voz humana en transcripciones de texto de alta precisión. La función de OCI Speech puede utilizarse para transcribir llamadas del servicio de atención del cliente, automatizar subtítulos y generar metadatos para activos multimedia a fin de crear un archivo en el que se puedan realizar búsquedas completas. OCI Speech soporta trabajos de transcripción por lotes y en directo.
- Oracle Cloud Infrastructure Vision es un servicio de IA para realizar análisis de imágenes a escala basados en aprendizaje profundo. OCI Vision realiza tareas de reconocimiento de imágenes y análisis de vídeo, como la clasificación de imágenes, la detección de objetos y caras y la extracción de texto. Puede aprovechar modelos preentrenados o crear fácilmente modelos de visión personalizados para escenarios específicos del sector y específicos del cliente. OCI Vision es un servicio en la nube nativo multiinquilino y totalmente gestionado que ayuda con todas las tareas comunes de visión por computadora. Gracias a los modelos predefinidos listos para usar, los desarrolladores pueden integrar fácilmente el reconocimiento de imágenes y el reconocimiento de texto en sus aplicaciones sin tener que recurrir al Machine Learning (AA).
- Oracle Cloud Infrastructure Document Understanding realiza tareas de clasificación y análisis de documentos, como la extracción de texto, valores clave y tablas. OCI Document Understanding es un servicio en la nube nativo, multiinquilino y totalmente gestionado que ayuda con todas las tareas comunes de análisis de documentos.
- Oracle Cloud Infrastructure Generative AI es una solución totalmente gestionada que proporciona un conjunto de modelos de lenguaje grandes (LLM) personalizables y de última generación que abarcan una amplia gama de casos de uso, incluidos el chat, la generación de texto, el resumen y la creación de incrustaciones de texto. Utiliza el patio de recreo para probar los modelos preentrenados listos para usar o crea y aloja tus propios modelos personalizados ajustados basados en tus propios datos en clusters de IA dedicados.
Enriquecimiento de datos
El enriquecimiento de datos puede mejorar los datos que se utilizan para entrenar modelos de Machine Learning a fin de lograr resultados de predicción mejores y más precisos.
El etiquetado de datos de Oracle Cloud Infrastructure permite crear y examinar juegos de datos, ver registros de datos (texto o imágenes) y aplicar etiquetas para crear modelos de IA/AA. El servicio también proporciona interfaces de usuario interactivas diseñadas para ayudar en el proceso de etiquetado. Después de etiquetar los registros, el juego de datos se puede exportar como JSON delimitado por líneas para utilizarlo en el desarrollo de modelos de IA/AA.
Buscar
Las capacidades de búsqueda se pueden utilizar como una función complementaria para exponer los datos a los usuarios finales que requieren datos de análisis operativos preindexados y, por lo tanto, se sirven con baja latencia.
Oracle Cloud Infrastructure Search with OpenSearch es un motor de búsqueda distribuido, totalmente gestionado, sin mantenimiento y de texto completo. OpenSearch te permite almacenar, buscar y analizar grandes volúmenes de datos rápidamente con tiempos de respuesta rápidos. El servicio admite API de código abierto de OpenSearch y visualización de datos de paneles de control de OpenSearch.
Análisis de flujo
El análisis de transmisión proporciona paneles de control que proporcionan análisis en tiempo real de los datos transmitidos contextualizados con datos seleccionados y maestros almacenados en el data lakehouse para detectar patrones de interés que luego pueden servir a usuarios, aplicaciones y cosas.

Oracle Cloud Infrastructure GoldenGate Stream Analytics procesa y analiza información a gran escala y en tiempo real mediante patrones de correlación sofisticados, enriquecimiento de datos y aprendizaje automático. Los usuarios pueden explorar datos en tiempo real a través de gráficos en vivo, mapas, visualizaciones y crear gráficamente pipelines de transmisión sin codificación manual. Estos pipelines se ejecutan en un servicio escalable y totalmente gestionado para abordar los casos de uso críticos en tiempo real de las empresas modernas.
Reversión de ETL/Reversión
El ETL inverso, a veces denominado anotación, permite la activación de datos en sistemas y dispositivos operativos, lo que permite infundir inteligencia derivada de datos, directamente en aplicaciones y dispositivos utilizados para soportar procesos de negocio.

Los datos se sirven a los consumidores mediante varios mecanismos, a saber, mediante el uso de flujos y colas que soportan un gran conjunto de consumidores que extraen información simultáneamente que está casi en tiempo real y está desacoplada de la sistema de análisis de transmisión con el fin de aumentar la resiliencia y la escalabilidad, mediante el uso de la integración de aplicaciones o datos para transferir datos mediante el uso de adaptadores predefinidos, o mediante el uso de funciones sin servidor para llamar a prácticamente cualquier punto final de aplicación o dispositivo.
- El servicio Oracle Cloud Infrastructure Streaming proporciona una solución del almacenamiento totalmente gestionada, ampliable y duradera para los flujos de datos continuos, de elevado volumen que puede utilizar y procesar en tiempo real. La transmisión se puede usar para la mensajería, con los logs de aplicación de gran volumen, la telemetría operativa, los datos de flujo de clics en web u otros casos de uso del modelo de mensajería publicación-suscripción en los que se producen y procesan datos de forma continua y secuencial.
- Oracle Cloud Infrastructure Queue es un servicio sin servidor totalmente gestionado que ayuda a desacoplar sistemas y activar operaciones asíncronas. Queue maneja grandes volúmenes de datos transaccionales que requieren mensajes procesados de forma independiente sin pérdidas ni duplicación.
- Oracle Integration es un entorno preconfigurado y totalmente gestionado que permite integrar aplicaciones locales y en la nube, automatizar procesos de negocio, desarrollar aplicaciones visuales, utilizar un servidor de archivos compatible con SFTP para almacenar y recuperar archivos e intercambiar documentos de negocio con un partner comercial B2B mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
- Oracle Data Transforms activa ELT para las tecnologías soportadas seleccionadas, simplificando la configuración y ejecución de pipelines de datos mediante el uso de una interfaz de usuario web que permite a los usuarios crear y programar de forma declarativa flujos de datos y flujos de trabajo. Oracle Data Transforms está disponible como un entorno totalmente gestionado dentro de Oracle Autonomous AI Lakehouse para cargar y transformar datos de varios orígenes de datos en una instancia de Oracle Autonomous AI Lakehouse.
- Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multiinquilino, altamente escalable y a demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y está basado en el motor de código abierto Fn Project.
API
La capa de API permite infundir la inteligencia derivada de Data Science y Oracle Machine Learning en aplicaciones, procesos de negocio y elementos que influyen y mejoran su operación y función. La capa de API proporciona un consumo seguro de los modelos desplegados por Data Science en los puntos finales de REST de Oracle Machine Learning y la capacidad de controlar el sistema para garantizar la disponibilidad de los entornos de tiempo de ejecución. También puede aprovechar las funciones para realizar una lógica adicional según sea necesario.
- El gateway de API de Oracle Cloud Infrastructure le permite publicar API con puntos finales privados a los que se puede acceder desde la red y que puede exponer con direcciones IP públicas si quiere que acepten tráfico de Internet. Los puntos finales soportan las validaciones de API, las transformaciones de solicitud y respuesta, CORS, la autenticación y autorización, y la limitación de solicitudes. Permite a la observabilidad de la API supervisar el uso y garantizar los SLA. Los planes de uso también se pueden utilizar para supervisar y gestionar los consumidores de API y los clientes de API que acceden a las API, así como para configurar diferentes niveles de acceso para que diferentes clientes realicen un seguimiento del uso de datos que se consume mediante las API. Los planes de uso son una función clave para admitir la monetización de datos.
- Oracle Cloud Infrastructure Functions es una plataforma de funciones como servicio totalmente gestionada, multiinquilino, altamente escalable y a demanda. Se basa en Oracle Cloud Infrastructure de nivel empresarial y está basado en el motor de código abierto Fn Project.
- Oracle REST Data Services (ORDS) es una aplicación de Java que permite a los desarrolladores con habilidades de SQL y base de datos desarrollar API de REST de Oracle Database. Cualquier desarrollador de aplicaciones puede utilizar estas API desde cualquier entorno de lenguaje, sin instalar ni mantener controladores de cliente, de la misma forma que acceden a otros servicios externos mediante REST, la tecnología de API más utilizada. ORDS se despliega como una función totalmente gestionada en Oracle Autonomous AI Lakehouse y se puede utilizar para exponer la información del lakehouse mediante el uso de API a los consumidores de datos.
Gobernanza de datos
Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de dónde residen los activos técnicos, como los metadatos y los atributos correspondientes, y ofrece la capacidad de mantener un glosario de negocio asignado a esos metadatos técnicos. Data Catalog también puede servir metadatos a Oracle Autonomous AI Lakehouse para facilitar la creación de tablas externas en el almacén de datos.
Seguridad de datos

La seguridad de los datos es crucial para explorar y utilizar al máximo los datos de lakehouse. Aprovechando un modelo de seguridad de confianza cero con capacidades de defensa en profundidad y RBAC, y garantizando el cumplimiento de la regulación más estricta, la seguridad de los datos proporciona controles de seguridad preventivos, detectives y correctivos para garantizar que se eviten la filtración y las infracciones de los datos.
- Oracle Data Safe es un servicio de Oracle Cloud totalmente integrado centrado en la seguridad de los datos. Proporciona un conjunto de funciones completo e integrado para proteger datos confidenciales y regulados en las bases de datos de Oracle Cloud, como Oracle Autonomous AI Lakehouse. Las funciones incluyen la evaluación de la seguridad, la evaluación de usuarios, la detección de datos, el enmascaramiento de datos y la auditoría de actividades.
- Oracle Cloud Infrastructure Audit proporciona visibilidad de las actividades relacionadas con los recursos y arrendamientos de Oracle Cloud Infrastructure (OCI). Los eventos de log de auditoría se pueden utilizar para llevar a cabo auditorías en materia de seguridad, realizar un seguimiento del uso de los recursos de OCI y los cambios que se realicen en ellos, así como para ayudar a garantizar que se cumplan los estándares y las normativas.
- El registro de Oracle Cloud Infrastructure proporciona una interfaz única altamente escalable y totalmente gestionada para todos los logs del arrendamiento, incluidos los logs de auditoría. Utilice OCI Logging para acceder a los logs de todos los recursos de OCI, de modo que pueda activarlos, gestionarlos y buscarlos.
- Oracle Cloud Infrastructure Vault es un servicio de gestión de cifrado que almacena y gestiona claves y secretos de cifrado a fin de acceder de forma segura a los recursos. Permite que las claves gestionadas por el cliente se utilicen para Oracle Autonomous AI Lakehouse y el cifrado del lago de datos para aumentar la protección de datos en reposo. Permite que los secretos almacenen de forma segura servicios y credenciales de usuario para mejorar su estrategia de seguridad y garantizar que las credenciales no se vean comprometidas y se utilicen de manera inapropiada.

Arquitectura Física

La arquitectura física de este data lakehouse soporta lo siguiente:

Los datos se ingieren de forma segura mediante el uso de micro lotes, flujos, API y archivos de orígenes de datos relacionales y no relacionales.
Los datos se procesan mediante una combinación de Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow
Los datos se almacenan en Oracle Autonomous AI Lakehouse y Oracle Cloud Infrastructure Object Storage y se organizan en función de su calidad y valor
Oracle Autonomous AI Lakehouse ofrece servicios de datos de almacenes y lagos de forma segura a los consumidores
Oracle Analytics Cloud muestra los datos a los usuarios profesionales mediante visualizaciones
Oracle Analytics Cloud se muestra mediante el uso de Oracle Cloud Infrastructure Load Balancer protegido por Oracle Cloud Infrastructure Web Application Firewall (WAF) para proporcionar acceso mediante Internet
Oracle Cloud Infrastructure Data Science se utiliza para crear, entrenar y desplegar modelos de aprendizaje automático (ML).
Oracle Cloud Infrastructure API Gateway se utiliza para controlar los despliegues del modelo de aprendizaje automático de Data Science
Oracle Cloud Infrastructure Data Catalog recopila metadatos de Oracle Autonomous AI Lakehouse y el almacenamiento de objetos
Oracle Data Safe evalúa los riesgos para los datos, implanta y supervisa los controles de seguridad, evalúa la seguridad del usuario, supervisa la actividad del usuario y aborda los requisitos de conformidad de seguridad de los datos
Los administradores utilizan Oracle Cloud Infrastructure Bastion para gestionar recursos de nube privada

El siguiente diagrama ilustra esta arquitectura de referencia.

A continuación se incluye la Descripción de lakehouse-architecture.png

Descripción de la ilustración lakehouse-architecture.png

lakehouse-arquitectura-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

El diseño para la arquitectura física:

Aprovecha 2 VCN, una para hub y otra para la propia carga de trabajo
La conectividad local utiliza tanto Oracle Cloud Infrastructure FastConnect como la VPN de sitio a sitio para la redundancia
Todo el tráfico entrante desde la ubicación local y desde Internet se enruta primero a la VCN de hub y, a continuación, a la VCN de carga de trabajo
Todos los datos son seguros en tránsito y estáticos
Los servicios se despliegan con puntos finales privados para aumentar la estrategia de seguridad
La VCN se divide en varias subredes privadas para aumentar la estrategia de seguridad
Los datos del lago se segregan en varios cubos del almacenamiento de objetos aprovechando una arquitectura de medallón

Las posibles mejoras de diseño que no se muestran en este despliegue por simplicidad incluyen:

Aprovechamiento de una zona de aterrizaje completa compatible con CIS
Utilizar un firewall de red para mejorar la estrategia de seguridad general mediante la inspección de todo el tráfico y la aplicación de políticas

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para procesar datos de transmisión y una amplia gama de recursos de datos empresariales para el análisis empresarial y el Machine Learning.

Sus requisitos pueden diferir de la arquitectura que se describe aquí.

Oracle Autonomous AI Lakehouse
Esta arquitectura utiliza Oracle Autonomous AI Lakehouse en una infraestructura compartida.
- Active la escala automática para proporcionar a las cargas de trabajo de la base de datos hasta tres veces la potencia de procesamiento.
- Considera el uso de Oracle Autonomous AI Lakehouse en una infraestructura dedicada si deseas la capacidad de base de datos de autoservicio dentro de un entorno de base de datos en la nube privada que se ejecute en la nube pública.
- Considere el uso de la función de tablas particionadas híbridas de Autonomous AI Lakehouse para mover particiones de datos a Oracle Cloud Infrastructure Object Storage y ofrecerlas a los usuarios y las aplicaciones de forma transparente. Le recomendamos que utilice esta función para datos que no se consumen con frecuencia y para los que no necesita el mismo rendimiento que para los datos almacenados en Autonomous AI Lakehouse.
- Considere el uso de la función de tablas externas para consumir datos almacenados en Oracle Cloud Infrastructure Object Storage en tiempo real sin necesidad de replicarlos en Autonomous AI Lakehouse. Esta función une de forma transparente y sin problemas conjuntos de datos seleccionados fuera de Autonomous AI Lakehouse, independientemente del formato (parquet, avro, orc, json, csv, etc.), con datos que residen en Autonomous AI Lakehouse.
- Considere el uso de la función en memoria de la base de datos para mejorar significativamente el rendimiento de los análisis en tiempo real y las cargas de trabajo mixtas. Cargue los datos del lakehouse en la memoria que se debe prestar con baja latencia y que reside en tablas internas, particionadas híbridas o externas de Autonomous AI Lakehouse.
- Considera el uso del acelerador Autonomous AI Lakehouse al consumir datos de almacenamiento de objetos para ofrecer una experiencia mejorada y más rápida a los usuarios que consumen y unen datos entre el almacén de datos y el lago de datos.
- Considera la posibilidad de almacenar incrustaciones vectoriales en Autonomous AI Lakehouse junto con otros tipos de datos, como datos relacionales o datos JSON, para simplificar la ingeniería y el análisis de datos en todos los datos, y conectar de manera eficiente a los agentes RAG con todos los datos.
- Considere el uso de Select AI como acelerador para crear SQL simple y complejo que se pueda utilizar en ingeniería de datos, inteligencia empresarial, desarrollo de aplicaciones o cualquier tarea que necesite que se cree SQL.
- Considere el uso de Select AI con aplicaciones con poco código para simplificar aún más la capa de aplicación.
- Considere el uso de vistas analíticas para modelar semánticamente el esquema subyacente de estrella o copo de nieve de DW directamente en Autonomous AI Lakehouse para que los datos granulares se agreguen automáticamente sin necesidad de agregarlos previamente, el modelo semántico se consume utilizando SQL de forma coherente con cualquier cliente compatible con SQL, incluido Oracle Analytics Cloud, lo que garantiza que los hechos y los KPI estén se sirven de forma consistente independientemente del cliente, y todos los datos se pueden utilizar en el modelo semántico independientemente de si se almacenan en Autonomous AI Lakehouse o en OCI Object Storage, lo que hace que esta función sea una capa de modelado semántico perfecta para una arquitectura de lakehouse en la que los hechos y las dimensiones pueden atravesar tanto el almacén de datos como el lago.
- Considere el uso de claves gestionadas por el cliente aprovechando OCI Vault si se necesita un control total de las claves de cifrado de Autonomous AI Lakehouse debido a las políticas de la compañía o la regulación.
- Considere el uso de Database Vault en Autonomous AI Lakehouse para evitar que usuarios con privilegios no autorizados accedan a datos confidenciales y, por lo tanto, evitar la filtración de datos y las infracciones de datos.
- Considere el uso de Oracle Autonomous Data Guard para soportar un plan de continuidad del negocio mediante la configuración y el mantenimiento de datos replicados en una instancia en espera, ya sea en la misma región o en otra región.
- Considere el uso del enmascaramiento de datos dinámico con Data Redaction para servir datos enmascarados a los usuarios en función de su rol y, por lo tanto, garantizar el acceso a los datos adecuado sin la necesidad de duplicación de datos y enmascaramiento estático.
- Considera el uso de clones de Autonomous AI Lakehouse para crear rápidamente otros entornos transitorios o no transitorios. Utilice clonaciones de refrescamiento si el entorno de destino necesita tener datos actualizados. Utilice Oracle Data Safe para enmascarar de forma estática los datos confidenciales en los clones para aumentar la seguridad.
- Considera utilizar el uso compartido de datos como una forma segura y fácil de consumir y proporcionar datos, ya sea con otras instancias de Autonomous AI Database o con cualquier tecnología compatible con Delta Sharing.
- Considere el uso compartido de datos en directo entre instancias de Autonomous AI Database para consumir y proporcionar datos en tiempo real.
- Considere el uso compartido de datos con versiones para compartir datos con los consumidores. Esto evita el costo de consultar los datos, ya que los datos son procesados por los consumidores y no por el proveedor.
- Considere el uso de URL de solicitud autenticadas previamente para el acceso a datos de solo lectura y con límite temporal en Autonomous AI Lakehouse para permitir el uso compartido de datos no confidenciales para casos de uso en los que el consumidor no soporta el uso compartido delta.
Almacenamiento de objetos/Lago de datos
Esta arquitectura utiliza Oracle Cloud Infrastructure Object Storage, un almacenamiento en la nube duradero y con grandes posibilidades de ampliación, como el almacenamiento del lago.
- Considere la posibilidad de organizar su lago en diferentes conjuntos de cubos aprovechando una arquitectura de medallón (bronce, plata, oro) u otra lógica de partición para separar los datos en función de su calidad y enriquecimiento, aplicar seguridad detallada para los consumidores que lean los datos y aplicar diferentes políticas de gestión del ciclo de vida a los diferentes niveles.
- Considere el uso de diferentes niveles de almacenamiento de objetos y políticas de ciclo de vida para optimizar los costos de almacenamiento de datos del lago a escala.
- Considere el uso de claves gestionadas por el cliente mediante el servicio Vault si se necesita un control total de las claves de cifrado de OCI Object Storage debido a las políticas de la compañía o la regulación.
- Considere el uso de la replicación de OCI Object Storage para soportar un plan de continuidad del negocio mediante la configuración de la replicación de cubos en otra región. Debido a que OCI Object Storage es muy duradero y mantiene varias copias del mismo objeto en una sola región para la recuperación en la misma replicación de cubo de región, no es necesario.
- Considere el uso de políticas de Oracle Cloud Infrastructure Identity and Access Management (IAM) para objetos, el uso de patrones o nombres de objetos y el aumento de la seguridad de los datos para los accesos directos al lago de datos.
- Considere el uso de puntos finales privados en OCI Object Storage para garantizar un acceso seguro y privado al lago de datos desde la VCN de la plataforma de datos.
- Considere el uso de orígenes de red y políticas de IAM para hacer referencia a ellos a fin de gestionar las direcciones IP autorizadas para acceder a los objetos y cubos del lago de datos.
- Considere el uso de OCIFS, una utilidad basada en python, para montar cubos de OCI Object Storage como sistemas de archivos, lo que permite el soporte para aplicaciones que solo funcionan con NFS y que necesitan cargar archivos en Object Storage.
Oracle Machine Learning y Oracle Cloud Infrastructure Data Science
Esta arquitectura aprovecha Oracle Machine Learning y Oracle Cloud Infrastructure Data Science para ejecutar y entregar predicciones en tiempo real a personas y aplicaciones.
- Considere el uso de AutoML en Oracle Cloud Infrastructure Data Science u Oracle Machine Learning para acelerar el desarrollo de modelos de aprendizaje automático.
- Considere el uso de Open Neural Networks Exchange (ONNX) para la interoperabilidad. Los modelos de 3ª parte de ONNX se pueden desplegar en OML y exponerse como punto final de REST o en Data Science y exponerse como punto final HTTP.
- Considere guardar el modelo en Data Science como ONNX e impórtelo en OCI GoldenGate Stream Analytics si es necesario ejecutar la puntuación y la predicción en un pipeline de datos en tiempo real para tener predicciones más oportunas que puedan impulsar los resultados empresariales en tiempo real.
- Considere el uso de entornos Conda de Data Science para una mejor gestión y empaquetado de las dependencias de Python dentro de las sesiones de bloc de notas de Jupyter.
- Considere el uso de las acciones rápidas de IA de Oracle Cloud Infrastructure Data Science para desplegar, evaluar y ajustar modelos básicos en Data Science. Trabaje con LLM de código abierto seleccionados disponibles en el explorador de modelos o para traer su propio modelo.
- Considera el uso de operadores de IA de bajo código de Data Science, disponibles en el paquete Python de Accelerated Data Science, para realizar pronósticos de forma rápida y eficiente, detección de anomalías o crear funcionalidad de recomendación.
- Considere el uso de Oracle Cloud Infrastructure Data Flow en el entorno de Jupyter de Data Science para realizar análisis exploratorios de datos, creación de perfiles de datos y preparación de datos a escala aprovechando el procesamiento de escalabilidad horizontal de Spark.
- Considere el uso de Oracle Cloud Infrastructure Data Labeling para etiquetar datos como imágenes, texto o documentos y úselos para entrenar modelos de aprendizaje automático basados en Data Science u Oracle Cloud Infrastructure AI Services y, por lo tanto, mejorar la precisión de las predicciones.
- Considere la posibilidad de desplegar un gateway de API de OCI para proteger y controlar el consumo del modelo desplegado si los partners y las entidades externas consumen predicciones en tiempo real.
Oracle Cloud Infrastructure Data Integration
Esta arquitectura utiliza Oracle Cloud Infrastructure Data Integration para soportar el desarrollo declarativo, sin código o de ETL y pipeline de datos con poco código.
- Aproveche Oracle Cloud Infrastructure Data Integration para coordinar y programar ejecuciones de aplicaciones de Oracle Cloud Infrastructure Data Flow y poder combinar y hacer coincidir el ETL declarativo con la lógica de código Spark personalizada. Utilice funciones de Oracle Cloud Infrastructure Data Integration para ampliar aún más las capacidades de los pipelines de datos.
- Considere el uso de la ejecución de SQL para transformaciones que tengan Autonomous AI Lakehouse como destino para utilizar un enfoque de ELT más eficiente, eficaz y seguro en comparación con ETL.
- Considere la posibilidad de permitir que OCI Data Integration maneje el cambio de esquema de los orígenes de datos para tener pipelines de datos más resilientes y futuros que respalden los cambios de esquema de los orígenes de datos.
Oracle Cloud Infrastructure Data Flow
Esta arquitectura utiliza Oracle Cloud Infrastructure Data Flow para soportar el procesamiento de flujo de Spark y Spark a gran escala sin necesidad de tener y gestionar clusters permanentes.
- Considere el uso de Oracle Cloud Infrastructure Data Catalog como metastore de Hive para Oracle Cloud Infrastructure Data Flow a fin de almacenar y recuperar de forma segura definiciones de esquema para objetos en activos de datos no estructurados y semiestructurados, como Oracle Cloud Infrastructure Object Storage.
- Considere el uso de Delta Lake en Data Flow si se necesitan transacciones ACID y unificación de la transmisión y el procesamiento por lotes para los datos del lago.
Big Data Service
Esta arquitectura utiliza Oracle Cloud Infrastructure Big Data Service para desplegar clusters ampliables y de alta disponibilidad de varias tecnologías de código abierto, como Spark, Hadoop, Trino o Flink, que pueden procesar datos de transmisión y por lotes. Big Data Service mantiene los datos en HDFS, mantiene y lee datos de OCI Object Storage y puede intercambiar juegos de datos con otros servicios de Oracle Cloud Infrastructure, como Data Flow y Oracle Autonomous AI Lakehouse.
- Considere la posibilidad de utilizar la escala automática para escalar automáticamente horizontal o verticalmente los nodos de trabajador en función de métricas o programa para optimizar continuamente los costos en función de la demanda de recursos.
- Considere el uso del conector HDFS de OCI para OCI Object Storage para leer y escribir datos en y desde OCI Object Storage y, por lo tanto, proporcione un mecanismo para producir/consumir datos compartidos con otros servicios de OCI sin necesidad de replicarlos y duplicarlos.
- Considere el uso de Delta Lake en OCI BDS si se necesitan transacciones ACID y unificación de la transmisión y el procesamiento por lotes para los datos del lago.
- Si necesita utilizar otro software de código abierto, considere el uso de Oracle Cloud Infrastructure Registry, instancias de contenedor u Oracle Cloud Infrastructure Kubernetes Engine para desplegar cualquier software de código abierto que se pueda contenedorizar.
Transmisión de Oracle Cloud Infrastructure
Esta arquitectura utiliza Oracle Cloud Infrastructure Streaming para consumir datos de transmisión de orígenes, así como para proporcionar datos de transmisión a los consumidores.

Considere la posibilidad de aprovechar el hub de conector de servicio de Oracle Cloud Infrastructure para mover datos de OCI Streaming y permanecer en OCI Object Storage para soportar más análisis de datos históricos.
Oracle Analytics Cloud
Esta arquitectura aprovecha Oracle Analytics Cloud (OAC) para ofrecer análisis aumentados a los usuarios finales.

Considera aprovechar la integración predefinida que OAC tiene con Oracle Cloud Infrastructure AI Services (modelos de lenguaje y visión) y OML (cualquier modelo) para integrar la inteligencia en los flujos de datos y las visualizaciones que los usuarios finales consumen y, por lo tanto, democratizar el consumo de IA y ML.
Oracle Cloud Infrastructure AI Services
Esta arquitectura puede aprovechar Oracle Cloud Infrastructure AI Services, en función de los casos de uso desplegados.

Considere el uso de OCI Data Labeling para etiquetar los datos de entrenamiento que se utilizarán para ajustar y obtener predicciones más precisas para Oracle Cloud Infrastructure AI Services, como OCI Vision, OCI Document Understanding y .
Servicios de Oracle Cloud Infrastructure Generative AI
Esta arquitectura puede aprovechar los servicios de Oracle Cloud Infrastructure Generative AI, según los casos de uso desplegados.
- Considera el uso del patio de juegos bajo demanda y las API que utilizan LLM preentrenados para abordar la generación de texto, la conversación, la extracción de datos, el resumen, la clasificación, la transferencia de estilo o la similitud semántica, y para integrar rápidamente la IA generativa en tus pipelines y procesos.
- Considera el uso de clusters de IA dedicados para adaptar y ajustar de manera eficiente los LLM fundamentales a tus datos, garantizando un aislamiento completo y seguridad de los datos.
- Considera compartir clústeres de IA dedicados de alojamiento dentro de diferentes equipos en toda la organización para obtener rentabilidad. Un único cluster se puede utilizar para alojar varios modelos personalizados, todos los cuales se pueden servir con puntos finales independientes y se pueden proteger con políticas de IAM dedicadas.
Gateway de API de OCI
Esta arquitectura utiliza OCI API Gateway para exponer de forma segura los servicios de datos y la inferencia en tiempo real a los consumidores de datos.
- Considere la posibilidad de utilizar Oracle Cloud Infrastructure Functions para agregar la lógica de tiempo de ejecución que eventualmente se necesita para soportar el procesamiento de API específico que está fuera del ámbito de las capas de procesamiento de datos, acceso e interpretación.
- Considere la posibilidad de utilizar planes de uso para gestionar el acceso de los suscriptores a las API, supervisar y gestionar el consumo de API, configurar diferentes niveles de acceso para diferentes consumidores y admitir la monetización de datos mediante el seguimiento de las métricas de uso que se pueden proporcionar a un sistema de facturación externo.
Oracle Cloud Infrastructure Data Catalog
Para tener una vista completa y completa de los datos almacenados y que fluyen en la plataforma, considere la posibilidad de recopilar no solo los almacenes de datos que soportan la capa de persistencia de datos, sino también los almacenes de datos de origen. La asignación de estos metadatos técnicos recopilados al glosario de negocio y su enriquecimiento con propiedades personalizadas permite asignar conceptos de negocio y documentar y controlar definiciones de seguridad y acceso.
- Para facilitar la creación de tablas externas de Oracle Autonomous AI Lakehouse que virtualizan los datos almacenados en OCI Object Storage, aproveche los metadatos recopilados anteriormente por Data Catalog. Esto simplifica la creación de tablas externas, fuerza la coherencia de los metadatos en los almacenes de datos y es menos susceptible a errores humanos.
- Considere la posibilidad de utilizar el seguimiento de linaje para Oracle Cloud Infrastructure Data Integration y Oracle Cloud Infrastructure Data Flow para tener visibilidad de cómo se ingieren, transforman y almacenan los datos. Para aumentar la cobertura, utilice la ingesta basada en API para aprovechar el marco abierto OpenLineage con el fin de realizar un seguimiento del linaje de cualquier origen y sistema.
Servicio de transferencia de datos de Oracle Cloud Infrastructure
Utilice el servicio Oracle Cloud Infrastructure Data Transfer cuando la carga de datos a través de Internet no sea posible. Le recomendamos que considere el uso de Data Transfer si la carga de datos a través de la red pública de Internet tarda más de 1-2 semanas.
Data Safe y auditoría
Aumentar la estrategia de seguridad aprovechando las capacidades de auditoría y alerta permitirá evitar la exfiltración de datos y poder realizar análisis forenses en caso de que se produzca una violación de datos.
- Considere el uso de Oracle Data Safe para auditar la actividad en el almacén de datos y considere el uso de Oracle Cloud Infrastructure Audit para auditar el tráfico a los datos del lago.
- Considere el uso de Oracle Data Safe para la detección de datos confidenciales en Autonomous AI Lakehouse y para enmascararlos estáticamente al crear clones de Autonomous AI Lakehouse para entornos que no sean de producción, evitando así riesgos de seguridad.
- Considera el uso de Oracle Data Safe SQL Firewall con Autonomous AI Lakehouse para aumentar la estrategia de seguridad de los datos, protegiéndote contra riesgos como ataques de inyección SQL o cuentas comprometidas.
Despliegue y automatización
Esta arquitectura física se despliega mediante la automatización de la infraestructura como código (IaC) para crear los recursos necesarios para desplegar un data lakehouse

Oracle Cloud Infrastructure Resource Manager permite crear pilas de Terraform de recursos en la nube desplegables, compartir y gestionar configuraciones y archivos de estado en varios equipos y plataformas. Considere la posibilidad de utilizar Oracle Cloud Infrastructure Resource Manager para crear pilas de despliegue para la creación de entornos que no sean de producción, incorporar nuevos equipos que necesiten servicios adicionales y estandarizar e incorporar políticas de IAM coherentes y barandas de seguridad que se ajusten a las políticas definidas por la organización en materia de seguridad y gobernanza.
Continuidad del negocio
Esta arquitectura describe un despliegue en una sola región y se puede ampliar en dos regiones para soportar la recuperación ante desastres y permitir un plan de continuidad del negocio.
Oracle Cloud Infrastructure Full Stack Disaster Recovery es un servicio para la orquestación y gestión de la recuperación ante desastres que proporciona completas funciones de recuperación ante desastres para todas las capas de una pila de aplicación, incluidas las infraestructuras, el middleware, la base de información y las aplicaciones.
Considere el uso de OCI Full Stack Disaster Recovery para configurar planes de switchover y failover para el data lakehouse a fin de automatizar las tareas de recuperación ante desastres y reducir los pasos manuales en caso de una transición planificada o no planificada a la región en espera.
Optimización de costos
Considere la posibilidad de utilizar el seguimiento de costos y uso de Oracle Cloud Infrastructure, así como las funciones de optimización de costos para respaldar continuamente sus operaciones financieras.
- Considere el uso de informes de costos y uso para obtener y realizar un seguimiento del uso de los recursos en la nube y los costos correspondientes. Aproveche los informes de costos CSV de FOCUS estándar del sector que se producen para integrarse con soluciones de operaciones financieras de 3ª parte.
- Considere el uso del análisis de costos para realizar un seguimiento de los costos en los que incurren los diferentes equipos, proyectos y entornos.
- Considere el uso de etiquetas de seguimiento de costos para etiquetar recursos en la nube para equipos, proyectos o entornos específicos.
- Considere el uso de presupuestos para establecer límites flexibles en el gasto y establecer alertas que le permitan saber cuándo puede exceder su presupuesto para el proyecto, el equipo o el gasto general.
Interoperabilidad
Esta arquitectura aprovecha ampliamente los estándares del sector para interoperar con el panorama heterogéneo de TI más amplio de cualquier organización, de modo que pueda consumir y servir cualquier dato a cualquier aplicación, sistema o persona.
La arquitectura soporta formatos de archivo abiertos, como Parquet o Avro, por lo que los datos se pueden almacenar en el formato más adecuado para cada caso de uso. Además, admite formatos de tabla abiertos, como Iceberg y Delta Lake, para garantizar la interoperabilidad entre las tecnologías de Oracle y otras tecnologías de 3.ª parte.
- Considera la posibilidad de utilizar el soporte de Iceberg de Oracle Autonomous AI Lakehouse para leer las tablas de Iceberg que persistían en el lago de datos y para servirlas a los consumidores. Las tablas de iceberg se pueden servir como tablas externas o se pueden cargar en Autonomous AI Lakehouse.
- Considere el uso del soporte de formato universal de Data Flow Delta Lake para leer, procesar y mantener datos en el lago de datos. El uso de Delta Lake al generar metadatos para otros formatos de tabla abierta, como Iceberg y Hudi, permite que diferentes motores de procesamiento lean los mismos datos.
Enfoque organizativo
Esta arquitectura es flexible y puede soportar diferentes tipos de enfoques organizativos que van desde un enfoque centralizado hasta un enfoque completamente descentralizado y, por lo tanto, puede ser adoptado y utilizado por cualquier organización que desee extraer valor de sus datos.

Esta arquitectura aprovecha controles detallados y exhaustivos para la autenticación y la autorización con OCI Identity and Access Management (IAM).

Considere la posibilidad de utilizar IAM para separar las diferentes líneas de negocio y equipos mediante el lakehouse a fin de descentralizar la propiedad de la creación de productos de datos y aplicar la segregación de dominios de datos si su organización desea adoptar un enfoque organizativo descentralizado.

OCI cuenta con capacidades de automatización e infraestructura como código para un despliegue de arquitectura exitoso, aprovechando marcos como Terraform y Ansible.

Si tu organización está adoptando un enfoque descentralizado e implementando dominios de datos bajo ese enfoque, considera aprovechar las plantillas de Terraform predefinidas y OCI Resource Manager para incorporar de forma rápida y consistente dominios de datos a la plataforma de datos.

Consideraciones

Al recopilar, procesar y curar datos de aplicaciones para análisis y aprendizaje automático, tenga en cuenta las siguientes opciones de implantación.

Orientación	Recomendación	Otras opciones	Racional
Refinería de datos	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Transformaciones de datos de Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa de la nube, sin servidor y totalmente gestionada que es escalable y rentable. Oracle Cloud Infrastructure GoldenGate proporciona una plataforma de replicación de datos nativa en la nube, sin servidor, totalmente gestionada y no intrusiva que es escalable y rentable y se puede desplegar en entornos híbridos.
Persistencia de datos	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse es una base de información fácil de usar, totalmente autónoma y que se amplía de forma flexible, ofrece una rápida rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos de las tablas particionadas externas o híbridas de Object Storage. Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.
Procesamiento de datos	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Oracle Cloud Infrastructure Servicio de big data	Herramientas de terceros	Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa de la nube, sin servidor y totalmente gestionada que es escalable y rentable. Oracle Cloud Infrastructure Data Flow proporciona un entorno Spark sin servidor para procesar datos a escala con un modelo de pago por uso extremadamente flexible. Big Data Service de Oracle Cloud Infrastructure proporciona Hadoop como servicio empresarial, con seguridad integral, alto rendimiento, facilidad de gestión y capacidad para actualización.
Acceso e interpretación	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Servicios de IA de Oracle Cloud Infrastructure	Herramientas de terceros	Oracle Analytics Cloud está totalmente gestionado y estrechamente integrado con los datos seleccionados enOracle Autonomous AI Lakehouse. Oracle Cloud Infrastructure Data Science es una plataforma de autoservicio totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. Data ScienceData Science proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos. Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada para la ciencia de datos disponible con Oracle Autonomous AI Lakehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar y desplegar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén. Los servicios de IA de Oracle Cloud Infrastructure son un conjunto de servicios que proporcionan modelos predefinidos específicamente creados y entrenados para realizar tareas como inferir posibles anomalías o detectar sentimientos.

Despliegue

El código de Terraform para esta arquitectura de referencia está disponible en GitHub. Puede extraer el código de Oracle Cloud Infrastructure Resource Manager con un solo clic, crear la pila y desplegarla. También puede descargar el código de GitHub en su computadora, personalizar el código y desplegar la arquitectura mediante la CLI de Terraform.

Despliegue mediante Oracle Cloud Infrastructure Resource Manager:
1. Haga clic en
  Si aún no se ha conectado, introduzca las credenciales de arrendamiento y usuario.
2. Revise y acepte las condiciones.
3. Seleccione la región donde desea desplegar la pila.
4. Siga las indicaciones e instrucciones en pantalla para crear la pila.
5. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
6. Espere a que se complete el trabajo y revise el plan.
  Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.
7. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
Realice el despliegue con la CLI de Terraform:
1. Vaya a GitHub.
2. Clone o descargue el repositorio en la computadora local.
3. Siga las instrucciones del documento README.

Explorar más

Obtenga más información sobre las características de esta arquitectura y sobre las arquitecturas relacionadas.

Acuses de recibo

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

Log de Cambios

Este log muestra los cambios significativos:

Octubre de 28, 2024

La amplitud funcional de la arquitectura se actualizó para incluir ofertas funcionales y de productos ampliadas, incluidas las siguientes:
- Se ha agregado el uso compartido de datos como origen de datos y consumidor de datos.
- Ingestión basada en API agregada.
- Se agregaron ofertas ampliadas para IA (idioma, habla, visión, comprensión de documentos) y servicios de IA generativa.
- Se ha agregado ETL/Writeback inverso para proporcionar inteligencia derivada de datos directamente a las aplicaciones y los dispositivos.
Se realizaron las actualizaciones correspondientes a las secciones Recomendaciones y Consideraciones.
Se realizaron numerosas actualizaciones relacionadas con el producto en todo el texto.

Junio 21, 2023

Se han agregado instrucciones para desplegar la arquitectura mediante Oracle Cloud Infrastructure Resource Manager.
Enlace de GitHub actualizado.
Diagramas de arquitectura actualizados.