Uso de Data Lake con Autonomous Database

Descubra las ventajas de utilizar el lago de datos con Autonomous Database.

Acerca del lago de datos con Autonomous Database

Oracle Autonomous Database es una solución versátil para alojar cualquier tipo de datos y carga de trabajo.

Autonomous Database proporciona un almacenamiento rentable, con un costo por TB comparable al de los almacenes de objetos, al tiempo que admite diversos tipos de datos como JSON, Graph y Vector. Con Autonomous Database, las empresas pueden consolidar sus datos en una única plataforma. Pueden aprovechar capacidades convergentes como Oracle Machine Learning (OML), Graph, Spatial, Vector y Blockchain para gestionar sus datos de forma integral.

Para las organizaciones que ya tienen lagos de datos existentes en otras plataformas, Oracle Autonomous Database se integra a la perfección, lo que permite a las empresas beneficiarse de las funciones avanzadas de Autonomous Database sin interrumpir sus configuraciones actuales.

Para obtener más información, pruebe LiveLabs Creación de un lago de datos con Autonomous Data Warehouse.

¿Qué es un lago de datos?

Los lagos de datos son repositorios centralizados diseñados para almacenar grandes cantidades de datos sin procesar en su formato nativo hasta que los datos sean necesarios para el análisis.

Son altamente flexibles y escalables, lo que los convierte en un potente complemento de los almacenes de datos tradicionales al permitir a las organizaciones almacenar y procesar varios tipos de datos, incluidos estructurados, semiestructurados y no estructurados.

Atributos clave de un lago de datos:
  • Abrir formatos de archivo y tabla

    Los lagos de datos almacenan datos en formatos de archivo abiertos, como CSV, Parquet y formatos de tabla como Iceberg. Esto garantiza la interoperabilidad y la flexibilidad en el procesamiento de datos al permitir que varios motores escriban y lean estos conjuntos de datos.

  • Soporte para varios motores de procesamiento de datos

    Los lagos de datos son compatibles con varios motores de procesamiento de datos, como Apache Spark, Presto y Hive, lo que permite diversas cargas de trabajo analíticas.

  • Esquema en lectura

    Los lagos de datos suelen utilizar un enfoque de esquema en lectura, lo que significa que no es necesario definir un esquema por adelantado. Esto permite una ingestión rápida de datos, donde los datos se pueden cargar sin una estructuración previa, al igual que los almacenes de objetos que "capturan datos ahora y hacen preguntas más tarde".

  • Soporte para datos no estructurados

    Más allá de los datos estructurados, los lagos de datos pueden almacenar datos no estructurados como imágenes (JPG), documentos (PDF, Word) y otros datos binarios, ofreciendo una solución de almacenamiento integral.

Funciones clave de Data Lake de Autonomous Database

Oracle Autonomous Database está diseñado para soportar sin problemas cargas de trabajo de data lake, eliminando la necesidad de gestión o instalación. Ofrece capacidades sólidas para manejar varios formatos de datos en diferentes entornos en la nube, lo que garantiza un análisis de datos flexible y completo.

Preparado para cargas de trabajo de data lake

Oracle Autonomous Database está totalmente listo para cargas de trabajo de lago de datos listas para usar, sin necesidad de componentes adicionales. Esta preparación se extiende a tareas clave del lago de datos, como la transformación de datos, la gestión de metadatos y la integración con herramientas populares del lago de datos, todo ello disponible desde el primer día sin configuración adicional.

Esta preparación integral es lo que hace que Autonomous Database destaque, ofreciendo una experiencia integrada y sin complicaciones que acelera el tiempo de visión para las cargas de trabajo de data lake. Esto significa que los usuarios pueden comenzar a manejar tareas de data lake inmediatamente sin ninguna configuración o configuración, lo que lo convierte en una verdadera solución plug-and-play para entornos de data lake. Esta capacidad integrada simplifica las operaciones, reduce los costos de mantenimiento y garantiza una mayor fiabilidad con menos errores.

Autonomous Database proporciona un conjunto de herramientas para todos los tipos de usuarios, desde desarrolladores hasta analistas empresariales, lo que hace que la plataforma sea universal y accesible.

Los desarrolladores pueden utilizar herramientas como la API PL/SQL para operaciones avanzadas, scripts y automatización, lo que permite una integración perfecta con las herramientas existentes y la creación de soluciones de base de datos personalizadas de forma eficiente. Consulte Referencia de paquetes proporcionados por Autonomous Database para obtener más información.

Para los usuarios profesionales, se puede utilizar Data Studio, una interfaz basada en web para simplificar la interacción, la exploración y la visualización de datos. Data Studio permite a los usuarios no técnicos obtener información, crear informes y colaborar de manera efectiva, reduciendo la complejidad y apoyando la toma de decisiones informadas. Consulte Página Visión General de Data Studio para obtener más información.

MultiCloud Support

Para las organizaciones que ya tienen lagos de datos existentes en otras plataformas, Autonomous Database se integra a la perfección, lo que permite a las empresas beneficiarse de las funciones avanzadas de Autonomous Database sin interrumpir sus configuraciones actuales.

Proporcione a Autonomous Database acceso al lago de datos otorgando los privilegios y el acceso necesarios para que el lago de datos se conecte a Autonomous Database. Una vez que haya proporcionado las credenciales necesarias, Autonomous Database puede conectarse sin problemas a lagos de datos en varios entornos en la nube, incluidos AWS, Azure, Google Cloud y el almacén de objetos de Oracle OCI.

Esta capacidad le permite acceder y gestionar los datos de forma segura, aprovechando las funciones de seguridad nativas de cada proveedor de nube. Con este soporte multinube, obtienes la flexibilidad de desplegar y escalar tu lago de datos en diferentes plataformas en la nube, manteniendo un entorno unificado y seguro.

Oracle Autonomous Database soporta la seguridad nativa para otras nubes. Para obtener más información, consulte Uso de nombres de recursos de Amazon (ARN) para acceder a recursos de AWS, Uso de la entidad de servicio de Azure para acceder a recursos de Azure y Uso de la cuenta de servicio de Google para acceder a recursos de Google Cloud Platform para su plataforma en la nube correspondiente.

Soporte de formato de datos completo

Oracle Autonomous Database se ha diseñado con la flexibilidad necesaria para gestionar una amplia gama de formatos de datos, lo que la convierte en una solución universal para diversas fuentes de datos y cargas de trabajo.

Tanto si sus datos residen en formatos estructurados, semiestructurados o no estructurados, Autonomous Database los soporta sin problemas en varios entornos en la nube. Esto permite a las empresas ingerir, almacenar y analizar datos sin preocuparse por la compatibilidad de formatos.

Autonomous Database proporciona soporte nativo para formatos tradicionales como CSV y JSON, así como formatos avanzados como AVRO, Parquet y ORC. Consulte Consulta de datos externos con Autonomous Database para obtener más información. Autonomous Database soporta los siguientes formatos de archivo: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word y PDF.

Con el soporte adicional para el formato Iceberg Table, Autonomous Database ofrece capacidades mejoradas para entornos de lago de datos a gran escala. Iceberg permite consultas optimizadas y de alto rendimiento, un mejor control de versiones y una gestión de datos más sencilla, lo que lo convierte en una buena opción para conjuntos de datos grandes y en evolución. Consulte Consulta de tablas de iceberg de Apache para obtener más información.

Capacidades mejoradas: Autonomous Database para la gestión de datos no estructurados

Aunque Oracle Database es reconocida por su potente procesamiento de datos estructurados y semiestructurados, Autonomous Database amplía sus capacidades para manejar también juegos de datos no estructurados.

Estas capacidades incluyen la gestión y el análisis de una amplia gama de formatos como JPG, PDF, documentos de Word y más. Con estos avances, Autonomous Database ofrece una solución completa para empresas que tratan con orígenes de datos no estructurados.
  • Información basada en IA con generación aumentada de recuperación (RAG): Autonomous Database integra modelos de IA avanzados, lo que permite la búsqueda vectorial de datos no estructurados. Esto permite la recuperación eficiente de información relevante en conjuntos de datos masivos mediante IA, lo que mejora la precisión y la velocidad de la búsqueda. Consulte Select AI with Retrieval Augmented Generation (RAG) para obtener más información.
  • Indexación de texto completo: Autonomous Database soporta la creación de índices de texto completo en archivos no estructurados, lo que permite realizar búsquedas de texto avanzadas en documentos como PDF, archivos de Word y mucho más. Esta capacidad mejora en gran medida la forma en que se puede consultar, indexar y analizar contenido no estructurado. Consulte Uso de la búsqueda de texto completo en archivos de Object Storage
  • Análisis y carga de datos no estructurados: las funciones de análisis e ingestión de datos mejoradas de Autonomous Database permiten a los usuarios cargar datos no estructurados sin problemas, transformándolos automáticamente en un formato tabular y listos para cargarse en la base de datos. Consulte Extracción de tabla desde imagen para obtener más información.
  • IA como origen de datos (Petición de datos a tabla): al aprovechar la IA, Autonomous Database permite la funcionalidad de petición de datos a tabla, lo que permite a los usuarios generar datos directamente desde modelos de IA y cargarlos en tablas. Esto abre posibilidades para extraer información valiosa de los resultados generados por IA y usarlos como una nueva fuente de datos estructurados. Consulte Carga de datos desde el origen de AI

Estas capacidades ampliadas posicionan a Autonomous Database como una poderosa herramienta para manejar las crecientes demandas de datos no estructurados, al tiempo que aprovechan las soluciones impulsadas por IA, lo que la convierte en una plataforma versátil y preparada para el futuro para los desafíos de datos modernos.

Gestión de metadatos flexible

Oracle Autonomous Database proporciona a los usuarios varias formas de definir metadatos para sus juegos de datos, lo que hace que la gestión de datos sea más adaptable y eficiente.

  • Integración de metadatos basada en catálogos

    Los usuarios pueden llevar los metadatos de varios catálogos a una vista centralizada, lo que facilita el control y el mantenimiento de la coherencia de los datos en toda la organización. Entre los catálogos soportados se incluyen:

    • OCI Data Catalog: herramienta dentro de Oracle Cloud Infrastructure (OCI) que ayuda a los usuarios a descubrir, organizar y gestionar activos de datos. Ofrece una visión clara de todos los activos de datos, lo que ayuda a los usuarios a mantener el cumplimiento, garantizar la calidad de los datos y facilitar la colaboración entre equipos. Consulte Ejemplo: Escenario MovieStream para obtener más información.

    • AWS Glue: servicio ETL gestionado (extracción, transformación y carga) de Amazon Web Services que incluye un catálogo de datos para organizar y gestionar metadatos. Consulte Consulta de datos externos con AWS Glue Data Catalog para obtener más información.

  • Definición manual de metadatos

    Los usuarios también pueden definir metadatos directamente en el nivel de tabla para juegos de datos en almacenes de objetos como Oracle Cloud Infrastructure (OCI) Object Storage o Amazon S3. Esto permite la organización personalizada de datos para archivos individuales o grupos de archivos, adaptados a los requisitos del usuario. Autonomous Database también puede inferir automáticamente metadatos, como nombres de columna y tipos de dato, para ahorrar tiempo y reducir los errores. Por ejemplo, al cargar un archivo CSV, el sistema puede detectar automáticamente cabeceras como nombres de columna y asignar los tipos de dato adecuados, como número o varchar2, según el contenido. Esto ayuda a los usuarios a preparar rápidamente sus datos para el análisis sin intervención manual, lo que reduce el tiempo de configuración y minimiza las posibilidades de errores.

Soporte de metadatos federados

Autonomous Database soporta un catálogo de metadatos federado, lo que permite a los usuarios unificar metadatos de diferentes orígenes en una única vista, proporcionando una interfaz unificada para la gestión de metadatos.

Este enfoque simplifica la gestión de metadatos en varios entornos conectando orígenes de datos en varias nubes y plataformas. Tanto si utiliza metadatos basados en catálogos como si los define manualmente, toda la información está disponible en un catálogo unificado para facilitar la exploración. Por ejemplo, una organización puede utilizar esta vista federada para gestionar activos de datos tanto de AWS como de Oracle Cloud, lo que garantiza una gobernanza y una capacidad de detección consistentes en todas las plataformas.

Colaboración

Una vez que los usuarios terminan su análisis, a menudo necesitan compartir sus resultados con otros. Oracle Autonomous Database facilita el uso compartido al ofrecer varias formas de colaborar, lo que proporciona ventajas únicas con respecto a otras bases de datos, como funciones de seguridad integradas, protocolos abiertos y conectividad en la nube perfecta.

Estas opciones están hechas para ser flexibles y seguras, por lo que se adaptan a diferentes necesidades de colaboración:

  • Protocolo de uso compartido Delta: permite compartir datos fuera de Oracle mediante un protocolo abierto denominado Uso compartido Delta. Admite el uso compartido seguro de datos con partners externos, sin necesidad de una integración compleja, por lo que es ideal para análisis entre nubes y entre plataformas. De esta forma, los datos se pueden utilizar sin problemas en diferentes herramientas de análisis que no forman parte de Oracle. Consulte Uso compartido de versiones de datos con Object Storage para obtener más información.

  • Enlaces a la nube: puede compartir datos entre diferentes instancias de Autonomous Database mediante enlaces en la nube seguros. Por ejemplo, los enlaces en la nube son especialmente eficaces para conectar diferentes bases de datos. Esto garantiza una disponibilidad de datos consistente y reduce la latencia de las aplicaciones que necesitan un acceso rápido y fiable a los datos en varias bases de datos, sin necesidad de copiarlos o duplicarlos. Mantiene la colaboración fluida para los equipos que están dispersos y necesitan trabajar juntos. Consulte Compartir datos activos mediante una conexión directa.

  • Hiperenlaces de tablas: puede compartir datos directamente mediante la creación de URL especiales que proporcionen acceso a los datos sin necesidad de una conexión independiente. Los usuarios pueden controlar los permisos y definir los tiempos de caducidad de estas URL, lo que garantiza opciones de uso compartido seguras y flexibles. Esta función se crea específicamente para clientes REST. Consulte Generación de un hiperenlace de tabla para una tabla o una vista para obtener más información.

Amplia compatibilidad con las herramientas de Oracle Database

El entorno de Autonomous Database es totalmente compatible con una amplia gama de herramientas de base de datos Oracle.

Cualquier herramienta que ya utilice para interactuar con bases de datos Oracle, ya sea para visualización de datos, análisis, ETL o administración, también se puede aprovechar sin problemas para analizar conjuntos de datos en Autonomous Database. Esta compatibilidad garantiza una experiencia sin fricciones, lo que permite a los usuarios integrar Autonomous Database en sus flujos de trabajo existentes sin necesidad de adoptar nuevas herramientas o procesos, maximizando así la eficiencia y reduciendo la curva de aprendizaje.

Consulte Página Visión General de Data Studio para obtener información sobre algunas de las herramientas disponibles para utilizarlas con bases de datos Oracle.