Uso de las capacidades de lago de datos con Autonomous Database

Proporciona información sobre el uso de Autonomous Database como un data lakehouse.

Acerca de la analítica SQL en lagos de datos con Autonomous Database

Los lagos de datos son una parte clave de las arquitecturas de gestión de datos actuales con datos almacenados en ofertas de almacenes de objetos de Oracle, Amazon, Azure, Google y otros proveedores.

Los data lakes aumentan y complementan los almacenes de datos:

  • Como motor de procesamiento de datos para ETL: esto le permite reducir la carga de trabajo del almacén de datos.

  • Al almacenar datos que pueden no ser adecuados para un almacén de datos: esto incluye archivos log, datos de sensor, datos IoT, etc. Estos datos de origen tienden a ser voluminosos con baja densidad de información. El almacenamiento de estos datos en un almacén de objetos puede ser más adecuado que en un almacén de datos, mientras que la información derivada de los datos es ideal para el análisis SQL.

  • Para su uso con la ciencia de datos y el análisis empresarial: es fácil cargar archivos en el lago de datos y, a continuación, utilizar varios métodos de procesamiento a través de esos datos (Spark, Python, etc.).

    Los analistas empresariales que utilizan Autonomous Database pueden aprovechar fácilmente estos juegos de datos sin ETL. Puede combinar los juegos de datos con los datos del almacén para obtener nuevas estadísticas. Por ejemplo, un analista carga archivos demográficos de clientes de terceros en el almacenamiento de objetos y, a continuación, utiliza inmediatamente esos datos con los datos del almacén para realizar análisis de segmentación de clientes, combinando los datos demográficos con los datos de clientes y ventas existentes.

La profunda integración de Autonomous Database con el lago de datos representa una nueva categoría en la gestión de datos moderna: el data lakehouse. Autonomous Database simplifica el acceso al lago de datos al proporcionar acceso SQL enriquecido y de alto rendimiento y análisis integrados, incluidos: aprendizaje automático, gráficos, espaciales, JSON y mucho más. Este acceso abierto permite que cualquier herramienta o aplicación de inteligencia empresarial basada en SQL se beneficie mediante el uso de datos almacenados en varios lugares sin necesidad de comprender las complejidades del lago de datos.

Descripción de data-lake-architecture.png

Integración de Autonomous Database y el lago de datos

Autonomous Database soporta la integración con lagos de datos no solo en Oracle Cloud Infrastructure, sino también en Amazon, Azure, Google y mucho más. Tiene la opción de cargar datos en la base de datos o consultar los datos directamente en el almacén de objetos de origen. Ambos enfoques utilizan las mismas herramientas y API para acceder a los datos. La carga de datos en Autonomous Database suele ofrecer mejoras significativas en el rendimiento de las consultas en comparación con la consulta directa del almacenamiento de objetos. Sin embargo, la consulta directa del almacén de objetos evita la necesidad de cargar datos y permite un enfoque ágil para ampliar los análisis a nuevos orígenes de datos. Una vez que se considere que esos nuevos orígenes tienen un valor probado, tiene la opción de cargar los datos en Autonomous Database.

Credenciales de seguridad para acceder a datos en almacenes de objetos

Autonomous Database soporta varios servicios en la nube y almacenes de objetos, incluidos Oracle Cloud Infrastructure, Azure, AWS, Google y otros. El primer paso para acceder a estas tiendas es garantizar que se apliquen las políticas de seguridad. Por ejemplo, debe especificar reglas de autorización para leer o escribir archivos en un bloque en el almacenamiento de objetos. Cada nube tiene su propio proceso para especificar el control de acceso basado en roles.

Revise lo siguiente para configurar las políticas adecuadas para su plataforma de almacenamiento de objetos:

Nota

Los principales de seguridad no son necesarios para los datos almacenados públicamente.

Autonomous Database utiliza un objeto de credencial para representar la identidad para acceder a un servicio en la nube. Consulte Procedimiento CREATE_CREDENTIAL para obtener más información sobre las credenciales de seguridad que se utilizan para conectarse a orígenes externos.

Esta identidad puede ser un usuario de Oracle Cloud Infrastructure o una entidad de recurso, un ARN de servicio web de Amazon, una entidad de servicio de Azure o una cuenta de servicio de Google. La credencial se incluye con cada solicitud de servicio emitida de Autonomous Database y el recurso en la nube autoriza la acción de usuario. Sin la autorización adecuada, la solicitud de servicio falla, normalmente con un error "no encontrado".

Revise las siguientes publicaciones del blog para obtener más información sobre el uso de los diferentes tipos de credenciales de servicio en la nube:

Una vez implementadas las políticas de seguridad, puede utilizar las herramientas de Autonomous Database o las API de DBMS_CLOUD para acceder a los servicios.

Uso de Data Studio para cargar y enlazar datos

Data Studio está diseñado para el usuario de negocio y proporciona funciones para la carga de datos que cargan datos de forma eficaz desde el origen de datos y el enlace de datos que crea tablas externas que se utilizan para consultar datos de forma dinámica.

Puede empezar creando un puntero a una ubicación de almacenamiento en la nube. Una ubicación de almacenamiento en la nube es un cubo de un almacén de objetos. A continuación, utilice las herramientas de base de datos para arrastrar y soltar los datos para asignar orígenes de almacenamiento de objetos a tablas de destino.

Al crear la asignación, los esquemas (columnas y tipos de dato) de los objetos del almacén de objetos subyacente se derivan automáticamente para simplificar la definición del trabajo. En la presentación, Data Studio utiliza las API DBMS_CLOUD de Autonomous Database para enlazar y cargar datos.

Consulte Página Carga de Datos para obtener más información.

Carga de datos

Puede utilizar las API de carga de datos de DBMS_CLOUD como parte de los flujos de procesamiento de ETL. Las API de DBMS_CLOUD simplifican el proceso de carga al encapsular las complejidades de tratar con diferentes orígenes de datos y producir trabajos de carga altamente eficientes. Especifique las propiedades de origen (por ejemplo, ubicación de datos, tipo de archivo y columnas para archivos no estructurados) y su asignación a una tabla de destino. En la documentación se describen los detalles de la carga de datos desde diversos orígenes y se describen las cargas de datos de depuración, incluidos los pasos de procesamiento y los registros incorrectos que se han encontrado.

La carga de datos implica lo siguiente:

  • Creación de credenciales
  • Carga de diferentes tipos de archivos, incluidos JSON, pump de datos, texto delimitado, Parquet, Avro y ORC.
  • Replicación mediante Oracle GoldenGate, etc.

Algunas de las API clave de DBMS_CLOUD para cargar datos son:

  • Procedimiento COPY_DATA: carga datos de orígenes de almacenamiento de objetos. Especifique el origen y cómo se asigna ese origen a una tabla de destino. La API soporta una serie de tipos de archivo, incluidos: texto delimitado, Parquet, Avro y ORC. Existen numerosas funciones para registrar el procesamiento.

  • Procedimiento COPY_COLLECTION: carga datos JSON del almacenamiento de objetos en recopilaciones.

  • Función y procedimiento SEND_REQUEST: el enfoque más flexible, DBMS_CLOUD.SEND_REQUEST, envía y procesa solicitudes REST a proveedores de servicios web. Utilice DBMS_CLOUD.SEND_REQUEST en sus propios procedimientos PL/SQL para cargar datos que no están disponibles en un almacén de archivos accesible (por ejemplo, datos meteorológicos de servicios gubernamentales).

También puede utilizar pipelines de datos para la carga de datos incremental continua desde el lago de datos (a medida que los datos llegan al almacén de objetos, se cargan en una tabla de base de datos). Los pipelines de importación de datos aprovechan las mismas capacidades de carga subyacentes proporcionadas por DBMS_CLOUD.

El paquete DBMS_CLOUD_PIPELINE ofrece un juego de API para crear, gestionar y ejecutar un pipeline, que incluye:

Consulte Uso de pipeline de datos para carga y exportación continuas para obtener más información.

Datos de enlace

Las tablas externas de Autonomous Database se utilizan para enlazar a los datos. Una tabla externa accede a los archivos del almacén de objetos directamente sin cargar los datos. Se puede utilizar para casos en los que desee explorar rápidamente los datos del almacenamiento de objetos para conocer su valor. Las aplicaciones consultan tablas externas como lo harían con cualquier otra tabla de Autonomous Database, la ubicación del origen es transparente. Esto significa que cualquier herramienta o aplicación basada en SQL puede realizar consultas en el almacén de datos y el lago de datos, y encontrar nuevas estadísticas que de otro modo habrían sido difíciles de lograr.

Las tablas externas soportan una variedad de tipos de archivos, incluidos: texto delimitado, JSON, Parquet, Avro y ORC. Revise la documentación para obtener más información sobre los conceptos externos, incluidos los tipos de tablas externas, la validación de orígenes y el uso de Data Catalog de Oracle Cloud Infrastructure para generar automáticamente tablas externas.

A continuación, se muestran algunas de las API de DBMS_CLOUD para trabajar con tablas externas:

  • CREATE_EXTERNAL_TABLE: cree una tabla externa a través de datos de almacenamiento de objetos.

  • CREATE_EXTERNAL_PART_TABLE: cree una tabla externa particionada sobre los datos de almacenamiento de objetos.

    Las tablas externas particionadas ofrecen ventajas de rendimiento en el momento de la consulta. La depuración de particiones elimina la necesidad de explorar los archivos de datos que no son necesarios para el procesamiento. Por ejemplo, puede tener 12 particiones, una por cada mes en 2021. Una consulta de marzo de 2021 solo escanea los datos de ese mes, o 1/12 de los datos, lo que mejora drásticamente el rendimiento.

    El procedimiento DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE comprende los patrones de partición de lagos de datos estándar, donde los datos de cada partición se almacenan en su propia carpeta. El procedimiento crea automáticamente particiones basadas en la organización de datos subyacente. Utilice SYNC_EXTERNAL_PART_TABLE para actualizar las particiones de la tabla cuando los datos subyacentes hayan cambiado.

  • CREATE_HYBRID_PART_TABLE: cree una tabla particionada híbrida.

    Una tabla particionada híbrida permite especificar los datos de partición que se deben almacenar en Autonomous Database y los datos de partición que se van a almacenar externamente. Esto le permite mantener los datos "activos" en la base de datos para acelerar el rendimiento de las consultas y las actualizaciones, mientras que los datos archivados se almacenan en el almacén de objetos. Las aplicaciones consultan la tabla híbrida sin necesidad de saber dónde residen los datos.

Consultar Data Lakehouse mediante SQL

Una vez que haya integrado Autonomous Database con el lago de datos, puede utilizar toda la amplitud de Oracle SQL para consultar datos en la base de datos y el almacenamiento de objetos.

Descripción de data-lake-features.png

La ubicación de los datos es completamente transparente para la aplicación. La aplicación simplemente se conecta a Autonomous Database y, a continuación, utiliza todo el lenguaje de consulta SQL de Oracle para realizar consultas en los juegos de datos.

Esto le permite lo siguiente:

  • Correlacione la información del lago de datos y el almacén de datos.
  • Acceda a los datos desde cualquier herramienta o aplicación SQL.
  • Conserva tu inversión en herramientas y conjuntos de habilidades.
  • Proteja los datos confidenciales mediante políticas de seguridad avanzadas de Oracle Database.
A continuación se muestra la descripción de adb_lakehouse_graph.png

Analítica Avanzada

La integración de los distintos tipos de datos permite a los analistas empresariales aplicar los análisis incorporados de Autonomous Database en todos los datos y no es necesario desplegar motores de análisis especializados.

El uso de la configuración de Autonomous Database como un data lakehouse elimina la costosa replicación de datos, los desafíos de seguridad y la sobrecarga administrativa. Lo más importante es que permite el análisis entre dominios. Por ejemplo, los modelos de aprendizaje automático pueden aprovechar fácilmente el análisis espacial para responder preguntas como "¿Cuál es el impacto previsto del movimiento de un huracán en nuestros envíos de productos?"

En la siguiente tabla se proporciona una instantánea de las capacidades analíticas avanzadas que puede aprovechar en Autonomous Database.

Tipo de análisis avanzado Funciones
Análisis de gráficos

Algoritmos de gráficos: biblioteca de más de 50 algoritmos incorporados para detectar y evaluar comunidades, predicción de enlaces, búsqueda de rutas, clasificación y recorrido

Consultas de gráfico:

  • Calcular nuevas métricas basadas en relaciones entre entidades
  • Evalúe los resultados de la predicción y descubra nuevas conexiones

Herramientas para trabajar con gráficos:

  • Herramienta de modelado de gráficos para asignar datos relacionales a gráficos
  • Blocs de notas basados en explorador para análisis y colaboración interactivos
  • Visualización de gráficos integrada

Consulte Oracle Graph para obtener más información.

Análisis espacial

Procesamiento de datos geoespaciales:

  • Convertir datos de dirección o nombres de posición en

    datos geoespaciales

  • Preparar, validar y limpiar datos geoespaciales

Análisis de datos geoespaciales: categorice o filtre según la ubicación y la proximidad

Visualización de mapas: análisis e informes interactivos

Consulte Oracle Spatial para obtener más información.

Machine Learning

algoritmos de AA

  • Creación rápida de modelos y puntuación en tiempo real
  • Selección de lenguajes: SQL, R y Python

Herramientas colaborativas

  • AutoML sin código automatiza la creación, el ajuste y el despliegue de modelos
  • Los blocs de notas ofrecen visualizaciones y análisis interactivos
  • Uso compartido de blocs de notas y plantillas

Consulte Oracle Machine Learning para obtener más información.

Vistas Analíticas

Modelos de negocio compartidos:

  • Definir jerarquías de negocio
  • Cree métricas que aprovechen las jerarquías de negocio
  • Modelo compartido por herramientas y aplicaciones (Oracle Analytics Cloud, Tableau, etc.)
  • SQL mejorado para aprovechar el modelo

Herramientas para trabajar con vistas analíticas: la herramienta de análisis de datos simplifica la creación de un modelo multidimensional

Consulte Analytic Views para obtener más información.

Colaborar con metadatos comunes

Históricamente, uno de los principales desafíos de cualquier solución de gestión de datos es comprender los datos en sí.

Puede tener preguntas importantes sobre sus datos:

  • ¿Qué datos contiene una tabla?
  • ¿Cuál es el significado de una columna?
  • ¿Cuál es la fiabilidad de los datos? Si no es lo suficientemente preciso para los informes financieros, ¿es útil para fines de marketing?
  • ¿Cuándo se actualizaron los datos por última vez?
  • ¿Cuál es el esquema para los archivos incluidos en el almacenamiento de objetos?

Oracle Cloud Infrastructure ofrece un catálogo de datos centralizado, Oracle Cloud Infrastructure Data Catalog (Data Catalog), que proporciona las respuestas a estas preguntas. Data Catalog permite detectar rápidamente datos en Object Storage, Autonomous Database, bases de datos Oracle, MySQL, Kafka, Hive y mucho más.

La recopilación automatizada de metadatos, por ejemplo, a partir de definiciones de tabla y columna, deriva metadatos técnicos de estos orígenes. También es posible derivar metadatos de orígenes no estructurados en el lago de datos de almacenamiento de objetos. Una vez recolectadas las fuentes, los analistas de negocios y los administradores de datos aplican términos y categorías de negocio a los datos. Ahora dispone de un entorno de colaboración para que los proveedores y consumidores de datos busquen activos en función de nombres, términos de negocio, etiquetas y propiedades personalizadas.

Autonomous Database se integra con Data Catalog, lo que simplifica el proceso administrativo y promueve la consistencia semántica en todo el lakehouse. Los metadatos del lago de datos recogidos por Data Catalog se sincronizan automáticamente con Autonomous Database. Esto permite a los analistas de negocio consultar inmediatamente los datos del almacén de objetos y combinar esa información con los datos de Autonomous Database mediante su herramienta y aplicación favoritas basadas en SQL.

Ver detalles sobre cómo configurar la conexión a Data Catalog

Spark en Autonomous Database

No existe un único motor de procesamiento o análisis para los datos de almacenamiento de objetos. Sin embargo, uno de los principales motores de procesamiento es Apache Spark.

Spark es un marco de procesamiento de datos distribuido que se utiliza mucho en cargas de trabajo de ETL y ciencia de datos. Los servicios de Oracle Cloud Infrastructure utilizan Spark, que incluye:

  • Oracle Cloud Infrastructure Data Flow: servicio de Apache Spark totalmente gestionado.
  • Oracle Cloud Infrastructure Data Integration: un servicio en la nube totalmente gestionado que le ayuda con tareas comunes de extracción, carga y transformación (ETL), como la ingestión de datos desde diferentes orígenes, la limpieza, transformación y remodelación de esos datos y, a continuación, su carga eficiente en orígenes de datos de destino.
  • Oracle Cloud Infrastructure Data Science: servicio de aprendizaje automático (ML) que ofrece entornos de bloc de notas JupyterLab y acceso a cientos de herramientas de código abierto populares y basadas en frameworks.Spark.

Hay una profunda integración de Spark con Autonomous Database. Spark en Oracle es un proyecto de código abierto que optimiza el acceso a Autonomous Database desde aplicaciones basadas en Spark. El catálogo de Spark se amplía con el diccionario de datos de la base de datos: piense en la base de datos como simplemente un espacio de nombres adicional disponible. Las consultas que se ejecutan a través de Spark se convierten automáticamente en Oracle SQL de alta eficacia reescribiendo Spark en Autonomous Database. Esto significa que en Autonomous Database la integración va mucho más allá de lo que proporcionan la mayoría de los "conectores" de Spark (es decir, transfiere proyecciones y filtros al sistema subyacente). Spark en Oracle puede transferir por completo pipelines de análisis complejos que contienen todas las funciones analíticas y los operadores de Spark SQL. Por ejemplo, más del 90 % de las consultas TPC-DS se han transferido completamente a Oracle Database para su procesamiento.

Vea el blog de Spark en Oracle y el proyecto de código abierto.