Más información sobre los lagos de datos basados en Hadoop

Oracle Big Data Service proporciona una pila de Hadoop que incluye Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark y otros servicios para trabajar con Big Data y protegerlos.

El servicio de big data simplifica la migración de las cargas de trabajo a la nube y garantiza la compatibilidad con las soluciones locales. Permite mover datos al almacenamiento de objetos para ahorrar en costos y desvincular los recursos informáticos del almacenamiento. Puede acceder a BDS mediante la consola de OCI, la CLI de OCI, las API de REST o los SDK. Obtendrá acceso completo para personalizar lo que se despliega en los clusters de BDS.

Oracle Cloud SQL es un servicio adicional disponible que permite iniciar consultas Oracle SQL en datos de HDFS, Kafka y Object Storage. Cualquier usuario, aplicación o herramienta de análisis puede trabajar con almacenes de datos para minimizar el movimiento de datos y acelerar las consultas. BDS funciona con Data Integration, Data Science y otros servicios de análisis. Los desarrolladores pueden acceder a los datos mediante Oracle SQL. Las empresas pueden eliminar los silos de datos y garantizar que los lagos de datos no estén aislados de otros orígenes de datos corporativos.

Acerca de Data Lakehouse

El patrón Oracle Lakehouse combina los mejores elementos de los almacenes de datos y lagos de datos. Proporciona una plataforma integrada de varios servicios en la nube de Oracle que funcionan conjuntamente con un movimiento sencillo de datos, una gobernanza unificada y ofrece la capacidad de utilizar las mejores herramientas comerciales y de código abierto en función de sus preferencias y casos de uso.

Descripción de data-lake-house.png a continuación

Descripción de la ilustración data-lake-house.png

Los elementos clave del patrón de Oracle Lakehouse incluyen

Integración de patrones de almacén de datos y lago de datos.
Eliminación de los silos de datos: movimiento sencillo de los datos entre el almacén y el lago, según sea necesario.
Metadatos y gobernanza unificados.
Soporte para herramientas comerciales y de código abierto populares.
Soporte para una amplia variedad de orígenes de datos, formatos de datos y tipos de dato (estructurados, semiestructurados y no estructurados)
Soporte para diversos consumidores y cargas de trabajo de datos, incluidos análisis de big data, SQL y BI, ciencia de datos y aprendizaje automático en todos los sectores.

Los servicios clave de la plataforma que se utilizan en este cuaderno de estrategias incluyen:

en tiempo real

Oracle Big Data proporciona clusters con un entorno de Hadoop. Big Data simplifica el proceso de creación de clusters de Hadoop tanto de alta disponibilidad como seguros. Basándose en las mejores prácticas de Oracle, Big Data implementa alta disponibilidad y seguridad, y reduce la necesidad de habilidades avanzadas de Hadoop. Big Data ofrece los componentes de Hadoop más utilizados, lo que facilita a las empresas la transferencia de cargas de trabajo a la nube y garantiza la compatibilidad con las soluciones locales.

Catálogo de datos

Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Los catálogos de datos son esenciales para la capacidad de una organización de buscar y buscar datos para analizarlos. Permiten a los profesionales de datos detectar y soportar la gobernanza de datos.

Utilice Data Catalog como un entorno único colaborativo para gestionar metadatos técnicos, de negocio y operativos. Puede recoger metadatos técnicos de una amplia gama de orígenes de datos soportados a los que se pueda acceder mediante direcciones IP públicas o privadas. Puede organizar, buscar, acceder, comprender, enriquecer y activar estos metadatos. Utilice la recogida automática a demanda o basada en programa para garantizar que el catálogo de datos siempre tiene información actualizada. Disfrute de todas las ventajas de seguridad, fiabilidad, rendimiento y escala de Oracle Cloud.

Flujo de datos

Oracle Cloud Infrastructure Data Flow es un servicio totalmente gestionado para ejecutar aplicaciones Apache Spark. Las aplicaciones de Data Flow son plantillas reutilizables formadas por una aplicación Spark, sus dependencias, los parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto. Puede gestionar todos los aspectos del flujo de datos y del ciclo de vida de desarrollo de aplicaciones, realizar un seguimiento y ejecutar trabajos de Apache Spark con las API de REST mediante el gateway de API y las funciones disponibles.

El flujo de datos soporta la entrega rápida de aplicaciones, ya que permite a los desarrolladores centrarse en el desarrollo de aplicaciones. Proporciona gestión de logs y un entorno de tiempo de ejecución para ejecutar aplicaciones. Puede integrar las aplicaciones y los flujos de trabajo y acceder a las API mediante la interfaz de usuario. Elimina la necesidad de configurar la infraestructura, el aprovisionamiento de clusters, la instalación de software, el almacenamiento y la seguridad.

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse es un servicio de base de datos con autogestión, autoseguridad y autorreparación que se ha optimizado para las cargas de trabajo de almacenamiento de datos. No es necesario configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la realización de copias de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

Data Integration

La integración de datos de Oracle Cloud Infrastructure es un servicio en la nube totalmente gestionado y sin servidor que permite ingerir y transformar datos de ciencia y análisis de datos. La integración de datos ayuda a simplificar los complejos procesos de extracción, transformación y carga de datos (ETL/E-LT) en lagos y almacenes de datos para la ciencia y el análisis de datos con el diseñador de flujos de datos de Oracle. Proporciona protección automatizada de cambio de esquema con un flujo de integración basado en reglas que le ayuda a evitar flujos de integración deficientes y a reducir el mantenimiento a medida que evolucionan los esquemas de datos.

Data Science

Oracle Cloud Infrastructure Data Science es una plataforma totalmente gestionada y sin servidor que permite a los científicos de datos crear, entrenar, desplegar y gestionar modelos de aprendizaje automático en Oracle Cloud Infrastructure. Los científicos de datos pueden utilizar la biblioteca Accelerated Data Science (ADS) de Oracle mejorada por Oracle para el aprendizaje automático (AutoML), la evaluación de modelos y la explicación de modelos.

Análisis

Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un conjunto completo de funciones para explorar y realizar análisis de colaboración para usted, su grupo de trabajo y su empresa. Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, lo que incluye una configuración rápida, posibilidades de ampliación y aplicación de parches sencillas y gestión automatizada del ciclo de vida.