了解基于 Hadoop 的数据资源池

Oracle Big Data Service 提供了一个 Hadoop 堆栈,其中包括 Apache Ambari、Apache Hadoop、Apache HBase、Apache Hive、Apache Spark 和其他用于处理和保护大数据的服务。

大数据服务使企业可以轻松地将负载迁移到云,并确保与内部部署解决方案兼容。它允许将数据移动到对象存储,从而节省成本并从存储中分离计算资源。您可以使用 OCI 控制台、OCI CLI、REST API 或 SDK 访问 BDS。您可以完全访问以自定义 BDS 集群上部署的内容。

Oracle Cloud SQL 是一项可用附加服务,允许您对 HDFS、Kafka 和对象存储中的数据启动 Oracle SQL 查询。任何用户、应用或分析工具都可以使用数据存储,从而尽可能减少数据移动和加快查询速度。BDS 使用数据集成、数据科学和其他分析服务运行。开发人员可以使用 Oracle SQL 访问数据。企业可以消除数据孤岛,并确保数据池与其他公司数据源不隔离。

关于数据资源池

Oracle 湖房模式结合了数据仓库和数据湖中的优秀元素。它提供了一个包含多个 Oracle 云服务的集成平台,它可以轻松地移动数据、统一治理,并且能够根据您的用例和偏好使用优秀的开源工具和商业工具。

后面是 data-lake-house.png 的说明
插图 data-lake-house.png 的说明

Oracle Lakehouse 模式的关键要素包括

  • 数据仓库和数据湖模式的集成。
  • 消除数据孤岛 - 根据需要在仓库和湖泊之间轻松移动数据。
  • 统一的元数据和治理。
  • 支持流行的开源工具和商业工具。
  • 支持各种数据源、数据格式和数据类型(结构化、半结构化和非结构化)
  • 支持各种数据消费者和负载,包括所有行业的大数据分析、SQL 和 BI、数据科学和机器学习。

此手册中使用的平台中的主要服务包括:

大数据

Oracle Big Data 为集群提供 Hadoop 环境。大数据简化了使 Hadoop 集群具有高可用性和安全性的流程。根据 Oracle 优秀实践,大数据可实现高可用性和安全性,并减少对高级 Hadoop 技能的需求。大数据提供了常用的 Hadoop 组件,可以简化企业将负载迁移到云的过程,并确保与内部部署解决方案兼容。

数据目录

Oracle Cloud Infrastructure 数据目录是适用于企业数据的完全托管的自助数据发现和治理解决方案。数据目录对于组织搜索和查找要分析的数据至关重要。它们可以帮助数据专业人员发现数据并支持数据治理。

使用数据目录作为单一的协作环境来管理技术、业务和运营元数据。您可以从各种受支持的数据源中收集技术元数据,这些数据源可以使用公共或专用 IP 地址进行访问。您可以组织、查找、访问、了解、扩充和激活此元数据。利用按需或基于计划的自动收集功能,确保数据目录始终具有最新信息。得益于 Oracle Cloud 的所有安全性、可靠性、性能和规模。

数据流

Oracle Cloud Infrastructure Data Flow 是用于运行 Apache Spark 应用程序的完全托管服务。数据流应用程序是可重用模板,由 Spark 应用程序、其依赖项、默认参数和默认运行时资源规范组成。您可以管理数据流和应用开发生命周期的各个方面,通过 API 网关和可用函数使用 REST API 跟踪和执行 Apache Spark 作业。

数据流支持快速交付应用,允许开发人员专注于应用开发。它提供日志管理和运行时环境来执行应用程序。您可以通过用户界面集成应用和工作流以及访问 API。无需设置基础设施、集群预配、软件安装、存储和安全性。

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse 是自治驾驶、自治安全、自治修复的数据库服务,针对数据仓库工作负载进行了优化。无需配置或管理任何硬件或安装任何软件。Oracle Cloud Infrastructure 负责创建数据库以及备份、打补丁、升级和优化数据库。

数据集成

Oracle Cloud Infrastructure 数据集成是一种完全托管的无服务器云服务,可以摄取和转换数据科学和分析中的数据。通过数据集成,您可以使用 Oracle 数据流设计器将复杂的数据提取、转换和加载流程 (ETL/E-LT) 简化为数据池和仓库,从而支持数据科学和分析。它通过基于规则的集成流提供自动方案偏差保护,可以避免集成流损坏,并随着数据方案的发展减少维护。

数据科学

Oracle Cloud Infrastructure 数据科学是一个完全托管的无服务器平台,它可以帮助数据科学家在 Oracle Cloud Infrastructure 上构建、训练、部署和管理机器学习模型。数据科学家可以利用由 Oracle 针对自动化机器学习 (AutoML)、模型评估和模型说明提供的 Oracle 快速数据科学 (ADS) 库。

分析

Oracle Analytics Cloud 是可扩展的安全公共云服务,提供一整套功能,帮助您、您的工作组和您的企业浏览和执行协作分析。借助 Oracle Analytics Cloud,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。