现代应用开发 — 大数据和分析
设计原则
实施大数据和分析模式时,请遵循以下现代应用开发的设计原则。
- 利用完全托管的服务在应用开发、运行时和数据管理中消除复杂性
数据的价值取决于您的使用能力。大数据工具在开源社区中很受欢迎,而其中的大多数功能是通过 Hadoop、Spark 和 Hive 等开源项目在内部部署中采用的。
使用 Oracle Big Data Service,该服务提供所有常用的开源 Hadoop 组件作为 Oracle Cloud 中的托管服务。对于 Spark 应用程序,请使用 Oracle Cloud Infrastructure Data Flow,该平台提供完全托管的无服务器云原生 Spark 平台。使用这些服务可以确保您能够利用开源社区的最新创新功能以及您团队的现有技能,而无需担心供应商锁定。继续将开源的速度和价值与 Oracle 本机高级功能配合使用,例如 Oracle Autonomous Data Warehouse 外部表和 Oracle Cloud SQL。
部署和运行大数据服务(尤其是开源组件)可能会对运营费用产生指数性影响 (OpEx)。先从我们托管的 Hadoop 产品或 PaaS 服务(例如数据流)开始,然后再采用您自己的 (DIY) 方法。在 OpEx 中进行计数时,托管的开源服务在一段时间内成本较低。
- 自动进行构建、测试和部署
DataOps 对确保您从大数据管道中获得最大收益非常重要。使用 Oracle Cloud Infrastructure Data Integration 服务可以摄取数据、实施 ETL 处理和 ELT 下推,并创建管道以按顺序或并行连接任务,从而简化流程。管道可以包含 Oracle Cloud 内外的各种常用数据源。使用数据集成调度功能可定义运行每个任务的时间和频率。对于大数据服务中基于 Hadoop 分布式文件系统 (HDFS) 的数据湖,使用 Oozie 和 Airflow 等工具编排端到端的数据管道。使用 Oracle Database Cloud Service Management 可定义根据一组数据库按调度运行的数据库作业。
- 使用融合数据库在所有数据中提供全面的功能支持
利用可帮助您简化、自动执行和加速数据整合的优秀工具,创造更高的业务价值。使用非结构化、半结构化和结构化数据为 Oracle Cloud Infrastructure 数据科学构建数据湖时,请为您的数据湖使用对象存储服务。要利用 HDFS 和开源 Hadoop 工具,请使用大数据服务构建您的数据湖。对于具有结构化数据的数据仓库、部门数据集市以及服务和表示层,请使用针对这些方案优化的自治数据仓库。Autonomous Data Warehouse 还可以连接到分析、商务智能和报告工具,例如 Oracle Analytics Cloud。
- 检测端对端监视和跟踪
大数据应用通常由不同应用和业务团队拥有多个服务组成。可观察性工具对于了解这些内置分布式系统的行为非常重要。
通过让所有负载向 Oracle Cloud Infrastructure Monitoring 发出健康指标,监视端到端数据管道的运营运行状况。定义预警的定制度量阈值,并在达到指定阈值时收到通知或执行操作。对租户中的所有 OCI 服务日志以及从数据应用程序提交的定制日志使用 OCI 日志记录。要排除问题并优化性能,请使用 Autonomous Data Warehouse 的 OCI 数据库管理来查看数据库状态、平均活动会话、警报、CPU 使用情况、存储使用情况、车队诊断和调优。
- 实施深度防御方法来保护应用生命周期
计划保持数据安全。跟踪所有能够传入数据并从数据湖中获取数据的作业,保留数据沿袭元数据,并确保更新访问控制策略。使用数据目录可帮助进行监管。
遵循最少权限原则,确保用户和服务账户只有执行其任务所需的最少权限。使用 Oracle Cloud Infrastructure Identity and Access Management 控制谁可以访问数据平台组件。在 Oracle Cloud Infrastructure Identity and Access Management 中使用多因素验证来强制管理员执行强验证。在 Oracle Cloud Infrastructure Vault 服务中存储敏感信息,例如密码和验证标记。
For the Big Data Service, configure only the necessary security rules to control the network, and use Apache Ranger to manage data security across your Hadoop cluster. Use Oracle Data Safe to safeguard your data in Autonomous Data Warehouse. Use strong passwords for your databases. Create database resources in private subnets and use virtual cloud network (VCN) security groups or security lists to enforce network access control to database instances. Give database delete permissions to a minimum possible number of Oracle Cloud Infrastructure Identity and Access Management users and groups.
要保护数据源免受任何安全漏洞的影响,请仅为数据目录和数据集成服务向只读帐户提供凭证。
体系结构

插图 big-data-and-analytics.png 的说明
此体系结构使用以下数据源:
- 企业应用程序
- 设备
- 最终用户
- 事件
- 传感器
- 任何数字资产
此体系结构在 VCN 中具有以下组件:
- 虚拟云网络 (VCN)
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义的网络。与传统的数据中心网络类似,VCN 允许您完全控制您的网络环境。VCN 可以有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定于某个区域或可用性域。每个子网都包含与 VCN 中的其他子网不重叠的连续地址范围。您可以在创建子网后更改其大小。子网可以是公共的,也可以是专用的。
- 数据集成
Oracle Cloud Infrastructure 数据集成是一款完全托管的无服务器云服务,它摄取并转换了数据科学和分析数据。借助 Oracle 现代化的无代码数据流设计师,它可以帮助您将复杂 ETL 和 ELT 简化为数据湖和仓库。可以使用即时可用的运算符之一(如联接、聚集或表达式)来配置数据。
- 流
Oracle Cloud Infrastructure Streaming 服务提供了完全托管、可扩展的持久解决方案,可用于实时摄取和使用大量数据流。使用流处理可以在发布 - 订阅消息传递模型中连续生成和处理数据的任何用例。例如,消息传递、指标和日志摄取、Web 或移动活动数据摄取以及基础设施和应用事件处理。
- Oracle Big Data Service
Oracle Big Data Service 是完全托管的自动化云服务,它为集群提供 Hadoop 环境。利用大数据服务,客户可以轻松部署各种规模的 Hadoop 集群,并简化 Hadoop 集群在高可用性和安全环境下的过程。
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一种针对数据仓库负载进行了优化的自治驱动、自治安全、自治修复的数据库服务。您不需要配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 处理数据库创建以及备份、修补、升级和优化数据库。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会性能或服务可靠性降低。对需要快速、立即和频繁访问的“热”存储使用标准存储。对您长时间保留的“冷”存储使用归档存储,并且很少或很少访问。
- 数据流
Oracle Cloud Infrastructure Data Flow 是一个完全托管的 PaaS 级别 Spark 分析平台,支持您随时创建、编辑和运行 Spark 作业,而无需集群、运营团队或高度专业的 Spark 知识。由于云无服务器,因此您无需部署或管理基础设施。它完全由 REST API 驱动,可帮助您轻松地与应用或工作流集成。
- Oracle Analytics Cloud
领先的云端现代分析平台为业务分析师和消费者提供支持。Oracle Analytics Cloud 提供了基于 AI 的现代自助分析功能,可用于数据准备、发现和可视化;智能企业和按需报告以及增强的分析;以及自然语言处理和生成。无论您是业务分析师、数据工程师、市民数据科学家、部门经理、域专家还是高管,Oracle Analytics Cloud 都能帮助您将数据转化为洞察。
- 分析、机器学习和定制应用
分析服务、Oracle Machine Learning 和定制应用程序,用于对大数据进行编目、准备、处理和分析。
- 数据目录
Oracle Cloud Infrastructure 数据目录是适用于您的企业数据的完全托管的自助数据发现和监管解决方案。它为数据工程师、数据科学家、数据专员和首席数据官提供了单一的协作环境,可管理组织的技术、业务和运营元数据。
使用此体系结构模式,您可以使用现代数据湖主目录模式管理所有类型的非结构化、半结构化和非结构化数据。使用数据集成和流式处理服务将所有类型的数据提取到基于对象存储的数据湖中。使用 Oracle Cloud Infrastructure Data Flow 和 Oracle Big Data Service 进行处理,使用 Oracle Cloud Infrastructure Data Catalog 进行目录编制,使用 Oracle Autonomous Data Warehouse 作为服务商店,并使用 Oracle Analytics Cloud 进行分析和商务智能。
以下过程介绍了图表中所示的流:
- Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure 流式处理从不同类型的源提取数据。使用的服务取决于数据是批处理、流式还是同步数据库记录,以及数据是内部部署还是云端。
- 数据可以传送到对象存储,以供云服务共享访问并在存储在 Oracle Autonomous Data Warehouse 或 Big Data Service 中之前进行处理。
- 还可以直接将数据传送到 Oracle Autonomous Data Warehouse,然后使用 ELT 功能进行转换,或者可以直接从其他数据库提取记录。数据也可以按原样直接交付到大数据服务。
- Oracle Autonomous Data Warehouse 可以从对象存储查询数据,也可以通过 API 或数据集成从对象存储中提取数据。大数据服务可以从对象存储中提取数据或查询数据。
- Oracle Analytics Cloud 可以访问 Oracle Autonomous Data Warehouse 中的数据,以获取服务提供的任何可视化和业务分析功能。
- Oracle Cloud Infrastructure 数据目录从 Oracle Autonomous Data Warehouse、对象存储和 Big Data Service Hive 数据源收集元数据。您可以与数据目录进行交互以收集、查找和管理数据。
- 您可以使用 Oracle Autonomous Data Warehouse、大数据服务和对象存储中的数据,为分析和机器学习负载实施任何定制应用。
- 业务分析师可以使用 Oracle Analytics Cloud 来使用 Oracle Autonomous Data Warehouse 和 Big Data Service 中的数据。
- 数据科学家可以使用 Oracle Autonomous Data Warehouse 中的 Oracle Machine Learning Notebooks 和 Oracle Machine Learning for Spark in Oracle Big Data Service 来培训机器学习模型以及使用空间和图形数据。
替代体系结构
考虑此模式中描述的体系结构的替代方法。
使用单个数据库或数据仓库存储和分析所有类型的数据。在此替代体系结构中,各种数据源(最终用户、设备、事件、传感器和应用程序)通过数据集成 (Oracle GoldenGate) 和 Oracle Transactional Event Queues for streaming data 将数据馈送至数据库。数据存储在 Oracle Autonomous Database(Oracle Autonomous Transaction Processing 和 Oracle Autonomous Data Warehouse)中,以及对象存储对大数据的支持(使用 Cloud SQL)。使用 Oracle Machine Learning 建立和部署模型,并使用 Oracle Analytics Cloud 和 Oracle Data Cloud 获取数据洞察。
下图说明了此替代体系结构。

插图 alt-architecture-big-data.png 的说明
此体系结构使用以下数据源:
- 企业应用程序
- 设备
- 最终用户
- 事件
- 传感器
- 任何数字资产
此体系结构在 VCN 中具有以下组件:
- 虚拟云网络 (VCN)
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义的网络。与传统的数据中心网络类似,VCN 允许您完全控制您的网络环境。VCN 可以有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定于某个区域或可用性域。每个子网都包含与 VCN 中的其他子网不重叠的连续地址范围。您可以在创建子网后更改其大小。子网可以是公共的,也可以是专用的。
- 数据集成
Oracle Cloud Infrastructure 数据集成是一款完全托管的无服务器云服务,它摄取并转换了数据科学和分析数据。借助 Oracle 现代化的无代码数据流设计师,它可以帮助您将复杂 ETL 和 ELT 简化为数据湖和仓库。可以使用即时可用的运算符之一(如联接、聚集或表达式)来配置数据。
- ADB 中的 Oracle Cloud Infrastructure 事务处理事件队列 (TEQ)
自治数据库中的 Oracle 事务处理事件队列提供了数据库集成的消息排队功能。此高度优化和分区的实施利用 Oracle 数据库的功能,通过持久存储消息,使生产者和使用者可以交换吞吐量较高的消息,并在不同数据库上的队列之间传播消息。Oracle 事务处理事件队列是一种高性能分区实施,每个队列具有多个事件流
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一种针对数据仓库负载进行了优化的自治驱动、自治安全、自治修复的数据库服务。您不需要配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 处理数据库创建以及备份、修补、升级和优化数据库。
此云数据仓库服务可消除数据仓库运营、保护数据以及开发数据驱动型应用的所有复杂性。它自动执行数据仓库预配、配置、保护、优化、扩展和备份。它包括用于自助数据加载、数据转换、业务模型、自动洞察和内置的融合数据库功能的工具,支持跨多种数据类型和机器学习分析进行简单查询。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会性能或服务可靠性降低。对需要快速、立即和频繁访问的“热”存储使用标准存储。对您长时间保留的“冷”存储使用归档存储,并且很少或很少访问。
此互联网级高性能存储平台提供可靠、经济高效的数据持久性。对象存储服务可以存储任意内容类型的非结构化数据,包括分析数据和丰富的内容,例如图像和视频。
- 自治数据库
Oracle Cloud Infrastructure 自治数据库是完全托管的预配置数据库环境,可用于事务处理和数据仓储负载。您不需要配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 处理数据库创建以及备份、修补、升级和优化数据库。
- 自治数据库中的 Oracle Machine Learning
Oracle Autonomous Database(自治事务处理和 Autonomous Data Warehouse)中的 Oracle Machine Learning。
- Oracle Analytics Cloud
领先的云端现代分析平台为业务分析师和消费者提供支持。Oracle Analytics Cloud 提供了基于 AI 的现代自助分析功能,可用于数据准备、发现和可视化;智能企业和按需报告以及增强的分析;以及自然语言处理和生成。无论您是业务分析师、数据工程师、公民数据科学家、部门经理、域专家还是高管,Oracle Analytics Cloud 都可以帮助您将数据转化为洞察。
- 分析、机器学习和定制应用
分析服务、Oracle Machine Learning 和定制应用程序,用于对大数据进行编目、准备、处理和分析。
- 数据目录
Oracle Cloud Infrastructure 数据目录是适用于您的企业数据的完全托管的自助数据发现和监管解决方案。它为数据工程师、数据科学家、数据专员和首席数据官提供了单一的协作环境,可管理组织的技术、业务和运营元数据。
Oracle Cloud Infrastructure 数据目录是一种元数据管理服务,可帮助数据专业人员发现数据并支持数据治理。
- Oracle GoldenGate
该完全托管的服务提供了基于日志的实时更改数据捕获 (CDC) 和复制软件平台,可满足当今应用对事务驱动的需求。该软件可以实时捕获、路由、转换和交付异构环境中的事务数据。
另一种方法是,在 Oracle Cloud Infrastructure Compute 上构建和运行您自己的开源平台。但是,此选项可能会导致高 OpEx。
注意事项和反模式
了解大数据和分析结果。
- 减少数据副本和移动
数据移动成本高昂,耗费了资源和时间,可以降低数据保真性。根据数据类型、数据质量和所需的转换,选择合适的服务以存储和处理数据。对于所有类型的原始数据,请使用对象存储作为数据湖存储。使用 Oracle Big Data Service 可以利用 HDFS 和 Hadoop 生态系统工具。使用 Oracle Autonomous Data Warehouse 存储转换后的数据以供演示。使用正确的存储可以帮助您避免复制和移动数据并减少重复的数据副本,因此维护和保持同步可能比较困难。
- 为用户提供他们所需的数据接口
企业数据和分析平台拥有多种类型的用户:数据工程师、数据分析师、应用开发人员、大数据工程师、数据库管理员、业务分析师、数据科学家、数据专员和其他消费者。它们对使用数据有不同的需求和偏好。了解所有用例和数据消费者需求非常重要。对于 Hadoop 生态系统工具,使用大数据。对于 SQL 查询以及与商务智能工具的连接,请使用 Autonomous Data Warehouse。对于 Spark 应用程序,请使用 Oracle Cloud Infrastructure Data Flow 服务。
- 将您的数据资产编入目录并创建通用词汇
企业中的数据通常是多个团队共享资产。使用数据目录从 OCI 和内部部署的数据源收集元数据以创建数据资产清单。这样做有助于数据使用者轻松找到分析所需的数据。使用数据目录还可以创建和管理具有类别、子类别和业务术语的企业词汇表,以构建包含用户添加标记的业务概念分类,从而提高搜索效率。
- 关注成本和绩效
除非正确设计和运行平台,否则数据平台和分析平台的成本可以快速提高。所有数据都具有与延迟和吞吐量相关的特定性能要求。通过在服务中使用最小计算配置和最小存储量来正确调整环境大小,以满足您的性能需求。终止任何未使用的资源。对 Spark 应用程序使用数据流,因为您可以选择要用于作业的核心数,这样您能够在尽可能降低成本的同时获得所需的性能。对于 Autonomous Data Warehouse,根据您的需求扩展数据库的 CPU 核心数或存储容量。还可以使用其自动缩放功能,这样数据库可以随时自动使用当前 CPU 核心数的三倍,在不需要时自动减少内核数量。
Antipatterns
设计实施时,请考虑以下事项:
- 缺乏数据目录和治理可以将数据池转化为数据交换。
- 在块存储卷(而非对象存储)中存储数据湖数据会导致成本更高的解决方案。
大数据和分析模式
此体系结构模式提供了有关如何使用 Oracle Cloud Infrastructure (OCI) 数据和分析服务来摄取、存储、目录、准备、处理和分析大数据以实施多个用例的指南。
这些用例包括数据仓库;分析、商务智能和报告;提取、转换和加载 (ETL) 以及提取、加载和转换 (ELT) 模式;数据湖和湖泊房屋模式;以及培训机器学习模型。
下图显示了与数据和分析相关的 Oracle 服务。

插图 big-data-and-analytics-pattern.png 的说明
- 使用 Oracle Autonomous Data Warehouse 为结构化数据以及非结构化和半结构化数据的外部表编写 SQL 查询。
- 使用 Oracle Big Data Service 可使用 Apache Hadoop 生态系统工具(例如 Hive、Spark、Kafka 和 HBase)摄取、存储和处理各种非结构化和半结构化数据。
- 使用 Oracle Cloud Infrastructure Object Storage 存储大数据,并为所有类型的数据构建数据湖。
- 将 Oracle Cloud Infrastructure Data Flow 用于 Apache Spark 本机作业。
- 使用 Oracle Cloud Infrastructure Data Integration 可以从各种数据源提取数据,还可以简化 ETL(提取、转换、加载)和 ELT(提取、加载、转换)处理。
- 使用 Oracle Cloud Infrastructure 数据目录从各种数据源收集元数据,为数据湖构建资产清单、业务词汇表和公用元存储。
- 使用流处理可通过与 Kafka 兼容的 API 摄取实时数据流。
使用案例示例
下面是使用 Oracle Cloud Infrastructure (OCI) 数据和分析服务提取、存储、目录、准备、处理和分析大数据的实施示例。
- 数据仓库和业务分析
将 Oracle Autonomous Data Warehouse 用作 Oracle Analytics Cloud 的数据仓库或数据集市。
- 数据集成从预期来源摄取数据。使用的数据类型取决于数据是批处理、流还是同步数据库记录,以及数据是内部部署还是云端。
- 数据可以传送到对象存储,以供云服务共享访问,并在将数据存储在 Autonomous Data Warehouse 或大数据中之前进行处理。还可以直接将数据传送到 Autonomous Data Warehouse,然后使用 ELT 功能进行转换,也可以直接从其他数据库提取记录。
- Oracle Analytics Cloud 提供数据库中数据的可视化,包括机器学习结果。Oracle Analytics Cloud 将尽可能多的处理下推至 Autonomous Data Warehouse 以进行数据流处理。
- 对象存储对于主动归档或数据共享是可选的。活动归档是指将不太常用的数据从 ADW 移动到成本较低的存储层(对象存储)。数据仍可从对象存储中查询,但性能较慢。对象存储还可以用于存储云服务之间共享的数据。
- Oracle Cloud Infrastructure 数据目录从 Autonomous Data Warehouse 和对象存储数据源中获取元数据。您可以与数据目录交互以使用和管理目录。
- 使用湖套餐模式的数据湖和数据仓库管理所有类型的数据
管理 Autonomous Data Warehouse 和大数据中的数据,并使用 Oracle Analytics Cloud 可视化数据。
- 数据集成从预期来源摄取数据。使用的数据类型取决于数据是批处理、流还是同步数据库记录,以及数据是内部部署还是云端。
- 数据可以传送到对象存储,以供云服务共享访问并在存储在 Autonomous Data Warehouse 或 Oracle Big Data Service 中之前进行处理。数据也可以直接传送到 Autonomous Data Warehouse,然后使用 ELT 功能进行转换,也可以直接从其他数据库提取记录。数据也可以直接按原样交付到大数据。
- Autonomous Data Warehouse 可以从对象存储查询数据,也可以通过 API 或 Oracle Cloud Infrastructure Data Integration 帮助从对象存储中提取数据。大数据可以摄取对象存储中的数据或者查询对象存储中的数据。
- 可以使用大数据连接器将数据从大数据传输到 Autonomous Data Warehouse。
- Oracle Analytics Cloud 可以从多个来源(包括 Autonomous Data Warehouse 和大数据)访问数据,从而提供增强的分析、数据可视化和自助业务分析功能。
- 业务分析师可以使用 Oracle Analytics Cloud 来使用 Autonomous Data Warehouse 和大数据中的数据。
- 数据目录从 Autonomous Data Warehouse、对象存储和大数据 Hive 数据源收集元数据。您可以与数据目录交互来收集、查找和管理数据。
- 利用 OCI 云原生服务构建数据湖
在对象存储中构建数据湖,并使用云原生数据和 AI 服务实现现代化并利用新的技术创新。
- 将数据流用于 Spark 批处理和临时 Spark 集群。
- 将对象存储与 Hadoop 分布式文件系统 (HDFS) 连接器配合使用作为 HDFS 存储,以代替 Apache Hadoop 或 Spark 集群中的 HDFS。
- 使用 Oracle Cloud Infrastructure 数据集成可摄取数据和 ETL 作业。
- 使用 Oracle Cloud Infrastructure 数据目录进行数据搜索和监管。
- 使用 Oracle Cloud Infrastructure 数据科学满足机器学习需求。
- 使用 Oracle Cloud Infrastructure Streaming 托管流摄取,并使用数据集成支持托管集成服务。这些服务可以替换自我管理的 Kafka 或 Flume。
- 对于堆栈中易于使用托管 OCI 本机服务的其余组件,请使用 Oracle Cloud Infrastructure Compute 和存储服务。
- 使用 Oracle Big Data 服务构建基于 HDFS 的数据湖
使用 Oracle Big Data 服务在 HDFS 中构建数据湖。所有 Apache Hadoop 组件(包括 Hive、HBase、Spark 和 Oozie)都由 Oracle Big Data 服务提供的托管 Hadoop 集群提供,您可以根据自己的需求使用它们。尽可能使用托管云原生服务。
- 将大数据用于 HDFS 和其他 Hadoop 组件,包括 Hive、HBase 和 Oozie。
- 数据流用于 Spark 批处理和临时 Spark 集群,以便尽可能减少大数据集群大小。
- 使用数据目录进行数据搜索和监管。
- 使用数据科学满足机器学习需求。
- Oracle Big Data Service 的数据实验室
浏览并试验数据。Oracle Big Data Service 在此用例中提供了核心数据管理和数据科学工具。
- Oracle Analytics Cloud 提供了附加的功能来可视化在了解源数据和机器学习结果方面非常有用的数据。
- 对象存储提供了额外的低成本存储,可用于与其他云服务共享数据,以及在暂停数据实验室时在 Oracle Big Data 中持久保存数据。
- 如果需要,可以添加数据集成将数据摄取到对象存储中。
- 数据目录从对象存储和大数据 Hive 收集元数据。与数据目录进行交互以使用和管理目录。
- 数据科学家使用 Oracle Machine Learning 在 Oracle Big Data 中运行 Spark 来构建机器学习模型。
- 使用 Oracle Cloud Infrastructure 数据目录进行自助数据发现和监管
数据目录从不同类型的数据源收集元数据,以创建数据实体及其属性目录。业务分析师、数据科学家、数据工程师和数据专员可以搜索目录并构建属性的业务词汇表。
- 使用 Oracle Cloud Infrastructure Data Flow 进行 Spark 处理
Spark 作业已提交到数据流。运行作业时,将从对象存储读取数据并根据作业代码进行处理,结果将写回到对象存储。其他服务可以根据需要从对象存储中检索结果。
- 直接在 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 中培训机器学习模型
有关使用 Oracle Cloud Infrastructure 数据科学的机器学习模型的详细信息,请参阅基于数据科学的机器学习模型。此用例旨在管理 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 中的数据。Oracle Analytics Cloud 提供数据可视化,包括机器学习结果。功能仅限于 Oracle Machine Learning 的功能。
-
Oracle Cloud Infrastructure 数据集成从预期来源提取数据。使用的数据类型取决于数据是批处理、流还是同步数据库记录,以及数据是内部部署还是云端。
- 数据可以传送到对象存储,以供云服务共享访问并在存储在 Oracle Autonomous Data Warehouse 或 Oracle Big Data Service 中之前进行处理。数据可以直接传送到 Oracle Autonomous Data Warehouse,然后使用 ELT 功能进行转换,或者可以直接从其他数据库提取记录。数据也可以按原样直接交付到 Oracle Big Data Service。
- Oracle Autonomous Data Warehouse 可以从对象存储查询数据,也可以通过 API 或数据集成帮助从对象存储中提取数据。Oracle Big Data Service 可以从对象存储中提取数据或查询数据。
- 可以使用大数据连接器将数据从 Oracle Big Data Service 传输到 Oracle Autonomous Data Warehouse。
- Oracle Analytics Cloud 可以从多个来源(包括 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service)访问数据,从而提供增强的分析、数据可视化和自助业务分析功能。
- 业务分析师和数据科学家可以使用 Oracle Analytics Cloud 来使用 Oracle Autonomous Data Warehouse 和 Oracle Big Data Service 中的数据。
- 数据科学家可以使用 Oracle Autonomous Data Warehouse 中的 Oracle Machine Learning Notebooks 创建机器学习模型以及使用空间数据。他们还可以使用 Oracle Machine Learning 在大数据中使用 Spark 创建机器学习模型以及使用空间和图形数据。
- Oracle Cloud Infrastructure 数据目录从 Oracle Autonomous Data Warehouse、Big Data Hive 和对象存储数据源获取元数据。您可以与数据目录交互以使用和管理目录。
-