1 Oracle AI Data Platform 和 Workbench 概览
本章提供了有关新用户开始使用 Oracle AI Data Platform Workbench 的信息和过程。
Oracle AI Data Platform Workbench 的用途是什么?
Oracle AI Data Platform Workbench 提供了一个集成环境,可用于构建、编排和操作数据和 AI 工作流。
Oracle AI Data Platform Workbench 专为需要:
- 简化数据发现和监管: AI Data Platform Workbench 提供了一个集中式元数据存储库(主目录),可增强结构化和非结构化数据的可搜索性和监管能力。
- 启用安全数据协作:通过基于 RBAC 的访问控制,AI Data Platform Workbench 允许不同的团队处理共享数据集,同时维护严格的安全策略。
- 加速数据准备和处理:通过内置的记事本和工作流编排,用户可以高效地清理、转换和扩充数据。
- 支持高级分析和 AI/ML: AI Data Platform Workbench 与 Apache Spark 集成,支持数据科学家和分析人员直接在数据湖中运行复杂的计算和模型训练。
- 确保跨数据源的无缝集成: AI Data Platform Workbench 支持来自 Autonomous Database (ADB)、Object Storage (OS) 和第三方数据源的外部目录,支持用户无需重复即可查询和分析数据。
通过开源进行托管集成
Oracle AI Data Platform Workbench 利用和扩展开源技术,以提供强大且可管理的体验。
一些关键集成包括:
- Apache Spark: AI Data Platform Workbench 的计算层由 Spark 提供支持,支持可扩展的分布式数据处理。
- Delta Lake 支持: AI Data Platform Workbench 利用 Delta Lake 来增强数据可靠性、ACID 事务处理和模式发展。
- Iceberg 和 Hudi Compatibility via Delta Uniform:通过 Delta Uniform,AI Data Platform Workbench 扩展了对 Apache Iceberg 和 Apache Hudi 的支持,从而实现不同存储格式的互操作性。这可确保用户采用统一的表格式策略,同时保持高效的查询执行和数据治理。
- JDBC Integration for BI Tools: AI Data Platform Workbench 提供 JDBC 驱动程序,支持与外部 BI 工具(例如 Oracle Analytics Cloud (OAC) 和第三方可视化平台)无缝连接。
面向 Oracle AI Data Platform 用户的人员
Oracle AI Data Platform 为组织内不同角色的各种用户提供服务,每个用户都具有独特的需求和要求。
以下是与 AI Data Platforms 交互的关键角色的概述:
- 数据工程师 —数据工程师使用大型数据管道,将原始数据转换为可用于分析的格式。他们依靠 AI Data Platform 的强大功能来设计和管理数据工作流、从各种来源摄取数据并确保数据质量。他们高度专注于自动化流程、优化计算资源以及无缝集成不同数据系统。
- 数据分析师 —数据分析师使用 AI 数据平台来发现、分析和生成数据洞察。它们需要一个直观的界面和工具来查询和分析大型数据集。人工智能数据平台为他们提供交互式笔记本,并与商务智能 (BI) 工具无缝集成,帮助他们将原始数据转变为决策者的切实可行的洞察。
- 数据科学家 —数据科学家利用 AI Data Platform 的可扩展计算功能来执行机器学习和高级分析任务。他们需要访问各种数据集、强大的处理工具以及运行复杂模型的能力。AI Data Platform 的 Spark 笔记本、AI/ML 集成以及对开源库的支持使数据科学家能够在平台中构建、测试和部署模型。
- 数据管理员 —这些用户可确保所有数据都按照行业法规和组织政策进行处理。他们专注于维护数据隐私、审计访问以及监视整个组织的数据使用情况。AI Data Platform 可帮助他们管理元数据、实施基于角色的访问控制 (RBAC) 以及通过编目、沿袭跟踪和安全策略确保适当的监管。
Oracle AI Data Platform 的常见用例
Oracle AI Data Platform 可为各行各业和业务职能部门提供各种用例。
Medallion 架构
- 实施具有青铜、银和金层的 Medallion 体系结构。
- 使用 Delta Uniform 和 Iceberg 实现高效的数据存储和查询优化。
- 对外部数据源进行零复制访问,实现无缝分析。
ETL 和数据工程
- 使用基于 Spark 的工作流和记事本处理、转换和扩充原始数据。
- 通过低代码/无代码工作流编排实现数据管道自动化。
- 处理大规模批处理和实时数据摄取。
机器学习、AI 和数据科学
- 使用 Spark 驱动的笔记本来训练和部署机器学习模型。
- 实现大规模的功能工程和数据转换。
- 为 Python 和 PySpark 工作负载提供托管执行环境。
利用企业数据构建 AI 代理
- 创建会话式 AI 代理来帮助检索和开发数据。
企业数据目录和监管,Delta 共享
- 对结构化和非结构化数据进行集中式元数据管理。
- 基于角色的访问控制 (Role-based Access Control,RBAC),用于安全的数据访问和协作。
- 与外部目录(包括 Autonomous Database (ADB) 和 Object Storage)集成。
- Oracle AI Data Platform 支持 Delta Sharing,从而跨组织边界实现安全、实时且受监管的数据共享。
分析、商务智能和报告
- 通过 JDBC(例如 Tableau 和 Power BI)连接 OCI Oracle Analytics Cloud (OAC) 和第三方 BI 工具。
多云和混合数据集成
- 支持跨多个 OCI 服务执行联合查询。
- 与第三方云存储和数据库集成,实现混合分析。
- 跨多个环境维护数据主权和合规性。