确定数据连接并使用 Oracle Autonomous Database 执行图形分析
图形数据库和图形分析是 Oracle 融合数据库产品的组成部分。使用 Oracle Database 内置的图形功能,无需使用单独的单一用途数据库并复制数据。分析师和开发人员可以执行全面分析来发现数据中的连接,从而提供客户趋势、欺诈检测等洞察,或者提高智能制造的可追溯性。他们可以在执行这些分析的同时获得企业级安全性、轻松的数据摄取以及支持多种数据负载。
Oracle Autonomous Database (ADB) 提供了一个名为 Graph Studio 的集成式一键式预配自助工具,可以在数据生命周期内自动执行建模、管理、分析和可视化图形。Graph Studio 提供对一组全面的图形分析的访问,包括 60 多个预建图形算法和类似 SQL 的声明性语言,称为属性图形查询语言 (Property Graph Query Language,PGQL)。Graph Studio 支持笔记本,使数据爱好者和开发人员能够在使用内存中图形分析引擎 (PGX) 实现高性能的同时执行分步分析。
图形是一种非常直观的数据建模方式,侧重于数据实体之间的连接,因为大多数数据都是互联的。通过图形,可以在连接的数据实体之间更轻松地导航,探索链接并得出新的结论。图形的主要组成部分是顶点(或节点)和边缘,它们连接两个顶点。图形的典型示例包括社交网络、资金流、物料清单或数据沿袭。
下面的示例图像说明图形分析如何适合识别金融交易中的欺诈。
为了简化欺诈检测,您可以从实体之间的事务处理以及共享某些信息的实体(包括电子邮件地址、密码、地址等)创建图形。创建图形后,运行简单查询将查找客户具有类似信息的所有客户,并揭示哪些客户相互发送资金。
有关图形的详细信息和典型示例,请参阅 eBook “17 用例用于图形数据库和图形分析”。您可以在此引用体系结构末尾的“了解更多”部分中找到它。
- 执行图形算法
图形算法分析顶点之间的路径和距离、顶点的重要性或顶点的群集。它们有助于:
- 检测社区(例如 Louvain、标签传播)
- 检测连接的组件(例如紧密连接的组件、弱连接的组件)
- 评估结构(例如周期检测、三角形计数、可访问性)
- 预测链接(例如从谁到跟进)、对图形中的节点进行排名和行走(例如 PageRank、度中心、接近中心、SALSA)
- 查找路径(例如,Bellman-Ford、Dijkstra、Fattest Path、Hop Distance)
- 运行图形模式匹配查询
图形模式匹配查询可以检测模式,例如循环或与指定的一组约束条件匹配的顶点和边缘之间的间接相关性。
体系结构
此体系结构使用 Oracle Autonomous Data Warehouse 作为一个集中式数据仓库,其中加载了数据并从多个企业存储库和部门数据源进行整理。
然后使用 Graph Studio 将数据建模为图形。Graph Studio 与 Java、PGQL 和 Python 的解释器集成的记事本界面使您可以快速执行图形算法、查询图形和可视化结果。此引用架构可帮助您开始使用图形,并创建用于图形分析的实验环境,而无需使用其他工具或软件组件。您可以使用包含数百万个顶点和边缘的图形,包括它们的属性。
下图是引用体系结构的功能表示。
propertygraph-analysis-arch-oracle.zip
- 数据炼油厂
摄取和调整数据以在体系结构中的每个数据层中使用。该配置旨在说明在每个级别存储和优化数据以及在数据之间移动数据的处理成本方面的差异。
- 数据持久性平台(生成的信息层)
便于访问和导航数据以显示当前业务视图。通过此层,您可以基于关系数据创建图形视图或持久性图形结构。
- 访问和解释
抽象用户的数据的逻辑业务视图。此抽象有助于敏捷的数据分析方法,为数据提供单一分析层。
该体系结构具有以下组成部分:
- 数据集成
Oracle Autonomous Database 具有为许多部门方案和特定的高级用例获取、加载和转换数据所需的嵌入式工具。Autonomous Data Warehouse 支持快速从本地或对象存储加载数据。还包括自治数据转换,这允许您连接到许多不同源类型的数据并访问 EL-T 类型功能。
Oracle Cloud Infrastructure 数据集成云服务适用于更高级的用例。它是一种完全托管的无服务器原生云服务。该服务允许您设计和执行从不同源提取、加载和转换 (ETL) 数据的任务。
- 对象存储
Oracle Cloud Infrastructure Object Storage 是一个互联网规模的高性能存储平台,提供经济高效的可靠数据持久性。Oracle Cloud Infrastructure Object Storage 可以存储任意内容类型的非结构化数据,包括分析数据。例如,您可以安全地检索部门数据并保留对象存储桶中的数据。然后,您可以使用 Autonomous Database 的数据加载工具将数据从存储桶加载到 Autonomous Database 中。
- Autonomous Database(ADW、ATP)
Oracle Autonomous Database 是一项针对数据仓库工作负载优化的自治驱动、自我保护和自我修复数据库服务。您不需要配置和管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建和备份、打补丁、升级和优化。通过 Autonomous Data Warehouse,您可以灵活地将数据加载到多种格式,包括结构化、JSON、XML、图形和空间。与此服务捆绑在一起的自治工具是允许您将数据加载到表中并高效执行轻量 ETL 操作的自治工具。
- Graph Studio
Graph Studio 是共享基础结构上 Oracle Autonomous Database 的一项功能。它内置在自治事务处理 (ATP) 和 Autonomous Data Warehouse (ADW) 中。它为使用图形的开发人员、分析人员、数据工程师和数据科学家提供工具。Graph Studio 包含低代码用户界面,可自动对数据仓库中现有关系表中的图形建模图形进行图形建模,执行图形分析,开发图形应用程序,以及可视化和共享结果。通过 Autonomous Database 和 Graph Studio 组合,您只需几分钟即可完成图形数据库平台部署,并且只需单击一下即可完成预配、集成工具和安全性。您不需要成为数据库专家或图形专家就可以入门并提高工作效率。
下图显示了使用安全方面最佳实践将上述架构映射到 Oracle Cloud Infrastructure 中提供的服务。
插图 oci-adb-graph-studio-arch.png 的说明
oci-adb-graph-studio-arch-oracle.zip
此参考体系结构具有以下主要组件:
- 虚拟云网络 (VCN) 和子网
VCN 是可在 Oracle Cloud Infrastructure 区域中设置的可定制的软件定义网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。VCN 可以具有多个不可重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 分段到子网,这些子网可以限定到区域或可用性域。每个子网包含一个连续的地址范围,这些地址与 VCN 中的其他子网不重叠。您可以在创建子网后更改其大小。子网可以是公共子网,也可以是专用子网。
- 可用性域
可用性域是一个区域中的独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,因而具备容错能力。可用性域不共享电源、冷却设备或内部可用性域网络等基础设施。因此,一个可用性域出现故障不会影响区域中的其他可用性域。
- 堡垒主机
astion 主机是一个计算实例,它从云外部充当拓扑的安全受控入口点。缓冲区主机通常预配在隔离区 (DMZ) 中。利用它,您可以将敏感资源放在无法从云外部直接访问的专用网络中,以保护这些资源。拓扑具有已知单个入口点,您可以定期监视和审计。因此,您可以避免公开拓扑中较为敏感的组件,同时又不影响对它们的访问。
- 网络地址转换 (network address translation,NAT) 网关
NAT 网关允许 VCN 中的专用资源访问互联网上的主机,同时不会向传入的互联网连接公开这些资源。
- Internet 网关
互联网网关允许 VCN 中的公共子网与公共互联网之间的通信。
- 服务网关
通过服务网关,可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage。从 VCN 到 Oracle 服务的流量通过 Oracle 网络结构传输,永远不会经过互联网。
- 具有自动缩放功能的 Autonomous Database
在此体系结构中,Oracle 自治可以是配置了自动缩放和专用端点的 Autonomous Data Warehouse (ADW) 或自治事务处理 (ATP)。它用于存储特定于应用程序的数据以及对图形进行建模、创建、维护、查询和可视化。访问控制列表 (ACL) 限制对 Autonomous Database 的网络访问。它拥有预先创建的应用程序用户,拥有开发和维护图形以及将 Graph Studio 用作 Autonomous Database 嵌入式工具所需的权限。示例数据预加载到数据库用户方案中,以便于从 Graph Studio 开始。
建议
- 数据炼油厂
Autonomous Database Tools 嵌入在 Oracle Autonomous Data Warehouse 中的功能,提供了以简单、直接的方式加载、转换、编目、获取洞察甚至开发业务模型的功能。
- Graph Studio在连接到 Graph Studio 之前,我们建议:
- 创建具有所需权限的数据库用户。
- 使用图形大小估算器估计图形的大小。装入到 Graph Studio 内存中的图形允许的最大内存中表示为 109 GB。
注意:
如果您的图形估计消耗超过 109 GB,请考虑将 Oracle Graph Server and Clients tools from Oracle MarketPlace 部署到具有所需内存的计算 VM 中。VM.Standard.E3.Flex 和 VM.Standard.E4.Flex 配置最多可具有 1024 GB 内存。
考虑事项
将多个数据库和文件源中的数据加载和配置到启用图形分析的集中数据仓库中时,请考虑以下实施选项:
指南 | 数据炼油厂 | 数据持久性平台 | 访问和解释 |
---|---|---|---|
推荐 | Oracle Autonomous Database 工具 | Oracle Autonomous Database(ADW 或 ATP) | Oracle Graph Studio |
其他选项 |
|
|
|
- 数据重力:
将图形分析操作与数据保持接近,以限制高数据移动成本。
部署
此参考体系结构的 Terraform 代码在 Oracle Cloud Infrastructure Resource Manager 中作为样例堆栈提供。您还可以从 GitHub 下载代码,并对其进行定制以满足您的特定需求。
- 使用 Oracle Cloud Infrastructure Resource Manager 中的示例堆栈进行部署:
- 在 GitHub 中使用 Terraform 代码进行部署:
- 转至 GitHub。
- 将存储库克隆或下载到本地计算机。
- 按照
README
文档中的说明进行操作。
浏览更多
请查看以下资源以了解有关此体系结构功能的更多信息。
- 产品页:Oracle Graph Database and Graph Analytics
- 电子书:图形数据库和图形分析的 17 个用例
- 技术功能概述:Oracle Graph 技术
- 文档:Oracle Property Graph
- LiveLabs 研讨会:开始使用 Oracle Autonomous Database 上的图形分析
- YouTube 通道:Oracle Spatial 和 Oracle Graph
- 项目页:属性图查询语言 (PGQL)
- Oracle Labs 项目页面:Parallel Graph AnalytiX (PGX)