UniQreate:Oracle Cloud Infrastructure 上的数据管理平台部署
UniQreate 是一家数据提取自动化公司,可帮助企业通过使用效率最高的工作流和最低的侵入性交互,最大限度地提高无组织数据的价值。
许多组织的数据分布在数百万个文档中,这些文档的结构、上下文、布局和格式各不相同。使用手动资源或其他工具从此无组织数据中提取相关数据需要大量时间,并且可扩展性有限。UniQreate 通过使用人工智能 (AI)、智能工作流和 Web 界面来改进其深度学习模型来解决此问题。采用这种方法,因为组织的数据具有更好的背景和表示方式,并且可以在不依赖手动处理或自定义构建工具的情况下轻松使用。
由于以下原因,UniQreate 正在寻找其数据管理平台并选择 Oracle Cloud at Customer (OCI):
- 扩展计算和存储带宽时的敏捷性
- 以竞争性成本帮助提高计算能力
- 可扩展的文件存储和管理 MySQL 服务
- 对象存储满足所有项目存储需求
- 区间功能为隔离和管理单独的环境提供了一种干净的方式
自 2020 年以来,UniQreate 一直是 Oracle Cloud at Customer 启动程序的一部分,并且为多个客户机环境运行了 16 个 OCPU 实例和 3 个 GPU 实例。此设置允许他们每天运行 200 个提取周期,模型培训每 24 小时运行一次。
借助 Oracle Cloud at Customer 提供的功能、功能和竞争性成本,UniQreate 每月可以节省 20% 的总成本。
体系结构
此体系结构显示 UniQreate 在 Oracle Cloud Infrastructure 上的多区域灾难恢复体系结构。
- Web 服务器:提供提取用户界面和管理功能
- 代码管理器:确定需要为预测引擎启动的虚拟机 (VM) 的形状
- 预测引擎:运行人工智能 (AI) 和机器学习 (ML) 模块
- 监视服务器:监视整个解决方案的运行状况和性能。
- 文件系统:为模型和文档元数据提供可扩展的低延迟存储,独立于 Web 服务器和数据库服务器
- 数据库服务器:为 Web 服务器提供持久性存储
使用 Ansible 脚本可动态启动具有首选形状的预测引擎,从而实现自动化。此可伸缩预测引擎可根据客户的需求帮助解决大型文档的处理问题。
托管虚拟机 (virtual machine, VM) 的虚拟云网络 (virtual cloud network, VCN) 分为两个子网:一个用于堡垒主机的公共子网(用于 SSH 连接),另一个用于 VM 的专用子网(如代码管理器、预测引擎、文件存储和 MySQL 数据库服务器)。公共子网还托管 Jenkins 服务器以满足连续集成和部署 (CI/CD) 要求。
资源部署在多个故障域中以实现高可用性。
对象存储用作整个环境的备份,包括每个 VM 的映像。公共负载平衡器在 VM 之间分配通信负载。环境使用两层安全性:一层用于使用网络安全列表实施的网络安全,另一层用于特定于应用程序的安全性,使用网络安全组 (Network Security Group, NSG) 为每个网络段实施。每个可用性域中使用单独的可用性域和单独的故障域进行部署,从而在区域内提供高可用性和更大的容错性。整个环境也设在另一个灾后恢复区域。用户访问是使用身份和访问管理 (Identity and Access Management, IAM) 策略管理的。
整个设置在四天内部署在 Oracle Cloud Infrastructure 上,提供最大的可用性和运行时间。对于未来的部署,UniQreate 正在使用 Oracle Cloud Infrastructure 的 GPU 产品来改进和细化他们的深度学习模型,客户可以使用这些模型处理其文档,每位客户每年$ 5–10M,并生成更好的文本上下文和表示形式。
下图说明了此引用体系结构。
体系结构具有以下组成部分:
- 区域
Oracle Cloud Infrastructure 区域是一个本地化地理区域,包含一个或多个数据中心,称为可用性域。区域独立于其他区域,其距离很大(跨越国家或甚至大陆)可以分开。
此体系结构中的所有资源都部署在单个区域中。
- 可用性域
可用性域是区域内的独立独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,这些资源提供故障容差。可用性域不共享基础结构(例如电源或冷却设备)或者内部可用性域网络。因此,一个可用性域出现故障不太可能影响该区域中的其他可用性域。
此体系结构中的所有资源都部署在单个可用性域中。
- 容错域
容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个具有独立电源和硬件的故障域。在多个故障域之间分配资源时,应用程序可以容忍故障域中的物理服务器故障、系统维护和电源故障。
- 区间
区间是 Oracle Cloud Infrastructure 租户内的跨区域逻辑分区。使用区间在 Oracle Cloud 中组织资源、控制对资源的访问权限以及设置使用定额。要控制对给定区间中资源的访问权限,请定义策略,以指定谁可以访问资源以及他们可以执行的操作。
- 虚拟云网络 (VCN) 和子网
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可自定义、软件定义的网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。VCN 可以有多个非重叠 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为子网,子网可以被限定为区域或可用性域。每个子网包含一系列与 VCN 中的其他子网不重叠的地址。您可以在创建后更改子网的大小。子网可以是公共的或专用的。
- 安全列表
对于每个子网,可以创建安全规则,以指定必须允许进出子网的源、目标和流量类型。
- 远程对等
远程对等连接允许 VCN 的资源使用专用 IP 地址进行通信,而无需通过互联网或内部部署网络路由通信。远程对等连接可消除需要与其他区域中的其他 VCN 通信的实例对 Internet 网关和公共 IP 地址的需求。
- 堡垒主机
堡垒主机是一个计算实例,用作云外部拓扑的安全受控入口点。堡垒主机通常预配在非军事区 (DMZ) 中。它使您可以通过将敏感资源放置在无法直接从云外部访问的专用网络中来保护敏感资源。拓扑有一个已知的单个入口点,您可以定期监视和审计。因此,可以避免公开拓扑的更敏感的组件,而不会影响对这些组件的访问。
- 负载平衡器
Oracle Cloud Infrastructure Load Balancing 服务提供从单个入口点到后端多个服务器的自动通信分配。
此体系结构包括公共负载平衡器。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会性能或服务可靠性降低。对需要快速、立即和频繁访问的“热”存储使用标准存储。对您长时间保留的“冷”存储使用归档存储,并且很少或很少访问。
- 文件存储
Oracle Cloud Infrastructure 文件存储服务提供了持久、可扩展、安全、企业级网络文件系统。可以从 VCN 中的任何裸金属、虚拟机或容器实例连接到文件存储服务文件系统。您还可以使用 Oracle Cloud Infrastructure FastConnect 和 IPSec VPN 从 VCN 外部访问文件系统。
- Oracle MySQL 数据库服务
Oracle MySQL 数据库服务 是完全托管的 Oracle Cloud Infrastructure (OCI) 数据库服务,允许开发人员快速开发和部署安全的云原生应用程序。Oracle MySQL Database Service 针对 OCI 和 MySQL 工程团队构建、管理和完全支持 100% 的 OCI 和 MySQL 数据库服务进行了优化。
Oracle MySQL 数据库服务 有一个集成的高性能分析引擎 (HeatWave),可以直接针对可运行的 MySQL 数据库运行复杂的实时分析。
精选构建和部署
想要显示您在 Oracle Cloud Infrastructure 上构建的内容?想要与我们的全球云架构师社区分享您学到的经验、优秀实践和参考架构让我们帮助您开始。
- 下载模板 (PPTX)
通过将图标拖放到示例线框,说明您自己的参考体系结构。
- 观看架构教程
获取有关如何创建引用体系结构的分步说明。
- 提交图表
请向我们发送一封包含您图表的电子邮件。我们的云架构师将回顾您的图表,并与您联系讨论您的架构。
