数据科学服务:保健用例

Oracle Cloud Infrastructure Data Science (OCI) 数据科学是一个完全管理的、无服务器的平台,可供数据科学团队构建、培训和管理机器学习模型。

数据科学与 OCI 堆栈的其余部分(包括 Oracle Functions数据流Autonomous Data Warehouse 和对象存储)集成。Oracle Accelerated Data Science (ADS) 软件开发人员工具包 (SDK) 是一个 Python 库,包含在数据科学服务中,它具有许多功能和对象,可以自动或简化数据科学工作流中的步骤,包括连接到数据、浏览和可视化数据、使用 AutoML 培训模型、评估模型以及解释模型。ADS 还提供了一个简单的界面来访问数据科学服务模型目录和其他 OCI 服务,包括对象存储。

体系结构

这种灵活的体系结构支持基于 Oracle Machine Learning 服务的集成健康网络中的多个方案,并结合了 Autonomous Data Warehouse数据科学平台。

除了数据科学 和 Autonomous Data Warehouse 之外,此体系结构还使用数据目录、Oracle APEX Application DevelopmentOracle Analytics Cloud。它还使用 OCI 计算实例托管可以动态将可穿戴设备数据流传输到 Autonomous Data Warehouse 或对象存储的应用程序。此体系结构具有多种用途,包括在安全、可靠和快速检索的存储中存储重要数据,以及在短时间内构建和部署应用程序和机器学习模块。

下图说明了此引用体系结构。

后面是 architecture-datascience-use-cases.png 的说明
插图 architecture-datascience-use-cases.png 的说明

体系结构具有以下组成部分:

  • 区域

    Oracle Cloud Infrastructure 区域是一个本地化地理区域,包含一个或多个数据中心,称为可用性域。区域独立于其他区域,其距离很大(跨越国家或甚至大陆)可以分开。

  • 可用性域

    可用性域是区域内的独立独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,这些资源提供故障容差。可用性域不共享基础结构(例如电源或冷却设备)或者内部可用性域网络。因此,一个可用性域出现故障不太可能影响该区域中的其他可用性域。

  • 容错域

    容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个具有独立电源和硬件的故障域。在多个故障域之间分配资源时,应用程序可以容忍故障域中的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是在 Oracle Cloud Infrastructure 区域中设置的可自定义、软件定义的网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。VCN 可以有多个非重叠 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为子网,子网可以被限定为区域或可用性域。每个子网包含一系列与 VCN 中的其他子网不重叠的地址。您可以在创建后更改子网的大小。子网可以是公共的或专用的。

  • 数据科学服务

    一个完全管理、无服务器的平台,供数据科学团队构建、培训和管理机器学习模型。它可以轻松地与其他 OCI 服务(如 Autonomous Data Warehouse、对象存储等)集成。

  • Autonomous Data Warehouse

    包含 Oracle Machine Learning 的 Oracle 自治数据库。数据科学家可以使用数据库中的 Oracle Machine Learning 功能和相关的笔记本界面构建、评估、评分和部署机器学习模型。您还可以使用自治事务处理。

  • 应用程序 VM

    安装了 Oracle Linux 并已准备好安装需要访问数据库的工具和应用程序的 OCI 计算实例。

  • 数据目录

    OCI 数据目录是一个完全托管的自助服务数据搜索和管理解决方案,适用于您的企业数据。数据目录提供了用于管理技术、业务和运营元数据的单个协作环境。

  • Oracle Analytics Cloud

    Oracle Analytics Cloud 为业务分析师提供了现代、AI 支持的自助服务分析功能,用于数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。

    Oracle Analytics CloudOracle Machine Learning 集成。通过此集成,分析师可以列出数据库中的可用模型并在 Oracle Analytics Cloud 分析和仪表盘中使用这些模型。

  • APEX

    Oracle APEX Application Development 是一个低代码开发平台,您可以在该平台上构建可在任何位置部署的、可扩展的、安全的企业应用程序。它包含在 Autonomous Database 中,不需要安装。APEX 用户可以访问 Oracle Machine Learning 中的模型和结果。

建议

您的要求可能与此处描述的体系结构不同。使用以下建议案作为起点。

  • VCN

    创建 VCN 时,根据计划附加到 VCN 中子网的资源数确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    选择不与您要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)重叠的 CIDR 块。

    创建 VCN 后,可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑流量和安全要求。将特定层或角色中的所有资源附加到可用作安全边界的同一子网。

  • 安全性

    使用 Oracle Cloud Guard 可以主动监视和维护 OCI 中资源的安全性。Cloud Guard 使用检测器配方,您可以定义这些配方来检查资源是否存在安全弱点,以及监视操作员和用户是否有风险活动。检测到任何不正确的配置或不安全的活动时,Cloud Guard 会根据您可以定义的响应方配方建议更正操作并协助这些操作。

    对于需要最大安全性的资源,Oracle 建议您使用安全区域。安全区域是与基于最佳做法的 Oracle 定义的安全策略配方关联的区间。例如,安全区中的资源不能从公共 Internet 访问,并且必须使用客户管理的密钥对其进行加密。在安全区域中创建和更新资源时,OCI 将根据安全区域配方中的策略验证操作,并拒绝违反任何策略的操作。

  • Autonomous Data Warehouse

    创建单独的方案供数据科学家独占使用。授予方案对主数据仓库方案的只读访问权限。这种安排允许数据科学家为勘探、分析和模型构建创建本地数据视图。如果需要,可以将共享数据复制到自己的方案中,以便他们在本地修改共享数据。

  • 虚拟机

    VM 分布在多个故障域上,以实现高可用性。我们建议对计算实例使用灵活的 VM 配置;这将允许您在几分钟内增加或减少 VM 的容量。

  • 对象存储

    对象存储提供可靠且经济高效的数据持久性,可快速访问任何内容类型的大量结构化和非结构化数据,包括数据库数据、分析数据、图像、视频等。我们建议使用标准存储从外部源获取数据,因为应用程序和用户可以快速访问它。您可以构建生命周期策略,以便在不再需要频繁访问数据时将数据从标准存储移动到归档存储。

考虑事项

部署此引用体系结构时,请考虑以下几点。

  • 安全性

    使用策略限制谁可以访问贵公司拥有的 OCI 资源以及他们如何访问这些资源。

  • 应用程序可用性

    故障域提供了单个可用性域中的最佳弹性。您可以在多个故障域中部署执行相同任务的计算实例。此设计通过引入冗余来消除单点故障。

  • 成本

    评估需求以选择适当的计算形状。

  • 监视和预警

    为节点设置 CPU 和内存使用情况的监视和预警,以便您可以根据需要向上或向下扩展配置。

部署

部署此引用体系结构所需的代码在 GitHub 中可用。单击一次即可将代码拉入 Oracle Cloud Infrastructure Resource Manager,创建堆栈并部署该堆栈。或者,也可以使用 Terraform CLI 将代码从 GitHub 下载到计算机,定制代码并部署体系结构。

  • 使用 Oracle Cloud Infrastructure Resource Manager 进行部署:
    1. 单击部署到 Oracle Cloud

      如果您尚未登录,请输入租户和用户身份证明。

    2. 查看并接受条款和条件。
    3. 选择要在其中部署堆栈的区域。
    4. 按照屏幕上的提示和说明创建堆栈。
    5. 创建堆栈后,单击 Terraform 操作,然后选择规划
    6. 等待作业完成,然后复核计划。

      要进行任何更改,请返回“堆栈详细信息”页,单击编辑堆栈,然后进行所需的更改。然后,再次运行计划操作。

    7. 如果不需要进一步更改,请返回“堆栈详细信息”页,单击 Terraform 操作,然后选择应用
  • 使用 GitHub 中的 Terraform 代码进行部署:
    1. 转到 GitHub
    2. 将资料档案库克隆或下载到本地计算机。
    3. 按照 README 文档中的说明操作。

更多信息

有关 Oracle Cloud Infrastructure 数据科学的详细信息,请参阅以下资源: