培训医疗用例的机器学习模型

使用 Oracle Cloud Infrastructure Data Science 服务探索并训练用于医疗保健用例的机器学习模型。

体系结构

此体系结构显示 Oracle Cloud Infrastructure (OCI) 中的典型 Oracle Cloud Infrastructure Data Science 部署。

下图显示了核心服务和一些可选服务,您可以根据需要进行整合。

下面是 health-ml-design-pattern.png 的说明
插图 health-ml-design-pattern.png 的说明

healthcare-ml-design-pattern-oracle.zip

以下是体系结构的关键组件:

  • 对象存储或 Oracle Autonomous Database 作为存储位置。
  • 数据科学记事本研讨会,探讨和发展模型
  • 通过模型部署将模型产品化,并通过 REST API 提供模型。

此体系结构支持以下组件:

  • 区域

    Oracle Cloud Infrastructure 区域是一个局部地理区域,其中包含一个或多个数据中心,称为可用性域。区域独立于其他区域,而广阔的距离可以分离它们(跨国家甚至大陆)。

  • 虚拟云网络 (VCN) 和子网

    VCN 是可在 Oracle Cloud Infrastructure 区域中设置的可定制的软件定义网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。VCN 可以具有多个不可重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 分段到子网,这些子网可以限定到区域或可用性域。每个子网包含一个连续的地址范围,这些地址与 VCN 中的其他子网不重叠。您可以在创建子网后更改其大小。子网可以是公共子网,也可以是专用子网。

  • Internet 网关

    互联网网关允许 VCN 中的公共子网与公共互联网之间的通信。

  • API 网关

    利用 Oracle API Gateway,您可以发布具有专用端点的 API,这些端点可以从您的网络访问,并且可以在需要时向公共互联网公开。端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。

  • 数据集成

    Oracle Cloud Infrastructure Data Integration 是一项完全托管的云原生服务,它可以将各种数据源中的数据提取、加载、转换、清理和重新映射到目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 。ETL(提取转换负载)利用在 Spark 上完全托管的横向扩展处理,ELT(提取负载转换)利用 Autonomous Data Warehouse 的完全 SQL 下推功能,可以最大限度地减少数据移动,并缩短新摄取的数据的价值实现时间。用户使用直观的无代码用户界面设计数据集成流程。该界面可优化集成流来生成高效的引擎和编排,并自动分配和扩展执行环境。Oracle Cloud Infrastructure Data Integration 提供交互式探索和数据准备,通过定义用于处理方案更改的规则,帮助数据工程师防止模式偏差。

  • 数据目录

    Oracle Cloud Infrastructure Data Catalog 是针对企业数据的完全托管式自助数据发现和治理解决方案。它为数据工程师、数据科学家、数据管理员和首席数据官提供单个协作环境来管理组织的技术、业务和运营元数据。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及丰富的内容(例如图像和视频)。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以在不降低性能或服务可靠性的情况下无缝扩展存储。将标准存储用于需要快速、立即和频繁访问的“热”存储。将归档存储用于长时间保留的“冷”存储,很少或很少访问。

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database 是一个完全托管的预配置数据库环境,可用于事务处理和数据仓库负载。您不需要配置和管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及备份、打补丁、升级和优化数据库。

  • 数据科学

    Oracle Cloud Infrastructure Data Science 是一款端到端机器学习 (ML) 服务,它提供 JupyterLab 记事本环境以及访问数百种常用的开源工具和框架。使用 NVIDIA GPU、AutoML 功能以及自动超参数优化来构建和训练机器学习模型。将模型部署为 HTTP 端点或使用 Oracle Functions。通过版本控制、可重复作业和模型目录来管理模型。

机器学习的注意事项

开始使用 Oracle Cloud Infrastructure Data Science 服务的机器学习时,请考虑以下事项:

  • 理解数据

    数据是任何机器学习项目的主要也是最关键的组成部分。发布的数据集通常经过整理,甚至可能已经为您提取了功能,这使得它成为了解服务的好选择。

    使用新数据需要做更多工作来清理构件,计算缺少的值,并通过其他功能转换、编码或扩充数据集。

    数据科学家工作流的这一部分通常最耗时,可以轻松地在机器学习项目上花费 80% 到 90%。

  • 了解 Jupyter Notebook 语法

    Oracle Cloud Infrastructure Data Science 服务基于广泛采用的 Jupyter Notebook 框架构建。它提供了一个丰富的可视化环境来试验 python 语言中的数据。Python 是数据科学最流行的语言之一,Jupyter Notebook 用特定的语法(称为魔法)增强语言,有助于减少一些繁琐的操作,同时增强数据的可视渲染。请花时间详细了解 Jupyter Notebook 特定的语法,以便利用这些功能。

  • 将作业用于昂贵的操作

    虽然研究是一项非常适合 Jupyter Notebook 界面的交互式活动,但如模型训练和超参数优化等开销很大的操作可能需要较长时间,并且可以分载到作业功能中,这样用户就可以在专用计算机上运行长时间运行的脚本。