分析和可视化医疗保健数据,在 OCI 上应用 AI 解决实际挑战

Oracle Cloud Infrastructure (OCI) 和服务提供了许多选项来构建、部署和监视基于 Electronic Health Record 和患者监视数据的可扩展高性能分析解决方案,并通过简单直观的 Web 界面提供无缝的用户体验,从而轻松访问切实可行的智能。

可以分析从医疗设备收集的数据,以优化报警参数,AI 可以帮助开发智能应用,以提高临床效率并降低风险。

对于此参考架构,我们将展示一个使用 Snowflake 和 Snowpark 存储和分析数据的客户用例。这带来了成本增长和整体性价比效益降低的挑战。随着越来越多的医院和医疗保健提供商注册该服务,数据以指数级的速度增长,分析数百 TB 数据的成本呈指数级增长。该解决方案缺乏灵活性,无法满足目标数据分析解决方案的需求。

数据和模型管理效率低下阻碍了快速引导客户并将产品推向市场的能力。系统安全性是事后考虑的,通常需要手动流程才能在部署的每一层实施适当的安全控制。缺乏对开源工具和库的支持导致了供应商锁定并阻止了可移植性。

体系结构

OCI 支持开源工具,其框架支持您使用内部熟练资源无缝实施架构,同时提供可移植性。

在本参考架构中,我们将讨论一种可用于用例的解决方案设计,包括改善患者护理和疾病预防;基于证据的预授权决策;以及检测、分析和优化医院和医疗保健提供商的医疗报警参数。

数据分析和机器学习

对于医疗保健客户来说,Oracle Autonomous Data Warehouse 是一个理想的解决方案,因为客户使用来自传感器的流数据,其中 Oracle Autonomous Data Warehouse 的可扩展性及其数据湖仓一体功能是最佳的。Oracle Autonomous Data WarehouseOracle Machine Learning 轻松集成,帮助客户在预处理阶段更好地准备和理解数据。Oracle Machine Learning 还支持将数据导出到 Jupyter Notebooks,使数据科学家能够将 Oracle 的数据库内机器学习与其他常用数据科学库相结合。Oracle Machine Learning 具有许多优势,包括:易于安装、使用数据库内计算、降低管理开销、面向 SQL 的跨用途强大且可扩展的数据库计算、基于 Python 的大规模分析。

借助 Oracle Machine Learning ,客户可以安装和测试各种基于 Python 的库(包括 Panda、NumPy),运行现有的 Julia 应用,并进行大规模分析。Oracle Machine Learning 还具有自动模型部署功能,在培训和简化部署过程后,模型可以立即用于在应用程序或分析仪表盘中进行评分。客户无需重构代码即可将相同的 Python UDF 和 UDTF 以及从 Snowflake 的相同 SQL 查询移植到 Oracle Autonomous Data Warehouse 。对于机器学习模型,客户使用 AutoML 功能,极大地简化了模型训练流程,允许具有最小机器学习体验的用户实现所需的准确性,并从医疗设备数据中生成洞察。

在 OCI 上使用 GPU 计算的 AI 应用:

OCI 通过基于 Nvidia 和 AMD GPU 的前沿云基础设施为 AI 应用提供卓越性能。OCI 通过模型训练、推理和 AI 分析帮助加速 AI 解决方案。OCI 与 Nvidia 合作,将 Nvidia Nemo 引入生成式 AI 的端到端开发,并使用 Nvidia 推理微服务 (NIM) 加快 AI 模型的 AI 推理。为了在 OCI AI 基础设施上运行 AI 应用,OCI 使用定制的可扩展 Terraform 堆栈(包括各种存储选件)部署具有 HPC Slurm 集群或 Oracle Cloud Infrastructure Kubernetes EngineOCI Kubernetes Engine 或 OKE)的 GPU 计算实例。

基于 AI 的医疗诊断和临床数据管理包括用于 EHR 数据、医学成像、临床数据和实验室结果的 NLP/LLM。Nvidia 应用框架(例如 BioNemo、MONAI、triton 推理服务器)以及 Cohere 提供了加快 AI 采用速度的解决方案。

数据科学记事本和集成:

This reference architecture uses the Oracle Cloud Infrastructure Data Science service, a fully managed platform for teams of data scientists to build, train, deploy, and manage machine learning (ML) models using Python with built-in framework like Pytorch, TensorFlow and other open-source framework of your choice.此服务可用于创建与 GitHub 内置集成的基于 Jupyter 的开源开发环境。Nvidia A10 GPU 计算可用于训练 LLM 模型,构建与 mlfow 集成的 MLOps 管道,最后,从 Notebook 部署到可扩展的低延迟推断安全端点并监视模型性能。客户可以选择在裸金属或虚拟实例上使用各种受支持的 Nvidia GPU 来大规模训练和部署 AI 模型。

备份和灾难恢复:

对于医疗保健而言,客户数据保护和可用性非常重要。由于各种法规,数据必须受到保护,并按需提供。Oracle Autonomous Database 提供自动备份和恢复选项,支持您使用 Oracle Cloud Guard 创建副本数据库。数据库副本还可以用作数据库的只读备用副本,以减少主数据库的负载,从而提高数据库性能和负载平衡。

安全和访问管理:

此架构使用架构的所有层中的网络、数据和应用安全功能实施 OCI Zero Trust 安全优秀实践。为了实现网络安全,使用虚拟云网络 (Virtual Cloud Network,VCN) 在专用网络中实施计算,并使用安全列表 (Security List,SL) 和网络安全组 (Network Security Group,NSG) 应用流量筛选器。始终对静态数据 (AES256) 和传输中数据 (TLS 2.0) 进行加密,并轻松管理客户提供的证书。

Oracle Autonomous Database 附带的 Oracle Data Safe 提供了一个统一的控制中心,可帮助管理 Oracle 数据库的日常安全性和合规性要求。Oracle Data Safe 提供医疗卫生行业所需的高级数据安全功能,例如数据屏蔽、数据混淆、活动审计和 SQL 防火墙管理。

Oracle Cloud Infrastructure Identity and Access Management ( OCI Identity and Access Management ) 实施了最低权限原则,并使用身份对最终用户访问进行 OAuth 2.0 验证。它可以安全地提供高级功能,例如多因素身份验证和基于令牌的身份验证 (JWT)。

下图说明了此引用体系结构。



oci-ai-healthcare_arch-oracle.zip

该体系结构具有以下组件:

  • API 网关

    使用 Oracle Cloud Infrastructure API Gateway ,您可以发布具有可从网络内访问的专用端点的 API,并根据需要向公共互联网公开这些 API。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。

  • 对象存储

    Oracle Cloud Infrastructure Object Storage 支持您快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以直接从互联网或云平台安全地存储和检索数据。您可以在不降低性能或服务可靠性的情况下扩展存储。将标准存储用于需要快速、立即和频繁访问的“热”存储。将归档存储用于长期保留、很少访问或很少访问的“冷”存储。

  • Web 应用程序防火墙 (WAF)

    Oracle Cloud Infrastructure Web Application Firewall (WAF) 是一项符合支付卡行业 (PCI) 标准、基于区域和边缘的实施服务,它连接到实施点,例如负载平衡器或 Web 应用程序域名。WAF 可保护应用免受恶意和不需要的互联网流量攻击。WAF 可以保护任何面向互联网的端点,并在客户应用之间实施一致的规则。

  • 动态路由网关 (DRG)

    DRG 是虚拟路由器,用于为同一区域中的 VCN 之间、VCN 与区域外的网络(例如另一个 Oracle Cloud Infrastructure 区域中的 VCN、内部部署网络或另一个云提供商中的网络)之间的专用网络流量提供路径。

  • 安全列表

    对于每个子网,可以创建安全规则来指定必须允许进出子网的通信的源、目标和类型。

推荐

使用以下建议作为起点。您的要求可能与此处所述的体系结构不同。
  • OCI 数据集成是一项完全托管的多租户服务,可帮助数据工程师和开发人员处理数据移动和数据加载任务。该解决方案可以使用数据集成数据加载服务将数据摄取到对象存储的暂存区域并将其加载到暂存区域中,从而实现低成本、持久且高度可扩展的长期数据保留。可以使用安全的 FTP、MLP 上的 HL7v2 和标准的快速医疗保健互操作性资源 (Fast Healthcare Interoperability Resources,FHIR) Web 服务进行批量数据传输。可以进一步处理、准备和整理暂存数据,以便通过 Web 界面和即席查询填充到 Oracle Autonomous Data Warehouse 数据库中,供应用和用户使用。

    通过 Spark ETL 或 ELT 流程,您可以从各种数据资产中摄取大量数据,包括清理、转换、重塑和高效加载到 Oracle Autonomous Data WarehouseOracle Autonomous Data Warehouse 数据库是业界先进的全托管自动化数据库,适用于分析工作负载,包括数据集市、数据仓库和数据湖。它可以自我调优,并提供自动预配、打补丁和维护,从而优化性能

    可以使用 Oracle Cloud Infrastructure Data Science 服务分析更多数据。可以使用高性能的低成本 GPU 计算构建、训练和部署 AI 模型。构建定制传出 Web 挂钩是为了使用安全的端点和身份服务向最终用户推送数据资产。

  • 使用专用虚拟云网络部署服务,并使用安全列表和 NSG 来限制意外访问。
  • 使用 OCI Identity and Access Management 应用最少权限和基于角色的访问控制的主体。
  • 通过 OCI API 网关,您可以发布具有专用端点的 API,这些端点可从网络内访问,并且可以根据需要向公共互联网公开。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。
  • OCI 确保符合 HIPAA 和 FedRAMP 等主要标准,为保护敏感数据奠定了安全基础。
  • 使用开源技术,避免供应商锁定 OCI(例如 LangChain、REST API、Functions)并基于 OCI 构建抽象层,从而加速创新和转型。

确认

  • 授权者Gautam Karmakar, Animesh Sahay
  • 贡献者Ruzhu Chen