关系治疗:基于 Oracle Cloud 的 HPC 生物技术分析平台

为了更好地了解疾病的原因,并帮助发现新颖的方法来治疗这些疾病,并减少不成功的药物开发计划,关系治疗 (RelationRx) 使用基于图形的建议引擎来映射人类遗传学、单细胞特征和功能基因组之间的关系。

通过在 Oracle Cloud Infrastructure (OCI) 上的高性能计算集群中运行生物技术分析平台,RelationRx 将应用数据科学和机器学习方法来快速确定驱动疾病的因果关系。

这家总部位于伦敦的初创公司成立于 2019 年,目前正在与比尔和梅琳达·盖茨基金会合作,以确定由 COVID-19 产生的免疫并发症的治疗候选人。该公司还与米拉 AI 研究所 (Mila AI Research Institute) 和 G3 治疗专家合作,专注于深度分子剖析、DNA 甲基化、RNA 测序、蛋白质组学、代谢学和脂质学。

自从将平台迁移到 OCI 后,RelationRx 构建了一个数据网格架构,这有助于生物技术启动为工程师和数据科学家提供数据。因此,RelationRX 数据科学家能够共享工程团队构建的计算和基础设施,同时仍保持对数据的所有权,并使用 Oracle Cloud Infrastructure Identity and Access Management、策略和组控制访问。

关系治疗架构的独特方面是:

  • 裸金属和高性能计算 (High-Performance Computing,HPC) 资源的应用
  • 使用基于 NVMe 的存储可容纳多达几十 TB 的数据,从而确保任何数据访问延迟都不会减慢服务器速度
  • 通过基于蓝图构建环境,可以一致地创建新的设置
  • 使用数据网格设计原则进行数据管理

RelationRx 的 OCI 采用不仅是因为 OCI 满足了所有技术需求,而且 Oracle 团队对初创企业有着极大的了解,对相应人员和资源的支持,以及对 RelationRx 在其他地方无法满足的需求的高度关注。

体系结构

该架构的核心是 Relation Therapeutics 的高性能计算 (High-Performance Computing,HPC) 和裸金属服务器应用,为数据科学和机器学习流程提供支持。

为了充分利用这些功能,关系治疗目前在伦敦和法兰克福两个地区摄取数据并管理计算机资源,以及伦敦的数据采集和数据科学流程以及法兰克福的机器学习 (ML)。数据集从实验室、供应商和其他公共来源收集。关系治疗通过提取、转换和加载 (ETL) 管道来运行传入数据,该管道可以清理、标准化数据,并在必要时匿名化数据。数据科学服务用于帮助确定可能需要进一步清理的任何数据问题。分析功能还用于帮助开发机器学习处理的要求。收集和准备的数据随后与知识槽关联,并存储在公司的数据湖中。从那里,数据通过公司的机器学习管道运行,分析并用于推断或运行其他实验。

伦敦地区总共包含四个关键私人子网:

  1. 数据科学系统,包括一个裸金属服务器
  2. ETL 文件系统,包含三个具有自动缩放的 VM 和一个实例池
  3. 服务集群,包括容器、Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE)、持久性卷和域名服务器 (DNS)
  4. 开发和测试集群,为数据科学家提供一台虚拟机和一台裸金属计算服务器

已摄取和准备使用的数据保存在数据网格体系结构叠加的数据湖中。数据网格方法意味着数据可以由“拥有”数据的团队来管理,而不是需要一个专门的数据工程团队。这些设计概念有助于在使用 OCI 服务时灵活地交付和使用数据。

在法兰克福地区,关系治疗机器学习用户使用配置的虚拟专用网络 (Virtual Private Network,VPN) 将办公室连接到 OCI,访问 OCI 上的虚拟云网络 (VCN)。通过 Oracle Cloud Infrastructure Identity and Access Management 验证用户后,他们可以使用 OCI 中提供的服务。环境使用通用模板(或主题)来提供研究所需的核心资源。定义了此核心模板,使其可以自动缩放,从而驻留在自己的专用子网中,从而为服务提供控制和安全。核心服务集群包含虚拟机、高性能存储、域名系统服务器 (Domain Name System Server,DNS) 和 OKE 以及容器,可执行机器学习和分析流程。用户可以使用任何其他技术和数据资源(例如,通过使用单独的服务子网)来补充模板。

这些资源的管理是通过占用其自己的子网的堡垒服务器。堡垒用于访问和管理高性能计算集群。堡垒节点支持以下各项:

  1. 计算节点调度和动态突发控制
  2. 使用 NFS 文件服务器将文件传输到 HPC 环境或从 HPC 环境中传输
  3. 集群管理
  4. 用户访问控制

为了支持新算法和其他机器学习负载的开发和实验,用户可以访问包含虚拟机和裸金属 GPU 的测试和暂存环境。这些环境经过持续集成和连续开发 (Continuous Integration and Continuous Development,CI/CD) 功能补充。非生产环境也有其自己的子网,并且大小可以与可运行几十 TB 数据的生产数据集的一个小子集一起运行。这些环境包括使用两个裸金属服务器,其中包含八个 Nvidia Tesla A100 GPU。

为了管理工作负载,用于管理 HPC 服务的开源软件 SLURM 位于堡垒服务器上,并根据用户作业要求启动相应数量的计算实例来运行 HPC 负载。完成作业执行后,如果队列中没有其他作业等待相同资源,SLURM 会自动终止计算实例。通过该体系结构的动态突发功能,研究人员可以立即使用所需的计算节点,而只需为使用的资源付费。根据用户要求,可以从 OCI 提供的各种虚拟机中选择堡垒节点,从低成本的 VM.Standard.E3.Flex 开始。

关系治疗执行的数据处理遵循自然序列:



此流程显示在以下体系结构图中,其中包含图表下半部分的子网中的生产流以及下半部分的子网中的支持流程。



relationship-therapeutics-oci-oracle.zip

该体系结构具有以下组成部分:

  • 租户

    租户是您注册 Oracle Cloud Infrastructure 时 Oracle 在 Oracle Cloud 中设置的安全隔离分区。您可以在租户内的 Oracle Cloud 中创建、组织和管理资源。租户与公司或组织同义。通常,公司有一个租户,并反映公司在该租户中的组织结构。一个租户通常与一个订阅关联,一个订阅通常只有一个租户。

  • 区域

    Oracle Cloud Infrastructure 区域是一个局部地理区域,其中包含一个或多个数据中心,称为可用性域。区域独立于其他区域,而广阔的距离可以分离它们(跨国家甚至大陆)。

  • 身份和访问管理 (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud 应用程序的访问控制层。IAM API 和用户界面使您可以管理身份域和身份域中的资源。每个 OCI IAM 身份域代表一个独立的身份和访问管理解决方案或其他用户群体。

  • 策略

    Oracle Cloud Infrastructure Identity and Access Management 策略指定谁可以访问哪些资源以及如何访问哪些资源。在组和区间级别授予了访问权限,这意味着您可以编写策略向组授予特定区间或租户中特定类型的访问权限。

  • 注销
    日志记录是一项高度可扩展且完全托管的服务,您可以从云中的资源访问以下类型的日志:
    • 审计日志:与审计服务发出的事件相关的日志。
    • 服务日志:各个服务发出的日志,例如 API 网关、事件、事件、函数、负载平衡、对象存储和 VCN 流日志。
    • 定制日志:包含来自定制应用程序、其他云提供商或内部部署环境的诊断信息的日志。
  • 注册表

    Oracle Cloud Infrastructure Registry 是一个由 Oracle 管理的注册表,可用于简化开发到生产的工作流。通过注册表,您可以轻松地存储、共享和管理开发构件,例如 Docker 映像。Oracle Cloud Infrastructure 的高可用性和可扩展性架构可确保您能够可靠地部署和管理应用。

  • 虚拟云网络 (VCN) 和子网

    VCN 是可在 Oracle Cloud Infrastructure 区域中设置的可定制的软件定义网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。VCN 可以具有多个不可重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 分段到子网,这些子网可以限定到区域或可用性域。每个子网包含一个连续的地址范围,这些地址与 VCN 中的其他子网不重叠。您可以在创建子网后更改其大小。子网可以是公共子网,也可以是专用子网。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许传入和传出子网的通信的源、目标和类型。

  • 动态路由网关 (DRG)

    DRG 是一个虚拟路由器,它提供同一区域、同一 VCN 与区域之外的网络(例如另一个 Oracle Cloud Infrastructure 区域中的 VCN、内部部署网络或其他云提供商中的网络)之间的专用网络通信路径。

  • 服务网关

    通过服务网关,可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage。从 VCN 到 Oracle 服务的流量通过 Oracle 网络结构传输,永远不会经过互联网。

  • 网络地址转换 (network address translation,NAT) 网关

    NAT 网关允许 VCN 中的专用资源访问互联网上的主机,同时不会向传入的互联网连接公开这些资源。

  • Container Engine for Kubernetes

    Oracle Cloud Infrastructure Container Engine for Kubernetes 是一款完全托管、可扩展且高度可用的服务,可用于将容器化应用部署到云端。您可以指定应用所需的计算资源,Container Engine for Kubernetes 将其预配在现有租户的 Oracle Cloud Infrastructure 上。Container Engine for Kubernetes 使用 Kubernetes 自动在主机集群中部署、扩展和管理容器化应用。

  • 计算

    Oracle Cloud Infrastructure Compute 服务允许您在云中预配和管理计算主机。您可以通过配置启动计算实例,以满足 CPU、内存、网络带宽和存储的资源需求。创建计算实例后,您可以安全地访问它,重新启动它,连接和分离卷,并在不再需要时终止它。

  • 裸金属

    Oracle 裸金属服务器使用专用计算实例提供隔离、监视和控制。服务器支持需要大量核心、大量内存和高带宽的应用程序。它们可以扩展到 160 个内核(业内规模最大的)、2 TB RAM 和 1 PB 块存储。与其他公共云和内部部署数据中心相比,客户可以在 Oracle 裸金属服务器上构建云环境。

  • 远程对等连接

    通过远程对等连接,VCN 的资源无需通过互联网或内部部署网络路由流量,即可使用专用 IP 地址进行通信。远程对等连接可消除需要与其他区域中的其他 VCN 通信的实例的互联网网关和公共 IP 地址需求。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及丰富的内容(例如图像和视频)。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以在不降低性能或服务可靠性的情况下无缝扩展存储。将标准存储用于需要快速、立即和频繁访问的“热”存储。将归档存储用于长时间保留的“冷”存储,很少或很少访问。

获得内置和部署的特色功能

想展示您在 Oracle Cloud Infrastructure 上构建的内容?我们愿意与全球云架构社区分享您学到的经验、优秀实践和参考架构?让我们帮助您开始。

  1. 下载模板 (PPTX)

    将图标拖放到示例线框中,说明您自己的参考体系结构。

  2. 观看体系结构教程

    获取有关如何创建引用体系结构的逐步说明。

  3. 提交您的图表

    请向我们发送一封包含您的图表的电子邮件。我们的云架构师将查看您的图表,并与您联系以讨论您的架构。

确认

  • Authors:Sasha Banks-Louie
  • 贡献者:Phil Wilkins Robert Lies