Terapéutica de relación: plataforma de análisis de biotecnología HPC en Oracle Cloud

Para comprender mejor las causas de las enfermedades y ayudar a descubrir nuevas formas de tratar esas enfermedades, y para reducir el número de programas de desarrollo de fármacos fallidos, Relation Therapeutics (RelationRx) utiliza un motor de recomendaciones basado en gráficos para mapear las relaciones entre genética humana, perfiles de células únicas y genómica funcional.

Al ejecutar su plataforma de análisis de biotecnología en un cluster de computación de alto rendimiento en Oracle Cloud Infrastructure (OCI), RelationRx aplica métodos de ciencia de datos y aprendizaje automático para determinar rápidamente las relaciones causales que impulsan las enfermedades.

Fundada en 2019, la startup con sede en Londres está trabajando actualmente con The Bill y Melinda Gates Foundation para identificar candidatos terapéuticos para complicaciones inmunes derivadas de COVID-19. La compañía también está trabajando con Mila AI Research Institute y G3 Therapeutics, centrándose en perfiles moleculares profundos, metilación de ADN, secuenciación de ARN, proteómica, metabolómica y lipidómica.

Desde que trasladó su plataforma a OCI, RelationRx ha creado una arquitectura de malla de datos, que ayuda al inicio de la biotecnología a poner los datos a disposición de ingenieros y científicos de datos. Como resultado, los científicos de datos de RelationRX han podido compartir los recursos informáticos y la infraestructura creadas por el equipo de ingeniería, a la vez que mantienen la propiedad sobre los datos y, a continuación, controlan el acceso mediante Oracle Cloud Infrastructure Identity and Access Management, las políticas y los grupos.

Los aspectos únicos de la arquitectura de la terapéutica de relación son:

  • Aplicación de recursos informáticos con hardware dedicado y de alto rendimiento (HPC)
  • El uso del almacenamiento basado en NVMe para alojar hasta decenas de terabytes de datos de modo que los servidores no se ralenticen por la latencia de acceso a los datos.
  • La creación de entornos basados en un plan detallado permite la creación de nuevas configuraciones de forma coherente
  • Gestión de datos mediante principios de diseño de malla de datos

La adopción de OCI por RelationRx se vio impulsada no solo por el hecho de que OCI satisface todos sus requisitos técnicos, sino también por la excepcional comprensión del equipo de Oracle de las empresas emergentes, su apoyo a las personas y recursos adecuados, y un nivel de atención a las necesidades de RelationRx que no está disponible en ningún otro lugar.

Arquitectura

El núcleo de la arquitectura es la aplicación de Relation Therapeutics de los servidores de recursos informáticos de alto rendimiento (HPC) y con hardware dedicado para impulsar sus procesos de ciencia de datos y aprendizaje automático.

Para aprovechar al máximo estas capacidades, Relation Therapeutics actualmente ingiere datos y gestiona los recursos informáticos en dos regiones, Londres y Frankfurt, con los procesos de ingestión de datos y ciencia de datos en Londres y el aprendizaje automático (ML) en Frankfurt. Los juegos de datos se recopilan de laboratorios, proveedores y otros orígenes públicos. Relation Therapeutics ejecuta los datos entrantes a través de su pipeline de extracción, transformación y carga (ETL) que limpia, estandariza y, cuando es necesario, anonimiza los datos. Los servicios de ciencia de datos se utilizan para ayudar a identificar cualquier problema de datos que pueda requerir una mayor limpieza. Las capacidades de análisis también se utilizan para ayudar a desarrollar los requisitos para el procesamiento del AA. Los datos ingeridos y preparados se enlazan a continuación a un canal de conocimientos y se almacenan en el lago de datos de la compañía. A partir de ahí, los datos se ejecutan a través del pipeline de aprendizaje automático de la compañía donde se analiza y utiliza para hacer inferencias o para llevar a cabo experimentos adicionales.

La región de Londres en total consta de cuatro subredes privadas clave:

  1. Sistemas de ciencia de datos, incluido un servidor con hardware dedicado
  2. Sistema de archivos ETL, que contiene tres máquinas virtuales con ampliación automática y un pool de instancias
  3. Cluster de servicios, que incluye contenedores, Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE), volumen persistente y un servidor de nombres de dominio (DNS)
  4. Desarrollo y prueba del cluster, que proporciona a los científicos de datos una máquina virtual y un servidor de recursos informáticos con hardware dedicado

Los datos preparados que se han ingerido y leído para su uso se incluyen en un lago de datos superpuesto con una arquitectura de malla de datos. El enfoque de malla de datos significa que los datos pueden ser gestionados por los equipos que "poseen" los datos en lugar de necesitar que haya un equipo dedicado de ingeniería de datos. Estos conceptos de diseño ayudan a proporcionar agilidad y flexibilidad en la entrega y el uso de los datos mientras se utilizan los servicios de OCI.

En la región de Frankfurt, los usuarios de aprendizaje automático Relation Therapeutics acceden a una red virtual en la nube (VCN) en OCI mediante una red privada virtual (VPN) configurada que conecta sus oficinas a OCI. Una vez que los usuarios se han autenticado mediante Oracle Cloud Infrastructure Identity and Access Management, pueden trabajar con los servicios proporcionados en OCI. Los entornos funcionan a partir de una plantilla (o motivo) común que proporciona los recursos básicos necesarios para la investigación. Esta plantilla principal se define de modo que se pueda ampliar automáticamente y que resida en su propia subred privada, proporcionando así control y seguridad a los servicios. Los clusters de servicios principales contienen máquinas virtuales, almacenamiento de alto rendimiento, servidor del sistema de nombres de dominio (DNS) y OKE con contenedores para realizar procesos analíticos y de aprendizaje automático. Los usuarios pueden complementar la plantilla con cualquier recurso técnico y de datos adicional que sea necesario, como bases de datos, mediante el uso de una subred de servicios independiente.

La gestión de estos recursos se realiza a través de un servidor bastión que ocupa su propia subred. El bastión se utiliza para acceder y gestionar los clusters informáticos de alto rendimiento. El nodo bastión admite lo siguiente:

  1. Programación de nodos informáticos y control de repartición dinámico
  2. Transferencia de archivos hacia y desde entornos de HPC mediante servidores de archivos NFS
  3. Gestión de la administración de clusters
  4. Control de acceso de usuario

Para respaldar el desarrollo y la experimentación con nuevos algoritmos y otras cargas de trabajo de aprendizaje automático, los usuarios tienen acceso a entornos de prueba y temporales que contienen tanto máquinas virtuales como GPU con hardware dedicado. Estos entornos se complementan con capacidades de integración y desarrollo continuo (CI/CD). Los entornos que no son de producción también tienen sus propias subredes y tienen un tamaño para funcionar con un pequeño subconjunto de un juego de datos de producción que se puede ejecutar a decenas de terabytes de datos. Estos entornos incluyen el uso de dos servidores con hardware dedicado que contienen ocho GPU Nvidia Tesla A100.

Para gestionar las cargas de trabajo, SLURM, el software de código abierto para gestionar servicios de HPC, reside en el servidor bastión e inicia el número adecuado de instancias informáticas para ejecutar la carga de trabajo de HPC en función de los requisitos del trabajo del usuario. Cuando finaliza la ejecución del trabajo, SLURM finaliza automáticamente las instancias informáticas si no hay otros trabajos en la cola que esperan recursos idénticos. Las capacidades de ráfaga dinámica de esta arquitectura permiten a los investigadores utilizar de inmediato los nodos informáticos necesarios, pagando solo por los recursos que se están utilizando. Según los requisitos del usuario, el nodo bastión se puede seleccionar de una amplia gama de máquinas virtuales que ofrece OCI, a partir de un VM.Standard.E3.Flex de bajo costo.

El procesamiento de datos realizado por Relation Therapeutics sigue una secuencia natural:



El proceso se muestra en el siguiente diagrama de arquitectura con el flujo de producción en las subredes de la parte inferior del diagrama y los procesos de soporte en las subredes de la mitad superior del diagrama.



relación-terapéutica-oci-oracle.zip

La arquitectura tiene los siguientes componentes:

  • arrendamiento

    Un arrendamiento es una partición segura y aislada que Oracle configura en Oracle Cloud al registrarse en Oracle Cloud Infrastructure. Puede crear, organizar y administrar sus recursos en Oracle Cloud en su arrendamiento. Un arrendamiento es sinónimo de una compañía u organización. Normalmente, una compañía tendrá un arrendamiento único y reflejará su estructura organizativa dentro de ese arrendamiento. Un único arrendamiento suele estar asociado a una única suscripción, y una única suscripción suele tener un solo arrendamiento.

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y las grandes distancias pueden separarse (entre países e incluso continentes).

  • Identity and access management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) es el plano de control de acceso de Oracle Cloud Infrastructure (OCI) y las aplicaciones de Oracle Cloud. La API de IAM y la interfaz de usuario permiten gestionar los dominios de identidad y los recursos del dominio de identidad. Cada dominio de identidad de OCI IAM representa una solución independiente de gestión de identidad y acceso o un grupo de usuarios diferente.

  • Política

    Una política de Oracle Cloud Infrastructure Identity and Access Management especifica quién puede acceder a qué recursos y cómo. El acceso se otorga en el nivel de grupo y compartimento, lo que significa que puede escribir una política que proporcione a un grupo un tipo específico de acceso dentro de un compartimento específico, o al arrendamiento.

  • Registro
    El registro es un servicio altamente escalable y totalmente gestionado que proporciona acceso a los siguientes tipos de logs de sus recursos en la nube:
    • Logs de auditoría: logs relacionados con eventos emitidos por el servicio de auditoría.
    • Logs de servicio: logs emitidos por servicios individuales como gateway de API, eventos, funciones, equilibrio de carga, almacenamiento de objetos y logs de flujo de VCN.
    • Logs personalizados: logs que contienen información de diagnóstico de aplicaciones personalizadas, otros proveedores de nube o un entorno local.
  • Registro

    Oracle Cloud Infrastructure Registry es un registro gestionado por Oracle que permite simplificar el flujo de trabajo de desarrollo a producción. El registro facilita el almacenamiento, el uso compartido y la gestión de artefactos de desarrollo, como imágenes de Docker. La arquitectura altamente disponible y escalable de Oracle Cloud Infrastructure garantiza que puede desplegar y gestionar sus aplicaciones de forma fiable.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Lista de Seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Gateway de enrutamiento dinámico (DRG)

    El DRG es un enrutador virtual que proporciona una ruta para el tráfico de red privada entre las VCN de la misma región, entre una VCN y una red fuera de la región, como una VCN en otra región de Oracle Cloud Infrastructure, una red local o una red en otro proveedor en la nube.

  • Gateway de servicio

    El gateway de servicios proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico desde la VCN al servicio Oracle recorre el tejido de red de Oracle y no internet.

  • Gateway de traducción de direcciones de red (NAT)

    Un gateway de NAT permite que los recursos privados en una VCN accedan a los hosts en Internet, sin exponer dichos recursos a las conexiones de Internet entrantes.

  • Container Engine para Kubernetes

    Oracle Cloud Infrastructure Container Engine for Kubernetes es un servicio totalmente gestionado, escalable y disponible que puede utilizar para desplegar las aplicaciones en contenedores en la nube. Especifique los recursos informáticos que necesitan sus aplicaciones y Container Engine for Kubernetes los aprovisionará en Oracle Cloud Infrastructure en un arrendamiento existente. Container Engine for Kubernetes utiliza Kubernetes para automatizar el despliegue, el ajuste y la gestión de aplicaciones en contenedores en clusters de hosts.

  • Recursos informáticos

    El servicio Oracle Cloud Infrastructure Compute permite aprovisionar y gestionar hosts informáticos en la nube. Puede iniciar instancias informáticas con unidades que cumplan los requisitos de recursos para CPU, memoria, ancho de banda de red y almacenamiento. Después de crear una instancia informática, puede acceder a ella de forma segura, reiniciarla, asociar y desasociar volúmenes y terminarla cuando ya no la necesite.

  • Hardware dedicado

    Los servidores con hardware dedicado de Oracle proporcionan aislamiento, visibilidad y control mediante el uso de instancias de recursos informáticos dedicadas. Los servidores admiten aplicaciones que requieren recuentos de núcleos elevados, grandes cantidades de memoria y ancho de banda alto. Pueden ampliar hasta 160 núcleos (el más grande del sector), 2 TB de RAM y hasta 1 PB de almacenamiento de bloques. Los clientes pueden crear entornos en la nube en los servidores con hardware dedicado de Oracle, lo que mejoró el rendimiento con respecto a otras nubes públicas y centros de datos locales.

  • Intercambio de tráfico remoto

    El intercambio de tráfico remoto permite que los recursos de las VCN se comuniquen mediante direcciones IP privadas sin enrutar el tráfico a través de Internet o a través de la red local. El intercambio de tráfico remoto elimina la necesidad de un gateway de Internet y direcciones IP públicas para las instancias que necesitan comunicarse con otra VCN en una región diferente.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin problemas sin experimentar ninguna degradación del rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "en caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y a los que rara vez se accede o que rara vez se accede.

Consiga una posición destacada en Creación e implementación

¿Desea mostrar lo que ha creado en Oracle Cloud Infrastructure? ¿Le gustaría compartir sus lecciones aprendidas, mejores prácticas y arquitecturas de referencia con nuestra comunidad global de arquitectos en la nube? Ayúdanos a empezar.

  1. Descargar la plantilla (PPTX)

    Ilustrar su propia arquitectura de referencia arrastrando y soltando los iconos en el esquema de ejemplo.

  2. Ver el tutorial de arquitectura

    Obtenga instrucciones paso a paso sobre cómo crear una arquitectura de referencia.

  3. Enviar tu diagrama

    Envíenos un correo electrónico con su diagrama. Nuestros arquitectos en la nube revisarán su diagrama y se pondrán en contacto con usted para hablar sobre su arquitectura.

Confirmaciones

  • Autores: Sasha Banks-Louie
  • Colaborador: Robert Lies, Phil Wilkins