Desplegar recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure

Las demandas de cargas de trabajo informáticas paralelas en simulación y modelado ahora se pueden gestionar de manera rentable en la nube.

Despliegue recursos informáticos de alto rendimiento (HPC) en una red en la nube de alto ancho de banda y baja latencia con un rendimiento que compita con el de las redes HPC locales, pero con las ventajas operativas y de costo que ofrece la computación en la nube.

Cluster Networking es una tecnología Oracle Cloud Infrastructure que permite a las instancias de HPC comunicarse con una red de alta anchura de banda y baja latencia. Cada nodo del cluster es una máquina de hardware dedicado ubicada en proximidad física cercana a los demás nodos. La red de acceso directo a memoria remoto (RDMA) entre nodos proporciona una latencia inferior a dos microsegundos y es comparable a los clusters HPC locales. Oracle utiliza RDMA mediante Ethernet convergente o RoCEv2 Protocol para redes de cluster.

Las redes de cluster están diseñadas para cargas de trabajo informáticas paralelas muy exigentes, incluidas las siguientes:

  • Simulaciones de la dinámica informática de fluidos para la creación de modelos automotrices o aeroespaciales

  • Simulación de fallos

  • Modelado financiero y análisis de riesgos

  • Simulaciones biomédicas

  • Análisis y diseño Trayectorio para la exploración espacial

  • Inteligencia artificial y cargas de trabajo de big data

Las redes de cluster están soportadas en lo siguiente:

  • Red virtual en la nube

    • Subred pública

    • Subred privada

    • Gateway de internet

    • Gateway de NAT

  • Nodos de Cálculo

    • Host de base en una subred pública

    • Nodos de cálculo de HPC en subred privada

Arquitectura

Esta arquitectura de referencia despliega un bastión o nodo principal, que ejecuta el programador y se puede utilizar como servidor bastion para acceder al cluster.

Puede crear un nodo de visualización, como una máquina virtual de GPU (VM) o una máquina con hardware dedicado, en función de sus necesidades. Recomendamos colocar el nodo de visualización en la subred pública. Las cargas de trabajo de HPC a menudo requieren herramientas de visualización para pre- o post-procesamiento, monitoreo o análisis de la salida de las simulaciones. Puede desplegar una estación de trabajo habilitada para GRID de NVIDIA desde Oracle Cloud Marketplace.

Esta arquitectura se despliega mediante redes virtuales en la nube públicas y privadas (VCN). La red de clientes solo puede acceder al nodo principal y al nodo de visualización a través de IPSec VPN, Oracle Cloud Infrastructure FastConnect o Internet público.

La arquitectura utiliza una región con un dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura en una región con varios dominios de disponibilidad. Recomendamos que utilice subredes regionales para su despliegue, independientemente del número de dominios de disponibilidad.

Puede acceder a estas redes de cluster desde Oracle Cloud Marketplace o desplegarlas manualmente. En cualquier caso, recomendamos utilizar la arquitectura de referencia de referencia de referencia y, a continuación, ajustarla para satisfacer sus necesidades específicas.

El siguiente diagrama ilustra esta arquitectura de referencia.



hpc-oci-architecture.zip

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones, y grandes distancias pueden separarlas (entre países o incluso continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes e independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como energía o refrigeración, o la red de dominio de disponibilidad interna. Por lo tanto, es poco probable que un fallo en un dominio de disponibilidad afecte a los otros dominios de disponibilidad de la región.

  • Dominios de Fallos

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con energía y hardware independientes. Cuando distribuye recursos entre varios dominios de errores, las aplicaciones pueden tolerar errores de servidor físico, mantenimiento del sistema y errores de energía dentro de un dominio de errores.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las VCN le proporcionan un control completo sobre su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden asignar a una región o a un dominio de disponibilidad. Cada subred consta de un rango contiguo de direcciones que no se superponen con las otras subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Host de Bastion

    El host bastion es una instancia informática que sirve como punto de entrada seguro y controlado a la topología desde fuera de la nube. El host bastión se aprovisiona típicamente en una zona desmilitarizada (DMZ). Permite proteger los recursos sensibles colocándolos en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un punto de entrada único y conocido que puede supervisar y auditar regularmente. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso a ellos.

  • Nodo de cluster HPC

    Los aprovisionamientos de nodo principal y las deprovisiones de estos nodos de cálculo, que son clusters habilitados para RDMA (red aislada RoCE v2 de 100 gbps). Procesan los datos almacenados en el almacenamiento de archivos y devuelven los resultados al almacenamiento de archivos.

  • Nodo de visualización

    El nodo de visualización generalmente tiene una aplicación 2D o 3D instalada para la representación visual y el análisis de los datos procesados por los nodos de cluster HPC.

  • Lista de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, destino y tipo de tráfico que se debe permitir dentro y fuera de la subred.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para desplegar la computación de alto rendimiento (HPC) en Oracle Cloud Infrastructure.

Sus requisitos pueden diferir de la arquitectura descrita aquí.

  • VCN

    Al crear un VCN, determine el número de bloques CIDR necesarios y el tamaño de cada bloque en función del número de recursos que tiene previsto asociar a subredes en VCN. Utilice bloques CIDR que estén dentro del espacio de direcciones IP privadas estándar.

    Seleccione bloques CIDR que no se superpongan con ninguna otra red (en Oracle Cloud Infrastructure, el centro de datos local u otro proveedor de nube) a la que desea configurar conexiones privadas.

    Después de crear un VCN, puede cambiar, agregar y eliminar sus bloques CIDR.

    Cuando diseñe las subredes, tenga en cuenta sus requisitos de flujo de tráfico y seguridad. Conecte todos los recursos dentro de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.

    Utilice subredes regionales.

  • Listas de seguridad

    Utilice listas de seguridad para definir reglas de entrada y salida que se aplican a toda la subred.

  • Nodo de base

    Utilice la forma de VM.Standard.2.8 Compute. Dado que el nodo se utiliza como host bastión y para programar trabajos HPC, no requiere almacenamiento conectado localmente ni procesamiento de GPU.

  • Nodo de visualización Utilice la forma de VM.GPU3.2 Compute porque este nodo se utiliza para la visualización y es probable que se instale con una aplicación intensiva en gráficos.
  • Nodo de cluster HPC

    Utilice la forma de BM.HPC2.36 Compute. Esta forma tiene 36 núcleos de dos procesadores 3.7GHz Intel Xeon Gold 6154, 384-GB RAM y 6.4-TB NVME local storage. Mediante el uso de potentes GPU NVIDIA disponibles en Oracle Cloud Infrastructure, puede posprocesar los resultados en la nube mediante la visualización remota.

Consideraciones

Al desplegar computación de alto rendimiento (HPC) en Oracle Cloud Infrastructure, tenga en cuenta estas opciones de implantación.

  • Rendimiento

    Para obtener el mejor rendimiento, elija la forma de cálculo correcta con el ancho de banda adecuado.

  • Disponibilidad

    Considere la posibilidad de utilizar una opción de alta disponibilidad en función de los requisitos de despliegue y la región. Las opciones incluyen el uso de varios dominios de disponibilidad en una región y dominios con fallos.

  • Costo

    Una instancia de GPU con hardware dedicado proporciona la energía de CPU necesaria para un costo más alto. Evalúe sus requisitos para elegir la forma informática adecuada.

  • Supervisión y alertas

    Configure la supervisión y las alertas sobre el uso de CPU y memoria para los nodos, de modo que pueda escalar la forma hacia arriba o hacia abajo según sea necesario.

Desplegar

Una pila de Terraform para desplegar esta arquitectura de referencia está disponible como una pila en Oracle Cloud Marketplace. También puede descargar el código de GitHub y personalizarlo según sus necesidades.

  • Realice el despliegue con la pila en Oracle Cloud Marketplace:
    1. Vaya a Oracle Cloud Marketplace.
    2. Haga clic en Obtener aplicación.
    3. Siga las indicaciones de la pantalla.
  • Despliegue con el código en GitHub:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en su equipo local.
    3. Siga las instrucciones del documento README.

Log de Cambios

Este log muestra los cambios significativos: