Despliegue los recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure

Las demandas de las cargas de trabajo de computación paralela de la simulación y el modelado ahora se pueden gestionar de forma rentable en la nube.

Despliegue recursos informáticos de alto rendimiento (HPC) en una red en la nube de ancho de banda alto y baja latencia con un rendimiento que rija las redes de HPC locales, pero con las ventajas operativas y de costo que ofrece la computación en la nube.

La red del cluster es una tecnología de Oracle Cloud Infrastructure que permite a las instancias de HPC comunicarse con una red de ancho de banda alto y baja latencia. Cada nodo del cluster es un equipo con hardware dedicado ubicado en la proximidad física al resto de nodos. Las redes de acceso directo a memoria (RDMA) remoto entre nodos ofrecen una latencia inferior a dos microsegundos y se pueden comparar con clusters de HPC locales. Oracle utiliza RDMA sobre protocolo Ethernet convergente o RoCEv2 para redes de cluster.

Las redes de cluster se han diseñado para cargas de trabajo informáticas paralelas con alta demanda, entre otras:

  • Simulaciones de flujos calculadas para modelado automático o aerospace

  • Simulación por caída

  • Análisis de riesgos y modelado financiero

  • Simulaciones biomédicas

  • Análisis y diseño de proyectos para exploración de espacio

  • Cargas de trabajo de big data e inteligencia artificial

Las redes de cluster son compatibles con lo siguiente:

  • Red virtual en la nube

    • Subred pública

    • Subred privada

    • Gateway de Internet

    • Gateway de NAT

  • Nodos de Cálculo

    • Host de base en una subred pública

    • Nodos de cálculo de HPC en subred privada

Arquitectura

Esta arquitectura de referencia despliega un nodo bastion o head, que ejecuta el programador y se puede utilizar como un servidor bastion para acceder al cluster.

Puede crear un nodo de visualización, como una máquina virtual de GPU (VM) o una máquina con hardware dedicado, en función de sus requisitos. Se recomienda colocar el nodo de visualización en la subred pública. Las cargas de trabajo de HPC a menudo necesitan herramientas de visualización para un procesamiento anterior o posterior, supervisión o análisis de la salida de las simulaciones. Puede desplegar una estación de trabajo con NVIDIA GRIDenabled desde Oracle Cloud Marketplace.

Esta arquitectura se despliega mediante redes virtuales en la nube (VCN) públicas y privadas. La red del cliente puede acceder al nodo principal y al nodo de visualización solo mediante VPN de IPSec, Oracle Cloud Infrastructure FastConnect o Internet público.

La arquitectura utiliza una región con un dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura en una región con varios dominios de disponibilidad. Recomendamos que utilice subredes regionales para su despliegue, independientemente del número de dominios de disponibilidad.

Puede acceder a estas redes de cluster desde Oracle Cloud Marketplace o desplegarlas manualmente. En cualquier caso, recomendamos que se utilice la arquitectura de referencia de línea base y, a continuación, ajustarla para satisfacer sus requisitos específicos.

El siguiente diagrama ilustra esta arquitectura de referencia.



La arquitectura tiene los siguientes componentes:

  • Región

    Una región es un área geográfica localizada que consta de uno o varios dominios de disponibilidad. Las regiones son independientes de otras regiones y las distancias de los lienzos pueden separarlas (en países o continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes y independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los demás dominios de disponibilidad, lo que proporciona tolerancia ante fallos. Los dominios de disponibilidad no comparten infraestructura, como alimentación o enfriamiento, o la red de dominio de disponibilidad interna. Por lo tanto, es poco probable que un fallo en un dominio de disponibilidad afecte al resto de dominios de disponibilidad de la región.

  • Dominios de fallo

    Un dominio de fallos es una agrupación de hardware e infraestructura en un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con energía y hardware independientes. Cuando coloca instancias informáticas en varios dominios de fallos, las aplicaciones pueden tolerar fallos de servidor físico, mantenimiento del sistema y muchos fallos comunes de red y energía dentro del dominio de disponibilidad.

  • Red virtual en la nube (VCN) y subredes

    VCN es una red definida por software que se configura en una región de Oracle Cloud Infrastructure. Las VCN se pueden dividir en subredes, que pueden ser específicas de una región o de un dominio de disponibilidad. Las subredes específicas del dominio de disponibilidad y específicas de región pueden coexistir en el mismo VCN. Una subred puede ser pública o privada.

  • Host de base

    El host de base es una instancia informática que sirve como punto de entrada seguro y controlado a la topología desde fuera de la nube. El host bastion se provisiona normalmente en una zona desmilitarizada (DMZ). Le permite proteger recursos confidenciales al colocarlos en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un único punto de entrada conocido que puede supervisar y auditar con regularidad. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso a ellos.

  • Nodo de cluster de HPC

    El nodo principal aprovisiona y anula la provisión de estos nodos de cálculo, que son clusters con RDMAEnabled (red aislada de 100 gbps RoCE v2). Procesan los datos almacenados en el almacenamiento de archivos y devuelven los resultados al almacenamiento de archivos.

  • Nodo de visualización

    El nodo de visualización generalmente tiene una aplicación 2D o 3D instalada para representación visual y análisis de datos procesados por nodos de cluster de HPC.

  • Listas de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir en la subred o fuera de ella.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para desplegar recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure.

Los requisitos pueden diferir de la arquitectura descrita aquí.

  • VCN

    Cuando crea VCN, determine cuántas direcciones IP requieren los recursos de la nube en cada subred. Mediante la notación de enrutamiento entre dominios sin clase (CIDR), especifique una máscara de subred y un rango de direcciones de red lo suficientemente grande para las direcciones IP necesarias. Utilice un rango de direcciones que esté dentro del espacio de direcciones IP privadas estándar.

    Seleccione un rango de direcciones que no se superponga con la red local, de modo que pueda configurar una conexión entre VCN y la red local, si es necesario.

    Después de crear un VCN, no puede cambiar su rango de direcciones.

    Al diseñar las subredes, tenga en cuenta los requisitos de seguridad y flujo de tráfico. Conecte todos los recursos de un nivel o rol específicos a la misma subred, que puede servir como límite de seguridad.

    Utilice subredes regionales.

  • Listas de seguridad

    Utilice listas de seguridad para definir reglas de entrada y salida que se aplican a toda la subred.

  • Nodo de Basación

    Utilice la forma de VM.Standard.2.8 Compute. Dado que el nodo se utiliza como un host bastion y para programar trabajos de HPC, no requiere un procesamiento de GPU o almacenamiento conectado localmente.

  • Nodo de visualización Utilice la forma de VM.GPU3.2 Compute porque este nodo se utiliza para la visualización y es probable que se haya instalado con una aplicación que utilice un gráfico.
  • Nodo de cluster de HPC

    Utilice la forma de BM.HPC2.36 Compute. Esta unidad tiene 36 núcleos de dos procesadores 3.7GHz Intel Xeon Gold 6154, 384-GB RAM y almacenamiento local de 6.4-TB NVME. Mediante el uso de GPU NVIDIA potentes disponibles en Oracle Cloud Infrastructure, puede procesar posteriormente los resultados en la nube mediante una visualización remota.

Consideraciones

Al desplegar recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure, tenga en cuenta estas opciones de implantación.

  • Rendimiento

    Para obtener el mejor rendimiento, elija la forma de cálculo correcta con el ancho de banda adecuado.

  • Disponibilidad

    Puede utilizar una opción de alta disponibilidad basada en los requisitos de despliegue y la región. Las opciones incluyen el uso de varios dominios de disponibilidad en una región y dominios de errores.

  • Costo

    Una instancia de GPU con hardware dedicado proporciona la potencia de CPU necesaria para un costo superior. Evalúe sus requisitos para elegir la forma de cálculo adecuada.

  • Control y Alertas

    Configure el control y las alertas sobre el uso de CPU y memoria de los nodos, para que pueda ampliar la forma hacia arriba o hacia abajo según sea necesario.

Desplegar

Una pila de Terraform para desplegar esta arquitectura de referencia está disponible como pila en Oracle Cloud Marketplace.

  1. Vaya a Oracle Cloud Marketplace.
  2. Haga clic en Obtener aplicación.
  3. Siga las indicaciones de la pantalla.