Computación de alto rendimiento

Los recursos informáticos de alto rendimiento (HPC) realizan cálculos y procesan datos complejos más rápido que los recursos informáticos tradicionales. HPC utiliza servidores con hardware dedicado, redes de cluster de latencia ultrabaja, opciones de almacenamiento de alto rendimiento y sistemas de archivos paralelos. Esta infraestructura permite el procesamiento paralelo para cargas de trabajo con un uso intensivo de recursos informáticos, como inteligencia artificial, aprendizaje profundo, análisis de datos, simulaciones científicas y cualquier otra carga de trabajo con un uso intensivo de recursos informáticos.

Introducción a los recursos informáticos de alto rendimiento

Puede crear una instancia de HPC de un solo nodo con el flujo de trabajo de creación de instancias estándar. Si desea utilizar varias instancias de HPC en un grupo de red RDMA, puede crearlas mediante Redes de cluster con pools de instancias o Clusters de recursos informáticos.

Uso de redes de cluster RDMA

Las redes de cluster de acceso directo a memoria remota (RDMA) son grupos de instancias de recursos informáticos de alto rendimiento (HPC), GPU u optimizadas que están conectadas con una red de ancho de banda alto y latencia ultrabaja. Cada nodo del cluster es un equipo con hardware dedicado ubicado en la proximidad física al resto de nodos. Una red remota de acceso directo a memoria (RDMA) entre nodos proporciona una latencia tan baja como microsegundos de un solo dígito, comparable a los cluster HPC locales.

Las redes de cluster están diseñadas para cargas de trabajo informáticas paralelas altamente exigentes. Por ejemplo:

  • Simulaciones de flujos de redes informáticas para la creación automática o aeroespacial de modelos
  • Análisis de riesgos y creación de modelos financieros
  • Simulaciones biomédicas
  • Análisis y diseño de proyectos para exploración de espacio
  • Cargas de trabajo de big data e inteligencia artificial

Oracle Cloud Infrastructure ofrece dos tipos de redes de cluster. En ambos casos, las redes son grupos de instancias con hardware dedicado que están conectadas a una red de latencia ultrabaja.

  • Las redes de cluster con pools de instancias permiten utilizar pools de instancias para gestionar grupos de instancias idénticas en el grupo de red de RDMA. Si desea una capacidad predecible para un número específico de instancias idénticas gestionadas como grupo, utilice redes de cluster con pools de instancias.
  • Los clusters de recursos informáticos permiten gestionar instancias en el cluster de forma individual. Cuando crea un cluster de recursos informáticos, crea un grupo de red de RDMA vacío. Una vez creado el grupo, puede agregar instancias al grupo o suprimir instancias del grupo. Si desea gestionar instancias en la red de RDMA de forma independiente o utilizar diferentes tipos de instancias en el grupo de red, utilice clusters de recursos informáticos.

Plugins de Oracle Cloud Agent para HPC

Oracle Cloud Infrastructure ofrece un plugin de agente en la nube específico para instancias con hardware dedicado de HPC a fin de simplificar la configuración y la autenticación de redes de HPC, así como para proporcionar un control especializado para recursos informáticos de alto rendimiento.

El plugin HPC está disponible para HPC en todas las regiones comerciales.

Unidades e imágenes soportadas para HPC
Unidad Imágenes soportadas Valor por Defecto
BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado en OCA 1.37.0 o superior
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado en OCA 1.37.0 o superior
BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Activado en OCA 1.37.0 o superior
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado en OCA 1.37.0 o superior
BM.HPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado en OCA 1.37.0 o superior
BM.Optimized3.36 Ubuntu 20.04+, OL7, OL8 Activado en OCA 1.37.0 o superior
Los submódulos del plugin de HPC se pueden activar o desactivar individualmente:
  • Configuración automática
    • Aplica la configuración de adaptador de red recomendada en las unidades de GPU
    • Aplica la configuración recomendada de Mellanox Connect-X en las unidades de GPU
    • Asigna direcciones IP a interfaces de red RDMA según la VCN principal
  • Autenticación/Configuración de RDMA
    • Configura interfaces de red RDMA con QoS y MTU recomendados
    • Configura y mantiene la autenticación de red RDMA necesaria
  • Supervisión de GPU y RDMA
    • Emite métricas de rendimiento de RDMA y GPU adicionales

Para activar el plugin de HPC en una instancia con hardware dedicado existente, debe crear o migrar la instancia existente a Oracle Cloud Agent 1.35.0 o superior. Consulte Oracle Cloud Agent para obtener más información.

Activación de métricas de GPU y RDMA

Al instalar Oracle Cloud Agent y activar el plugin de supervisión de HPC, las métricas de GPU y RDMA se activan automáticamente. OCI envía las métricas al espacio de nombres del cliente y las factura por el arrendamiento.

Para determinar si estas métricas generarán cargos adicionales, consulte medición de precios.

Para obtener una lista detallada de métricas de HPC, consulte Métricas de instancias informáticas.