Punch Torino: despliegue de cluster de recursos informáticos de alto rendimiento (HPC) en Oracle Cloud
Para acelerar el tiempo de ejecución de sus simulaciones de dinámica de fluidos computacionales, el fabricante italiano del motor tier-1, Punch Torino, trasladó su plataforma de CFD a Oracle Cloud Infrastructure (OCI).
Mediante el uso de recursos informáticos de alto rendimiento (HPC) de Oracle Cloud Infrastructure, los ingenieros de Punch Torino ahora pueden ejecutar cargas de trabajo de simulación y prueba con un uso intensivo de CPU, memoria y E/S hasta un 24% más rápido con un 33% menos de núcleos de cálculo.
Asociarse con la empresa de consultoría informática de alto rendimiento, Doit Systems, el entorno de producción de Punch Torino se puso en marcha en tan solo diez semanas después de que se completara su prueba de concepto.
En su arrendamiento de Oracle Cloud Infrastructure, Punch Torino ejecuta las aplicaciones Abaqus, Converge, StarCCM+ y Optistruct.
Entre las funciones exclusivas del despliegue de Punch Torino en Oracle Cloud Infrastructure se incluyen:
- Los servidores con hardware dedicado de HPC junto con las redes de cluster de Oracle proporcionan acceso a RDMA de latencia ultrabaja (< 2 μs de latencia en clusters de decenas de miles de núcleos) sobre Ethernet convergente (RoCE) v2
- Facilidad de uso en las herramientas de automatización de HPC para ampliar y reducir los servidores con hardware dedicado en cuestión de minutos.
- La topología de red plana de dos niveles de Oracle proporciona ancho de banda y latencia uniformes en todos los nodos, lo que permite a los clusters de HPC ampliar de forma lineal
- Almacenamiento de alto rendimiento de E/S con la unidad de estado sólido NVMe 6.4TB conectada localmente a la instancia con hardware dedicado
Para futuros despliegues, Punch Torino también está considerando:
- Nuevos tipos de instancias informáticas, como Optimized X9
- FastConnect para transferir más datos y reducir la latencia en sesiones remotas en nodos de GPU
Arquitectura
Los usuarios de Punch Torino acceden a las aplicaciones mediante una red privada virtual (VPN) desde la aplicación web del centro de control y acceso local, que es una aplicación web Altair Access. El sistema local de Active Directory realiza la autenticación mediante Oracle Cloud Infrastructure Identity and Access Management para que los usuarios no tengan acceso directo al cluster de recursos informáticos de alto rendimiento (HPC).
El nodo de control muestra los nodos de cluster de HPC a petición. Una vez que los nodos están listos, el nodo de control separa el trabajo en varias partes y los envía para que se procesen simultáneamente. El programador de control escala automáticamente los nodos de cálculo mediante las API de REST. El cluster de HPC aprovisiona instancias con hardware dedicado a demanda. Las simulaciones se optimizan normalmente para completarse en cinco a seis horas.
- Las simulaciones requieren un alto rendimiento de E/S mediante el almacenamiento en caliente proporcionado por el almacenamiento local de unidad de estado sólido NVMe 6.4TB conectado a la instancia con hardware dedicado.
- Los resultados se almacenan en almacenamiento en caliente (archivo) para análisis.
- La sesión de análisis gráfico remoto copia los archivos en el almacenamiento en caliente (bloque) asociado a la instancia de VM para una representación rápida.
El siguiente diagrama ilustra esta arquitectura de referencia.
punch-torino-oci-arch-oracle.zip
En el siguiente diagrama se muestra cómo fluyen los datos a través de la arquitectura:
punch-torino-oci-flow-oracle.zip
- Los usuarios inician el acceso a las aplicaciones desde el centro de control y acceso local.
- Active Directory local autentica al usuario.
- El servidor de licencias local proporciona licencias disponibles.
- El centro de control y acceso local muestra los nodos de cluster de HPC a demanda.
- Los usuarios cargan el archivo de simulación (hasta 50 GB) en el almacenamiento del archivo ("arm").
- El archivo de simulación se copia en el almacenamiento SSD local ("en caliente"), y los resultados se guardan de nuevo en el almacenamiento de archivos.
- El centro de control y acceso local muestra los nodos visuales bajo demanda.
- El archivo de simulación se copia del almacenamiento de archivos al almacenamiento de bloques ("en caliente") para su procesamiento por el nodo visual.
- Los resultados se guardan en el almacenamiento de objetos ("en frío") para el almacenamiento a largo plazo.
La arquitectura tiene los siguientes componentes:
- Región
Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y las grandes distancias pueden separarlas (entre países e, incluso, continentes).
- Gestión de identidad y acceso (IAM)
Oracle Cloud Infrastructure Identity and Access Management (IAM) le permite controlar quién puede acceder a sus recursos en Oracle Cloud Infrastructure y las operaciones que pueden realizar en esos recursos.
- Auditoría
El servicio Oracle Cloud Infrastructure Audit registra automáticamente llamadas a todos los puntos finales de la interfaz pública de programación de aplicaciones (API) de Oracle Cloud Infrastructure admitidos como eventos de log. Actualmente, todos los servicios soportan el registro de Oracle Cloud Infrastructure Audit.
- Dominio de disponibilidad
Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, que ofrecen tolerancia a los fallos. Los dominios de disponibilidad no comparten una infraestructura como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, es poco probable que un fallo en un dominio de disponibilidad afecte a los otros dominios de disponibilidad de la región.
- Red virtual en la nube (VCN) y subredes
Una VCN es una red personalizada y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes del centro de datos tradicionales, las VCN le proporcionan un control completo sobre su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.
- Lista de Seguridad
Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.
- Tabla de ruta
Las tablas de rutas virtuales contienen reglas para enrutar el tráfico desde subredes hasta destinos fuera de una VCN, normalmente a través de gateways.
- Gateway de enrutamiento dinámico (DRG)
El DRG es un enrutador virtual que proporciona una ruta para el tráfico de red privada entre una VCN y una red fuera de la región, como una VCN en otra región de Oracle Cloud Infrastructure, una red local o una red en otro proveedor de nube.
- Computación de alto rendimiento
Diseñadas para cargas de trabajo de recursos informáticos de alto rendimiento que necesitan núcleos de procesador de alta frecuencia y redes de cluster para cargas de trabajo masivas en paralelo.
Los servidores con hardware dedicado de Oracle Cloud Infrastructure junto con las redes de cluster de Oracle proporcionan acceso a RDMA de latencia ultrabaja (< 2 μs de latencia en clusters de decenas de miles de núcleos) sobre Ethernet convergente (RoCE) v2.
- Máquina Virtual
El servicio Oracle Cloud Infrastructure Compute permite aprovisionar y gestionar hosts de recursos informáticos en la nube. Puede iniciar instancias informáticas con unidades que cumplan los requisitos de recursos para CPU, memoria, ancho de banda de red y almacenamiento. Después de crear una instancia informática, puede accederla de forma segura, reiniciarla, asociar y desasociar volúmenes y terminarla cuando ya no lo necesite.
Los servidores con hardware dedicado de Oracle proporcionan a los clientes aislamiento, visibilidad y control mediante el uso de instancias informáticas dedicadas. Los servidores admiten aplicaciones que requieren grandes recuentos de núcleos, grandes cantidades de memoria y gran ancho de banda. Se pueden ampliar hasta 160 núcleos (el más grande del sector), 2 TB de RAM y hasta 1 PB de almacenamiento de bloques. Los clientes pueden crear entornos en la nube en servidores con hardware dedicado de Oracle con una mejora significativa del rendimiento con respecto a otras nubes públicas y centros de datos locales.
- Object Storage
El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede escalar el almacenamiento sin problemas sin experimentar una degradación del rendimiento o de la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "activo" al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y rara vez acceso.
- Almacenamiento de archivos
El servicio Oracle Cloud Infrastructure File Storage proporciona un sistema de archivos de red duradero, escalable, seguro y empresarial. Puede conectarse a un sistema de archivos del servicio File Storage desde cualquier instancia con hardware dedicado, de máquina virtual o de contenedor en una VCN. También puede acceder a un sistema de archivos desde fuera de la VCN mediante Oracle Cloud Infrastructure FastConnect y la VPN con IPSec.
- Volumen en bloque
Con los volúmenes de almacenamiento en bloques, puede crear, asociar, conectar y mover los volúmenes de almacenamiento, así como cambiar el rendimiento de los volúmenes para que se ajusten a los requisitos de almacenamiento, rendimiento y aplicación. Después de asociar y conectar un volumen a una instancia, puede utilizar el volumen como disco duro normal. También puede desconectar un volumen y asociarlo a otra instancia sin perder datos.
Incorporación y despliegue de funciones
¿Desea mostrar lo que ha creado en Oracle Cloud Infrastructure? ¿Es importante compartir sus lecciones aprendidas, mejores prácticas y arquitecturas de referencia con nuestra comunidad global de arquitectos en la nube? Permítanos ayudarte a empezar.
- Descargar la plantilla (PPTX)
Ilustre su propia arquitectura de referencia arrastrando y soltando los iconos en el marco de alambre de ejemplo.
- Vea el tutorial de arquitectura
Obtenga instrucciones paso a paso sobre cómo crear una arquitectura de referencia.
- Enviar el diagrama
Nos envía un correo electrónico con su diagrama. Nuestros arquitectos en la nube revisarán su diagrama y se pondrán en contacto con usted para analizar su arquitectura.
Explorar más
Obtenga más información sobre las funciones de esta arquitectura.
Información sobre Oracle Cloud Infrastructure:
- Marco de mejores prácticas para Oracle Cloud Infrastructure
- Gestión de redes de cluster
- Documentación de Oracle Cloud Infrastructure
Arquitectura de referencia relacionada:
- Despliegue recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure
- Despliegue de infraestructura de escritorio virtual (VDI) con recursos informáticos de alto rendimiento (HPC)
- Recursos informáticos de alto rendimiento: OpenFOAM en Oracle Cloud Infrastructure
- Recursos informáticos de alto rendimiento: LS-DYNA en Oracle Cloud Infrastructure
- Recursos informáticos de alto rendimiento: Ansys Fluent en Oracle Cloud Infrastructure
Código Terraform para los componentes utilizados en esta arquitectura:
- Recursos informáticos de alto rendimiento - Red de cluster RDMA (Oracle Cloud Marketplace)
- Oracle Cloud Infrastructure - Computación de alto rendimiento en Github (Github)