Recursos informáticos de alto rendimiento: fluidez de Ansys en Oracle Cloud Infrastructure

El fluente es una herramienta de simulación fluida. Utilícelo para modelar turbulencias, combustión, flujos multifase y mucho más.

Arquitectura

La arquitectura utiliza un nodo básico/cabecera para conectarse al cluster de HPC.

El nodo principal contiene la instalación de Fluent y el modelo. Tiene la interfaz de transferencia de mensajes (MPI), y organiza y ejecuta el trabajo. Los resultados del trabajo se guardan en el nodo principal.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de arquitectura: hpc.png
Descripción de la ilustración arquitectura-hpc.png

arquitectura-hpc-oracle.zip

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y las grandes distancias pueden separarlas (entre países e incluso continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes e independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como alimentación o refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, un fallo en un dominio de disponibilidad es poco probable que afecte a los otros dominios de disponibilidad de la región.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con alimentación y hardware independientes. Cuando distribuye recursos en varios dominios de errores, las aplicaciones pueden tolerar fallos del servidor físico, mantenimiento del sistema y fallos de alimentación dentro de un dominio de errores.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes del centro de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no solapados que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango de direcciones contiguas que no se solapan con las otras subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Lista de Seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Pool de instancia

    Los pools de instancias permiten crear y gestionar varias instancias informáticas dentro de la misma región que un grupo. También permiten la integración con otros servicios, como el servicio de equilibrio de carga y el servicio IAM.

  • Nodo de bastión/nodo de cabecera

    Utilice un portal basado en web para conectarse al nodo principal y programar trabajos de HPC. La solicitud de trabajo se realiza a través de FastConnect o VPN con IPSec al nodo principal. El nodo principal también envía el juego de datos de cliente al almacenamiento de archivos y puede realizar algún procesamiento previo de los datos.

    El nodo principal aprovisiona clusters de nodos de HPC y suprime clusters de HPC al finalizar el trabajo.

  • Nodo de cluster de HPC

    El nodo principal aprovisiona y termina estos nodos de cálculo, que son clusters activados para RDMA. Procesan los datos almacenados en el almacenamiento de archivos y devuelven los resultados al almacenamiento de archivos.

  • Cloud Guard

    Puede utilizar Oracle Cloud Guard para supervisar y mantener la seguridad de los recursos en la nube. Cloud Guard examina los recursos para detectar deficiencias de seguridad relacionadas con la configuración y controla los operadores y los usuarios para detectar actividades de riesgo. Cuando se identifica cualquier problema o riesgo de seguridad, Cloud Guard recomienda acciones correctivas y le ayuda en dichas acciones, en función de las recetas de seguridad que puede definir.

  • Servidor NFS

    Uno de los nodos de HPC se promocionará como servidor NFS.

Recomendaciones

Los requisitos pueden ser diferentes de la arquitectura que se describe aquí. Utilice las siguientes recomendaciones como punto de partida.

  • VCN

    Al crear una VCN, determine el número de bloques CIDR necesarios y el tamaño de cada bloque según el número de recursos que planea asociar a subredes de la VCN. Utilice bloques CIDR que estén dentro del espacio de direcciones IP privadas estándar.

    Seleccione bloques CIDR que no se superpongan con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor en la nube) a la que desee configurar conexiones privadas.

    Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques de CIDR.

    Al diseñar las subredes, tenga en cuenta los requisitos de flujo de tráfico y seguridad. Conecte todos los recursos de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.

  • Seguridad

    Utilice Oracle Cloud Guard para supervisar y mantener la seguridad de los recursos en OCI de forma proactiva. Cloud Guard utiliza recetas de detector que puede definir para examinar los recursos con el fin de detectar puntos débiles en la seguridad y para supervisar los operadores y usuarios en busca de actividades de riesgo. Cuando se detecta una configuración incorrecta o una actividad insegura, Cloud Guard recomienda acciones correctivas y ayuda con esas acciones, en función de las recetas de los respondedores que puede definir.

    Para los recursos que requieren máxima seguridad, Oracle recomienda utilizar zonas de seguridad. Una zona de seguridad es un compartimento asociado a una receta definida por Oracle de políticas de seguridad basadas en las mejores prácticas. Por ejemplo, los recursos de una zona de seguridad no deben ser accesibles desde el Internet público y deben cifrarse mediante claves gestionadas por el cliente. Al crear y actualizar recursos en una zona de seguridad, Oracle Cloud Infrastructure valida las operaciones con respecto a las políticas de la receta de zona de seguridad y deniega las operaciones que violan cualquiera de las políticas.

  • Nodos de HPC

    Hay dos escenarios:

    1. Desplegar en unidades de computación de máquina virtual mediante el pool de instancias, como se muestra en el diagrama de arquitectura. Este escenario ofrece un costo menor, pero también un rendimiento menor.

      Utilice VM.Standard.E3.Flex o VM.Standard.E4.Flex con el servicio de almacenamiento de archivos.

    2. Despliegue con unidades HPC BARE Metal para obtener un rendimiento completo.

      Utilice unidades BM.HPC2.36 con almacenamiento en unidad de estado sólido NVMe local 6.4-TB, 36 núcleos y memoria 384-GB por nodo.

Consideraciones

Tenga en cuenta los siguientes puntos al desplegar esta arquitectura de referencia.

  • Rendimiento

    En función del tamaño de la carga de trabajo, determine cuántos núcleos desea que se ejecute Fluent. Esta decisión garantiza que la simulación se complete a tiempo.

    Para obtener el mejor rendimiento, seleccione la unidad de computación correcta con el ancho de banda adecuado.

  • Disponibilidad

    Considere el uso de una opción de alta disponibilidad, basada en los requisitos y la región del despliegue. Las opciones incluyen el uso de varios dominios de disponibilidad en una región y dominios de errores.

  • Costo

    Una instancia de GPU con hardware dedicado proporciona la potencia de CPU necesaria para un costo mayor. Evalúe los requisitos para seleccionar la unidad de computación adecuada.

    Puede suprimir el cluster cuando no haya trabajos en ejecución.

  • Supervisión y alertas

    Configure la supervisión y las alertas sobre el uso de CPU y memoria para los nodos, de modo que pueda ampliar o reducir la unidad según sea necesario.

  • Almacenamiento

    Además del almacenamiento en unidad de estado sólido NVMe que incluye la unidad de recursos informáticos de alto rendimiento, también puede asociar volúmenes en bloque a IOPS de 32k por volumen, respaldados por el SLA de mayor rendimiento de Oracle. Si utiliza nuestras soluciones para iniciar la infraestructura, se instala un recurso compartido nfs de forma predeterminada en el almacenamiento SSD NVMe en /mnt. También puede instalar su propio sistema de archivos paralelo sobre el almacenamiento en unidades de estado sólido NVMe o el almacenamiento de bloques, según sus requisitos de rendimiento.

  • Nodo de Visualizador

    Puede crear un nodo visualizador, como una máquina virtual (VM) de GPU o un nodo con hardware dedicado, según sus requisitos. Este nodo del visualizador puede ser el host bastión o independiente. Según los requisitos de seguridad para la carga de trabajo, el nodo del visualizador se puede colocar en la subred pública o privada.

Desplegar

El código necesario para desplegar esta arquitectura de referencia está disponible en GitHub. Puede obtener el código en Oracle Cloud Infrastructure Resource Manager con un solo clic, crear la pila y desplegarla. También puede descargar el código de GitHub en su computadora, personalizar el código y desplegar la arquitectura mediante la CLI de Terraform.

  • Realice el despliegue con Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic en Despliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca las credenciales de arrendamiento y usuario.

    2. Revise y acepte las condiciones.
    3. Seleccione la región en la que desea desplegar la pila.
    4. Siga las indicaciones de la pantalla y las instrucciones para crear la pila.
    5. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
    6. Espere a que termine el trabajo y revise el plan.

      Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    7. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Realice el despliegue con el código de Terraform en GitHub:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en su equipo local.
    3. Siga las instrucciones del documento README.

Log de Cambios

Este log muestra los cambios significativos: