Computação de Alto Desempenho: Ansys Fluent no Oracle Cloud Infrastructure

Fluent é uma ferramenta de simulação fluida. Use-o para modelar turbulência, combustão, fluxos multifásicos e muito mais.

Arquitetura

A arquitetura usa um nó bastion/head para estabelecer conexão com o cluster HPC.

O nó principal contém a instalação Fluent e o modelo. Ele tem a interface de passagem de mensagens (MPI), orquestra e executa o job. Os resultados do job são salvos no nó superior.

O diagrama a seguir ilustra essa arquitetura de referência.

Descrição da arquitetura-hpc.png a seguir
Descrição da arquitetura de ilustração-hpc.png

arquitetura-hpc-oracle.zip

A arquitetura tem os seguintes componentes:

  • Região

    Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominados domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou mesmo continentes).

  • Domínios de disponibilidade

    Os domínios de disponibilidade são data centers independentes e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que fornece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou resfriamento ou a rede interna de domínios de disponibilidade. Portanto, uma falha em um domínio de disponibilidade provavelmente não afetará os outros domínios de disponibilidade na região.

  • Domínios de falha

    Domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade tem três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falhas físicas do servidor, manutenção do sistema e falhas de alimentação dentro de um domínio de falha.

  • Rede virtual na nuvem (VCN) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes de data center tradicionais, as VCNs permitem controle total sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você poderá alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter como escopo uma região ou um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não são sobrepostos com as outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Lista de Segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que devem ser permitidos dentro e fora da sub-rede.

  • Pool de Instâncias

    Os pools de instâncias permitem criar e gerenciar várias instâncias do Compute na mesma região que um grupo. Eles também permitem a integração com outros serviços, como o Load Balancing Service e o IAM.

  • Nó do Bastion/Nó do Cabeçalho

    Use um portal baseado na Web para se conectar ao nó principal e programar jobs HPC. A solicitação de job vem por meio de VPN FastConnect ou IPSec para o nó superior. O nó principal também envia o conjunto de dados do cliente para o armazenamento de arquivos e pode fazer algum pré-processamento dos dados.

    O nó principal provisiona clusters de nós HPC e exclui clusters HPC na conclusão do job.

  • Nó do Cluster de HPC

    O nó principal provisiona e encerra esses nós de computação, que são clusters ativados para RDMA. Eles processam os dados armazenados no armazenamento de arquivos e retornam os resultados para o armazenamento de arquivos.

  • Cloud Guard

    Você pode usar o Oracle Cloud Guard para monitorar e manter a segurança dos seus recursos na nuvem. O Cloud Guard examina seus recursos quanto à fragilidade de segurança relacionada à configuração e monitora os operadores e usuários em busca de atividades arriscadas. Quando qualquer problema ou risco de segurança é identificado, o Cloud Guard recomenda ações corretivas e o ajuda nessas ações, com base nas receitas de segurança que você pode definir.

  • Servidor NFS

    Um dos nós HPC será promovido como servidor NFS.

Recomendações

Os requisitos podem diferir da arquitetura descrita aqui. Use as recomendações a seguir como ponto de partida.

  • VCN

    Quando você cria uma VCN, determine o número de blocos CIDR necessários e o tamanho de cada bloco com base no número de recursos que você planeja anexar a sub-redes na VCN. Use blocos CIDR que estejam dentro do espaço de endereço IP privado padrão.

    Selecione blocos CIDR que não se sobreponham a nenhuma outra rede (no Oracle Cloud Infrastructure, seu data center local ou outro provedor de nuvem) para a qual você pretende configurar conexões privadas.

    Depois de criar uma VCN, você poderá alterar, adicionar e remover seus blocos CIDR.

    Ao projetar as sub-redes, considere seu fluxo de tráfego e os requisitos de segurança. Anexe todos os recursos dentro de uma camada ou função específica à mesma sub-rede, que pode servir como limite de segurança.

  • Segurança

    Use o Oracle Cloud Guard para monitorar e manter a segurança dos seus recursos no OCI de forma proativa. O Cloud Guard usa receitas de detector que você pode definir para examinar seus recursos quanto a pontos fracos na segurança e para monitorar operadores e usuários em busca de atividades arriscadas. Quando qualquer atividade de configuração incorreta ou insegura é detectada, o Cloud Guard recomenda ações corretivas e ajuda com essas ações, com base nas receitas do respondedor que você pode definir.

    Para recursos que exigem segurança máxima, a Oracle recomenda que você use zonas de segurança. Uma zona de segurança é um compartimento associado a uma receita definida pela Oracle de políticas de segurança que se baseiam nas melhores práticas. Por exemplo, os recursos em uma zona de segurança não podem ser acessados pela internet pública e devem ser criptografados usando chaves gerenciadas pelo cliente. Ao criar e atualizar recursos em uma zona de segurança, o Oracle Cloud Infrastructure valida as operações de acordo com as políticas na receita de zona de segurança e nega operações que violam qualquer uma das políticas.

  • Nós de HPC

    Dois cenários:

    1. Implante em formas de VM usando o Pool de Instâncias, conforme mostrado no diagrama de arquitetura. Esse cenário oferece custo mais baixo, mas também desempenho mais baixo.

      Use VM.Standard.E3.Flex ou VM.Standard.E4.Flex com serviço de armazenamento de arquivos .

    2. Implante com formas HPC BARE Metal para obter desempenho completo.

      Use formas BM.HPC2.36 com armazenamento SSD NVMe local 6.4-TB, 36 núcleos e 384-GB de memória por nó.

Considerações

Considere os pontos a seguir ao implantar essa arquitetura de referência.

  • Desempenho

    Dependendo do tamanho da carga de trabalho, determine quantos núcleos você deseja que o Fluent seja executado. Essa decisão garante que a simulação seja concluída em tempo hábil.

    Para obter o melhor desempenho, escolha a forma correta do Compute com largura de banda apropriada.

  • Disponibilidade

    Considere o uso de uma opção de alta disponibilidade, com base em seus requisitos de implantação e região. As opções incluem o uso de vários domínios de disponibilidade em uma região e domínios de falha.

  • Custo

    Uma instância de GPU bare metal fornece a energia necessária da CPU por um custo mais alto. Avalie seus requisitos para escolher a forma de Computação adequada.

    Você pode excluir o cluster quando não houver jobs em execução.

  • Monitoramento e Alertas

    Configure o monitoramento e os alertas sobre o uso da CPU e da memória de seus nós, para que você possa escalar a forma para cima ou para baixo, conforme necessário.

  • Armazenamento

    Além do armazenamento SSD NVMe que vem com a forma HPC, você também pode anexar volumes em blocos a 32k IOPS por volume, com o suporte do SLA de mais alto desempenho da Oracle. Se você estiver usando nossas soluções para iniciar a infraestrutura, um nfs-share será instalado por padrão no armazenamento SSD NVMe em /mnt. Você também pode instalar seu próprio sistema de arquivos paralelo na parte superior do armazenamento SSD NVMe ou do armazenamento em bloco, dependendo dos seus requisitos de desempenho.

  • Nó do Visualizador

    Você pode criar um nó visualizador, como uma máquina virtual (VM) ou um nó bare metal de GPU, dependendo dos seus requisitos. Este nó visualizador pode ser seu bastion host ou separado. Dependendo dos requisitos de segurança da carga de trabalho, o nó visualizador pode ser colocado na sub-rede privada ou pública.

Implantar

O código necessário para implantar esta arquitetura de referência está disponível no GitHub. Você pode colocar o código no Oracle Cloud Infrastructure Resource Manager com um único clique, criar a pilha e implantá-la. Como alternativa, faça download do código do GitHub para o seu computador, personalize o código e implante a arquitetura usando a CLI do Terraform.

  • Implante usando o Oracle Cloud Infrastructure Resource Manager:
    1. Clique em Implantar no Oracle Cloud

      Se você ainda não estiver conectado, informe a tenancy e as credenciais do usuário.

    2. Examinar e aceitar os termos e condições.
    3. Selecione a região na qual você deseja implantar a pilha.
    4. Siga os prompts na tela e as instruções para criar a pilha.
    5. Após criar a pilha, clique em Ações do Terraform e selecione Planejar.
    6. Aguarde a conclusão do job e revise o plano.

      Para fazer alterações, retorne à página Detalhes da Pilha, clique em Editar Pilha e faça as alterações necessárias. Em seguida, execute a ação Plano novamente.

    7. Se nenhuma alteração adicional for necessária, retorne à página Detalhes da Pilha, clique em Ações do Terraform e selecione Aplicar.
  • Implante usando o código do Terraform no GitHub:
    1. Vá para GitHub.
    2. Clone ou faça download do repositório no computador local.
    3. Siga as instruções no documento README.

Alterar Log

Este log lista alterações significativas: