Punch Torino: Implantação de Cluster de Computação de Alto Desempenho (HPC) no Oracle Cloud
Para agilizar o runtime de suas simulações computacionais de fluidodinâmica computacional, o fabricante italiano de mecanismos tier-1, Punch Torino, transferiu sua plataforma CFD para o Oracle Cloud Infrastructure (OCI).
Usando o Oracle Cloud Infrastructure High-Performance Computing (HPC), os engenheiros da Punch Torino agora podem executar cargas de trabalho de simulação e teste com uso de CPU, memória e E/S até 24% mais rápidas com 33% menos núcleos de computação.
Em parceria com a empresa de consultoria em computação de alto desempenho, a Doit Systems, o ambiente de produção da Punch Torino, entrou em operação em apenas dez semanas após a conclusão da prova de conceito.
Em sua locação do Oracle Cloud Infrastructure, o Punch Torino executa os aplicativos Abaqus, Converge, StarCCM+, Optistruct.
Os recursos exclusivos para a implantação do Punch Torino no Oracle Cloud Infrastructure incluem:
- Os servidores bare metal de HPC juntamente com a rede de clusters da Oracle fornecem acesso ao RDMA de latência ultrabaixa (< 2 μs de latência entre clusters de dezenas de milhares de núcleos) sobre Ethernet convergida (RoCE) v2
- Facilidade de uso em ferramentas de automação de HPC para ampliar e reduzir servidores bare metal em minutos
- A topologia de rede plana e em duas camadas da Oracle fornece largura de banda e latência uniformes em todos os nós, permitindo que clusters HPC sejam ampliados linearmente
- Armazenamento de alto rendimento de E/S com o SSD NVMe 6.4TB conectado localmente à instância bare metal
Para futuras implantações, o Punch Torino também está considerando:
- Novos tipos de instâncias de computação, como Otimizado X9
- O FastConnect para transferir mais dados e reduzir a latência em sessões remotas nos nós de GPU
Arquitetura
Os usuários do Punch Torino acessam os aplicativos usando uma rede virtual privada (VPN) do aplicativo web de acesso local e centro de controle, que é um aplicativo web Altair Access. O sistema Active Directory local executa a autenticação usando o Oracle Cloud Infrastructure Identity and Access Management para que os usuários não tenham acesso direto ao cluster de computação de alto desempenho (HPC).
O nó de controle inicia os nós de cluster HPC sob demanda. Depois que os nós estiverem prontos, o nó de controle separará o job em várias partes e os submeterá para processamento simultâneo. O Programador de Controle dimensiona automaticamente os nós de computação por meio de APIs REST. O cluster HPC provisiona instâncias bare metal sob demanda. As simulações normalmente são otimizadas para serem concluídas em cinco a seis horas.
- As simulações exigem um alto throughput de entrada/saída usando o armazenamento a quente fornecido pelo armazenamento local SSD de padrão NVMe 6.4TB conectado à instância bare metal.
- Os resultados são armazenados em armazenamento quente (arquivo) para análise.
- A sessão de análise gráfica remota copia os arquivos para armazenamento a quente (bloco) anexado à instância da VM para renderização rápida.
O diagrama a seguir ilustra essa arquitetura de referência.
soco-torino-oci-arch-oracle.zip
O diagrama a seguir mostra como os dados fluem pela arquitetura:
punch-torino-oci-flow-oracle.zip
- Os usuários iniciam o acesso aos aplicativos no centro de acesso e controle local.
- O Active Directory local autentica o usuário.
- O servidor de licenciamento local fornece licenças disponíveis.
- O acesso e o centro de controle locais ativam os nós de cluster de HPC sob demanda.
- Os usuários fazem upload do arquivo de simulação (até 50 GB) para o armazenamento ("quente").
- O arquivo de simulação é copiado para o armazenamento local da SSD ("quente") e os resultados são salvos de volta no armazenamento de arquivos.
- O acesso e o centro de controle locais ativam os nós visuais sob demanda.
- O arquivo de simulação é copiado do armazenamento de arquivos para o armazenamento em blocos ("ativado") para processamento pelo nó visual.
- Os resultados são salvos em um armazenamento ("frio") de objeto para armazenamento de longo prazo.
A arquitetura tem os seguintes componentes:
- Região
Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, chamados domínios de disponibilidade. As regiões são independentes de outras regiões, e grande distância pode separá-las (entre países ou até mesmo continentes).
- Gerenciamento de identidade e acesso (IAM)
O serviço Oracle Cloud Infrastructure Identity and Access Management (IAM) permite controlar quem pode acessar seus recursos no Oracle Cloud Infrastructure e as operações que eles podem executar nesses recursos.
- Auditoria
O serviço Oracle Cloud Infrastructure Audit registra automaticamente as chamadas para todos os pontos finais suportados da API pública no Oracle Cloud Infrastructure como eventos de log. Atualmente, todos os serviços suportam os logs do Oracle Cloud Infrastructure Audit.
- Domínio de disponibilidade
Os domínios de disponibilidade são data centers independentes e independentes dentro de uma região. Os recursos físicos em cada domínio de disponibilidade são isolados dos recursos dos outros domínios de disponibilidade, que fornecem tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura, como energia ou resfriamento, ou rede interna. Portanto, é improvável que uma falha em um domínio de disponibilidade afete os outros domínios de disponibilidade da região.
- Rede virtual na nuvem (VCN) e sub-redes
Uma VCN é uma rede personalizada e definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs permitem total controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter escopo em uma região ou em um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contínuo de endereços que não se sobrepõem com as outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.
- Lista de segurança
Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que deve ser permitido dentro e fora da sub-rede.
- Tabela de rota
As tabelas de roteamento virtual contêm regras para rotear o tráfego de sub-redes para destinos fora de uma VCN, normalmente por meio de gateways.
- Gateway de roteamento dinâmico (DRG)
O DRG é um roteador virtual que fornece um caminho para o tráfego de rede privada entre uma VCN e uma rede fora da região, como uma VCN em outra região do Oracle Cloud Infrastructure, uma rede local ou uma rede em outro provedor de nuvem.
- Computação de alto desempenho
Projetadas para cargas de trabalho de computação de alto desempenho que exigem núcleos de processador de alta frequência e rede de clusters para cargas de trabalho HPC massivamente paralelas.
Os servidores bare metal do Oracle Cloud Infrastructure juntamente com a rede de clusters da Oracle fornecem acesso ao RDMA de latência ultrabaixa (< 2 μs de latência entre clusters de dezenas de milhares de núcleos) por meio da Ethernet convergida (RoCE) v2.
- Máquina Virtual
O serviço Oracle Cloud Infrastructure Compute permite provisionar e gerenciar hosts de computação na nuvem. Você pode iniciar instâncias de computação com formas que atendam aos seus requisitos de recursos para CPU, memória, largura de banda da rede e armazenamento. Após criar uma instância de computação, você pode acessá-la de forma segura, reiniciá-la, anexar e desconectar volumes e encerrá-la quando não precisar mais dela.
Os servidores bare metal da Oracle fornecem aos clientes isolamento, visibilidade e controle usando instâncias de computação dedicadas. Os servidores suportam aplicativos que requerem altas contagens de núcleos, grandes volumes de memória e alta largura de banda. Eles podem escalar até 160 núcleos (o maior do setor), 2 TB de RAM e até 1 PB de armazenamento em blocos. Os clientes podem criar ambientes de nuvem nos servidores bare metal da Oracle, com melhorias significativas no desempenho em outras nuvens públicas e data centers locais.
- Object Storage
O armazenamento de objetos fornece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar de forma segura e depois recuperar dados diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento de forma integrada, sem perder nenhuma degradação no desempenho ou na confiabilidade do serviço. Use o armazenamento padrão para armazenamento "dinâmico" que você precisa para acessar rapidamente, imediatamente e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente ou raramente acessa.
- Armazenamento de arquivos
O serviço Oracle Cloud Infrastructure File Storage fornece um sistema de arquivos de rede durável, escalável e seguro e de nível empresarial. Você pode se conectar a um sistema de arquivos do serviço File Storage de qualquer instância bare metal, de máquina virtual ou de contêiner em uma VCN. Você também pode acessar um sistema de arquivos de fora da VCN usando o Oracle Cloud Infrastructure FastConnect e a VPN IPSec.
- Volume em blocos
Com volumes de armazenamento em blocos, você pode criar, anexar, conectar e mover volumes de armazenamento, além de alterar o desempenho do volume para atender aos requisitos de armazenamento, desempenho e aplicativo. Depois de anexar e conectar um volume a uma instância, você pode usar o volume como disco rígido comum. Também é possível desconectar um volume e anexá-lo a outra instância sem perder dados.
Obter Recursos Criados e Implantados
Deseja mostrar o que você criou no Oracle Cloud Infrastructure? É importante compartilhar suas lições aprendidas, melhores práticas e arquiteturas de referência com nossa comunidade global de arquitetos de nuvem? Vamos ajudá-lo a começar.
- Faça download do modelo (PPTX)
Ilustre sua própria arquitetura de referência arrastando e soltando os ícones na estrutura de fio de amostra.
- Assistir o tutorial de arquitetura
Obtenha instruções passo a passo sobre como criar uma arquitetura de referência.
- Envie seu diagrama
Envie-nos um e-mail com seu diagrama. Nossos arquitetos de nuvem analisarão seu diagrama e entrarão em contato com você para discutir sua arquitetura.
Explorar Mais
Saiba mais sobre os recursos desta arquitetura.
Informações sobre o Oracle Cloud Infrastructure:
- Estrutura de melhores práticas para o Oracle Cloud Infrastructure
- Gerenciando Redes de Clusters
- Documentação do Oracle Cloud Infrastructure
Arquiteturas de referência relacionadas:
- Implantar computação de alto desempenho (HPC) no Oracle Cloud Infrastructure
- Implantar a infraestrutura de desktop virtual (VDI) com computação de alto desempenho (HPC)
- Computação de Alto Desempenho: OpenFOAM no Oracle Cloud Infrastructure
- Computação de Alto Desempenho: LS-DYNA no Oracle Cloud Infrastructure
- Computação de Alto Desempenho: Ansys Fluent no Oracle Cloud Infrastructure
Código Terraform para componentes usados nesta arquitetura:
- Computação de Alto Desempenho - rede de clusters RDMA (Oracle Cloud Marketplace)
- Oracle Cloud Infrastructure - Computação de Alto Desempenho em Github (Github)

