Punch Torino : déploiement de cluster de calcul hautes performances sur Oracle Cloud
Pour accélérer l'exécution de ses simulations de dynamique des fluides numériques, le fabricant italien du moteur tier-1, Punch Torino, a migré sa plate-forme CFD vers Oracle Cloud Infrastructure (OCI).
A l'aide du calcul hautes performances (HPC) Oracle Cloud Infrastructure, les ingénieurs de Punch Torino peuvent désormais exécuter des charges de travail de simulation et de test gourmandes en CPU, en mémoire et en E/S jusqu'à 24 % plus rapidement avec 33 % de coeurs de calcul en moins.
En partenariat avec une société de conseil en informatique hautes performances, Doit Systems, l'environnement de production de Punch Torino a été mis en service en seulement dix semaines après la fin de sa validation de concept.
Dans sa location Oracle Cloud Infrastructure, Punch Torino exécute les applications Abaqus, Converge, StarCCM+ et Optistruct.
Parmi les fonctionnalités uniques permettant de lancer le déploiement de Torino sur Oracle Cloud Infrastructure figurent les suivantes :
- Les serveurs Bare Metal HPC associés aux fonctions de réseau de cluster d'Oracle permettent d'accéder à des RDMA à très faible latence (latence de moins de 2 μs entre les clusters de dizaines de milliers de coeurs) sur Ethernet convergé (RoCE) v2
- Facilité d'utilisation dans les outils d'automatisation HPC afin de mettre à l'échelle et de réduire les serveurs Bare Metal en quelques minutes
- La topologie réseau à deux niveaux plats d'Oracle fournit une bande passante et une latence uniformes sur tous les noeuds, permettant aux clusters HPC d'évoluer de manière linéaire
- Stockage haut débit d'E/S avec le SSD NVMe 6.4TB lié en local à l'instance Bare Metal
Pour les déploiements futurs, Punch Torino envisage également de :
- Nouveaux types d'instance de calcul, tels que Optimized X9
- FastConnect pour transférer plus de données et réduire la latence dans les sessions distantes sur les noeuds de GPU
Architecture
Les utilisateurs de Punch Torino accèdent aux applications à l'aide d'un réseau privé virtuel (VPN) à partir de l'application Web de centre de contrôle et d'accès sur site, qui est une application Web d'Altair Access. Le système Active Directory sur site effectue l'authentification à l'aide d'Oracle Cloud Infrastructure Identity and Access Management afin que les utilisateurs n'aient pas d'accès direct au cluster de calcul hautes performances.
Le noeud de contrôle affiche les noeuds de cluster HPC à la demande. Une fois les noeuds prêts, le noeud de contrôle sépare le travail en plusieurs parties et les soumet pour traitement simultané. L'ordonnanceur de contrôle redimensionne automatiquement les noeuds de calcul via des API REST. Le cluster HPC provisionne des instances Bare Metal à la demande. Les simulations sont généralement optimisées pour s'exécuter en cinq à six heures.
- Les simulations nécessitent un débit d'E/S élevé en utilisant le stockage à chaud fourni par le stockage local SSD NVMe 6.4TB attaché à l'instance Bare Metal.
- Les résultats sont stockés dans un stockage à chaud (fichier) pour analyse.
- La session d'analyse graphique distante copie les fichiers dans le stockage à chaud (bloc) attaché à l'instance de machine virtuelle pour un rendu rapide.
Le diagramme suivant illustre cette architecture de référence.
punch-torino-oci-arch-oracle.zip
Le diagramme suivant montre comment les données circulent dans l'architecture :
punch-torino-oci-flow-oracle.zip
- Les utilisateurs initient l'accès aux applications à partir du centre de contrôle et d'accès sur site.
- Active Directory sur site authentifie l'utilisateur.
- Licences disponibles pour les serveurs de licences sur site.
- Le centre de contrôle et d'accès sur site affiche les noeuds de cluster HPC à la demande.
- Les utilisateurs téléchargent le fichier de simulation (jusqu'à 50 Go) vers le stockage de fichiers (" chaud ").
- Le fichier de simulation est copié dans le stockage SSD local ("hot") et les résultats sont enregistrés dans le stockage de fichiers.
- Le centre de contrôle et d'accès sur site affiche les noeuds visuels à la demande.
- Le fichier de simulation est copié du stockage de fichiers vers le stockage de bloc ("hot") pour être traité par le noeud visuel.
- Les résultats sont enregistrés dans le stockage d'objets ("à froid") pour un stockage à long terme.
L'architecture comporte les composants suivants :
- Région
Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (elles peuvent se trouver dans des pays voire des continents différents).
- Gestion des identités et des accès (IAM)
Oracle Cloud Infrastructure Identity and Access Management (IAM) vous permet de contrôler qui peut accéder à vos ressources dans Oracle Cloud Infrastructure et les opérations qu'elles peuvent effectuer sur ces ressources.
- Audit
Le service Oracle Cloud Infrastructure Audit enregistre automatiquement les appels vers toutes les adresses d'API publique Oracle Cloud Infrastructure prises en charge en tant qu'événements de journal. Actuellement, tous les services prennent en charge la journalisation par Oracle Cloud Infrastructure Audit.
- Domaine de disponibilité
Les domaines de disponibilité sont des centres de données indépendants et autonomes au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui assure une tolérance de panne. Les domaines de disponibilité ne partagent ni infrastructure (système d'alimentation ou de refroidissement par exemple), ni le réseau interne du domaine de disponibilité. Ainsi, il est peu probable qu'un problème survenant dans un domaine de disponibilité affecte les autres domaines de disponibilité de la région.
- Réseau cloud virtuel (VCN) et sous-réseaux
Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent un contrôle total sur votre environnement réseau. Un VCN peut contenir plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés sur une région ou sur un domaine de disponibilité. Chaque sous-réseau se compose d'une plage d'adresses contiguës qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Liste de sécurité
Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés vers et depuis le sous-réseau.
- Table de routage
Les tables de routage virtuelles contiennent des règles pour acheminer le trafic des sous-réseaux vers des destinations en dehors d'un VCN, généralement via des passerelles.
- Dynamic routing gateway (DRG)
Le DRG est un routeur virtuel qui fournit un chemin pour le trafic de réseau privé entre un VCN et un réseau en dehors de la région, tel qu'un VCN dans une autre région Oracle Cloud Infrastructure, un réseau sur site ou un réseau dans un autre fournisseur cloud.
- Informatique hautes performances
Conçues pour les charges globales de calcul hautes performances qui nécessitent des coeurs de processeur à fréquence élevée et un réseau en cluster pour des charges globales de HPC extrêmement parallèles.
Les serveurs Bare Metal Oracle Cloud Infrastructure associés au réseau de cluster d'Oracle permettent d'accéder à des RDMA à très faible latence (latence de moins de 2 μs entre les clusters de dizaines de milliers de coeurs) sur Ethernet convergé (RoCE) v2.
- Machine virtuelle
Le service Oracle Cloud Infrastructure Compute vous permet de provisionner et de gérer des hôtes de calcul dans le cloud. Vous pouvez lancer des instances de calcul avec des formes qui répondent à vos besoins en ressources pour l'UC, la mémoire, la bande passante réseau et le stockage. Après avoir créé une instance de calcul, vous pouvez y accéder en toute sécurité, la redémarrer, attacher et détacher des volumes, et l'arrêter lorsque vous n'en avez plus besoin.
Les serveurs Bare Metal d'Oracle offrent aux clients l'isolation, la visibilité et le contrôle nécessaires à l'aide d'instances de calcul dédiées. Les serveurs prennent en charge des applications qui nécessitent un grand nombre de coeurs, une grande quantité de mémoire et une bande passante élevée. Ils peuvent faire évoluer jusqu'à 160 cœurs (la plus grande du secteur), 2 To de RAM et jusqu'à 1 Po de stockage de blocs. Les clients peuvent créer des environnements cloud sur les serveurs Bare Metal d'Oracle, avec de grandes améliorations de performances par rapport aux autres clouds publics et centres de données sur site.
- Object Storage
Object Storage permet d'accéder rapidement à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker et extraire en toute sécurité les données directement à partir d'Internet ou de la plate-forme cloud. Vous pouvez adapter le stockage de manière transparente sans aucune dégradation des performances ou de la fiabilité du service. Utilisez un stockage standard pour un stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archives pour un stockage "à froid" que vous conservez pendant de longues périodes, et rarement pour un accès.
- Stockage de fichiers
Le service Oracle Cloud Infrastructure File Storage offre un système de fichiers réseau durable, évolutif, sécurisé et adapté à l'entreprise. Vous pouvez vous connecter à un système de fichiers du service File Storage à partir de n'importe quelle instance Bare Metal, de machine virtuelle ou de conteneur d'un VCN. Vous pouvez également accéder à un système de fichiers à partir de l'extérieur du VCN à l'aide d'Oracle Cloud Infrastructure FastConnect et du VPN IPSec.
- Volume de blocs
Avec les volumes de stockage de blocs, vous pouvez créer, attacher, connecter et déplacer des volumes de stockage, et modifier leurs performances en fonction de vos exigences en matière de stockage, de performances et d'application. Une fois qu'un volume est attaché et connecté à une instance, vous pouvez l'utiliser comme un disque dur normal. Vous pouvez également déconnecter un volume et l'attacher à une autre instance sans perdre de données.
Fonctionnalités intégrées et déployées
Vous souhaitez découvrir ce que vous avez créé sur Oracle Cloud Infrastructure ? Vous souhaitez partager vos leçons apprises, vos meilleures pratiques et vos architectures de référence avec notre communauté mondiale d'architectes cloud ? Laissez-vous commencer.
- Télécharger le modèle (PPTX)
Illustrez votre propre architecture de référence en faisant glisser les icônes dans l'exemple de filaire.
- Regarder le tutoriel sur l'architecture
Obtenez des instructions détaillées sur la création d'une architecture de référence.
- Soumettre le diagramme
Envoyez-nous un courriel avec votre diagramme. Nos architectes cloud passeront en revue votre diagramme et vous contacteront pour discuter de votre architecture.
Voir plus
En savoir plus sur les fonctionnalités de cette architecture.
Informations sur Oracle Cloud Infrastructure :
- Structure des meilleures pratiques pour Oracle Cloud Infrastructure
- Gestion des réseaux de cluster
- Documentation Oracle Cloud Infrastructure
Architecture de référence connexe :
- Déployer un calcul hautes performances (HPC) sur Oracle Cloud Infrastructure
- Déployer une infrastructure de bureau virtuelle (VDI) sur des ordinateurs hautes performances
- Calcul hautes performances : OpenFOAM sur Oracle Cloud Infrastructure
- Calcul hautes performances : LS-DYNA sur Oracle Cloud Infrastructure
- Calcul hautes performances : Ansys Fluent sur Oracle Cloud Infrastructure
Code Terraform pour les composants utilisés dans cette architecture :
- Calcul hautes performances - Réseau de cluster RDMA (Oracle Cloud Marketplace)
- Oracle Cloud Infrastructure - Calcul hautes performances dans Github (Github)