Déployer le calcul hautes performances (HPC) sur Oracle Cloud Infrastructure

Les exigences des charges de travail de calcul parallèles dans la simulation et la modélisation peuvent désormais être gérées de manière rentable dans le cloud.

Déployez des ressources de calcul hautes performances (HPC) dans un réseau cloud à bande passante élevée et à faible latence avec des performances qui rivalisent avec celles des réseaux HPC sur site, mais avec le coût et les avantages opérationnels que le cloud computing offre.

Cluster Networking est une technologie Oracle Cloud Infrastructure qui permet aux instances HPC de communiquer avec un réseau à faible latence à bande passante élevée. Chaque noeud du cluster est une machine Bare Metal située à proximité physique des autres noeuds. La mise en réseau de l'accès direct à la mémoire (RDMA) à distance entre les noeuds fournit une latence inférieure à deux microsecondes et est comparable aux clusters HPC sur site. Oracle utilise RDMA sur Ethernet convergé ou RoCEv2 Protocol pour le réseautage de cluster.

Les réseaux de cluster sont conçus pour des charges de travail parallèles très exigeantes, notamment les suivantes :

  • Simulations de mécanique des fluides numérique pour la modélisation aérospatiale ou automobile

  • Simulation de collision

  • Modélisation financière et analyse des risques

  • Simulations biomédicales

  • Analyse et conception des trajectoires pour l'exploration spatiale

  • Intelligence artificielle et charges de travail de Big Data

Les réseaux de cluster sont pris en charge comme suit :

  • Réseau cloud virtuel

    • Sous-réseau public

    • Sous-réseau privé

    • Passerelle Internet

    • Passerelle NAT

  • Noeuds de calcul

    • Hébergement de Bastion dans un sous-réseau public

    • Noeuds de calcul HPC dans le sous-réseau privé

Architecture

Cette architecture de référence déploie un noeud bastion ou tête, qui exécute le planificateur et peut être utilisé comme serveur bastion pour accéder au cluster.

Vous pouvez créer un noeud de visualisation, tel qu'une machine virtuelle GPU (VM) ou une machine Bare Metal, en fonction de vos besoins. Nous vous recommandons de placer le noeud de visualisation dans le sous-réseau public. Les charges de travail HPC nécessitent souvent des outils de visualisation avant ou après le traitement, la surveillance ou l'analyse de la sortie des simulations. Vous pouvez déployer un poste de travail compatible NVIDIA GRID à partir d'Oracle Cloud Marketplace.

Cette architecture est déployée à l'aide de réseaux cloud virtuels publics et privés (VCN). Le réseau client peut accéder au noeud de tête et au noeud de visualisation uniquement via IPSec VPN, Oracle Cloud Infrastructure FastConnect ou Internet public.

L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité.

Vous pouvez accéder à ces réseaux de cluster à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de référence, puis de l'ajuster pour répondre à vos besoins spécifiques.

Le diagramme suivant illustre cette architecture de référence.



hpc-oci-architecture.zip

L'architecture se compose des éléments suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes des autres régions et de vastes distances peuvent les séparer (d'un pays à l'autre ou même d'un continent à l'autre).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes et indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui donne une tolérance aux pannes. Les domaines de disponibilité ne partagent pas d'infrastructure comme l'alimentation ou le refroidissement, ou le réseau de domaine de disponibilité interne. Il est donc peu probable qu'un échec dans un domaine de disponibilité affecte les autres domaines de disponibilité de la région.

  • Domaines d'erreur

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes dotés d'une alimentation et d'un matériel indépendants. Lorsque vous distribuez des ressources dans plusieurs domaines de pannes, vos applications peuvent tolérer les pannes de serveurs physiques, la maintenance du système et les pannes de courant au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable et défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux traditionnels de centres de données, les VCN vous donnent un contrôle complet sur votre environnement de réseau. Un VCN peut avoir plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être étendus à une région ou à un domaine de disponibilité. Chaque sous-réseau est constitué d'une plage d'adresses contiguës qui ne chevauchent pas les autres sous-réseaux de VCN. Vous pouvez modifier la taille d'un sous-réseau après la création. Un sous-réseau peut être public ou privé.

  • Bastion host

    L'hôte bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé vers la topologie depuis l'extérieur du nuage. L'hôte du bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant dans des réseaux privés auxquels vous ne pouvez pas accéder directement depuis l'extérieur du cloud. La topologie dispose d'un seul point d'entrée connu que vous pouvez surveiller et auditer régulièrement. Ainsi, vous pouvez éviter d'exposer les composants les plus sensibles de la topologie sans compromettre leur accès.

  • Noeud de cluster HPC

    Le noeud de tête provisionne et déprovisionne ces noeuds de calcul, qui sont des clusters compatibles RDMA (réseau isolé RoCE v2 100 gbps). Ils traitent les données stockées dans le stockage des fichiers et renvoient les résultats au stockage des fichiers.

  • Noeud de visualisation

    Le noeud de visualisation dispose généralement d'une application 2D ou 3D installée pour la représentation visuelle et l'analyse des données traitées par les noeuds de cluster HPC.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés dans et hors du sous-réseau.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour déployer le calcul haute performance (HPC) sur Oracle Cloud Infrastructure.

Vos exigences peuvent différer de l'architecture décrite ici.

  • VCN

    Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher à des sous-réseaux dans VCN. Utilisez les blocs CIDR qui se trouvent dans l'espace d'adresse IP privé standard.

    Sélectionnez des blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur site ou un autre fournisseur cloud) auquel vous avez l'intention de configurer des connexions privées.

    Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.

    Lorsque vous concevez les sous-réseaux, tenez compte de vos besoins en matière de flux de trafic et de sécurité. Attachez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, qui peut servir de limite de sécurité.

    Utilisez des sous-réseaux régionaux.

  • Listes de sécurité

    Utilisez les listes de sécurité pour définir les règles entrantes et sortantes qui s'appliquent à l'ensemble du sous-réseau.

  • Noeud de bastion

    Utilisez la forme VM.Standard.2.8 Compute. Etant donné que le noeud est utilisé comme hôte bastion et pour planifier les travaux HPC, il ne nécessite pas de stockage ou de traitement GPU connecté localement.

  • Noeud de visualisation Utilisez la forme de calcul VM.GPU3.2 car ce noeud est utilisé pour la visualisation et est probablement installé avec une application graphique intensive.
  • Noeud de cluster HPC

    Utilisez la forme BM.HPC2.36 Compute. Cette forme comporte 36 coeurs provenant de deux processeurs 3.7GHz Intel Xeon Gold 6154, 384 Go RAM et 6.4-TB NVME local. En utilisant des GPU NVIDIA puissants disponibles sur Oracle Cloud Infrastructure, vous pouvez post-traiter les résultats sur le cloud via la visualisation à distance.

Remarques

Lors du déploiement du calcul haute performance (HPC) sur Oracle Cloud Infrastructure, tenez compte de ces options d'implémentation.

  • Performances

    Pour obtenir les meilleures performances, choisissez la forme de calcul correcte avec la bande passante appropriée.

  • Disponibilité

    Envisagez d'utiliser une option de haute disponibilité en fonction de vos besoins de déploiement et de votre région. Les options incluent l'utilisation de plusieurs domaines de disponibilité dans une région et de domaines de pannes.

  • Coût

    Une instance GPU Bare Metal fournit l'alimentation CPU nécessaire pour un coût plus élevé. Évaluez vos besoins pour choisir la forme de calcul appropriée.

  • Surveillance et alertes

    Configurez la surveillance et les alertes sur l'utilisation de l'UC et de la mémoire pour vos noeuds, afin que vous puissiez augmenter ou réduire la forme en fonction des besoins.

Déployer

Une pile Terraform pour déployer cette architecture de référence est disponible sous forme de pile dans Oracle Cloud Marketplace. Vous pouvez également télécharger le code à partir de GitHub et le personnaliser selon vos besoins.

  • Effectuer un déploiement à l'aide de la pile dans Oracle Cloud Marketplace :
    1. Accédez à Oracle Cloud Marketplace.
    2. Cliquez sur Obtenir l'application.
    3. Suivez les invites à l'écran.
  • Déployer à l'aide du code dans GitHub :
    1. Accédez à GitHub.
    2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
    3. Suivez les instructions du document README.

Journal des modifications

Ce journal répertorie les modifications importantes :