Déployer le calcul GPU haute performance pour les charges de travail d'IA du gouvernement

L'ajout de NVIDIA DGX Cloud et de NVIDIA AI Enterprise à Oracle Cloud Marketplace vous permet d'effectuer rapidement et facilement tout type de formation de grand modèle pour les applications d'IA générative sur OCI, y compris pour les workloads optimisés par NVIDIA NeMo Framework, une structure native du cloud de bout en bout permettant de créer, de personnaliser et de déployer une IA générative.

L'environnement de ressources partagées de DGX Cloud peut être moins adapté aux clients des régions du gouvernement des Etats-Unis qui ont besoin d'une sécurité supplémentaire pour garder toutes les données et ressources sous le contrôle de leurs propres locations. Nous avons une autre solution pour vous.

Oracle facilite désormais le déploiement d'un cluster privé de systèmes GPU NVIDIA Bare Metal dans nos régions pour Oracle US Government Cloud (FedRAMP High). Toutes les ressources et données cloud restent sous votre location cloud, ce qui vous donne un contrôle total sur les versions logicielles, l'accès administratif, les clés de cryptage et le partage des ressources.

Le cluster de GPU Oracle avec GPU NVIDIA A100 ou GPU NVIDIA H100 est déployé en lançant la pile de cluster HPC à partir du Marketplace. En quelques clics et paramètres, les scripts Terraform et Ansible déploient automatiquement du matériel et des logiciels pour un environnement de cluster avec un réseau de cluster RoCEv2 à très faible latence basé sur la mise en réseau NVIDIA, les pilotes de mise en réseau de cluster, SLURM pour la planification des travaux, NVIDIA Pyxis et Enroot pour l'exécution de conteneurs distribués. Apportez vos propres modèles linguistiques et charges de travail d'apprentissage automatique volumineux ou extrayez les conteneurs NVIDIA PyTorch et NeMo pour exécuter les charges de travail compatibles avec NVIDIA AI Enterprise entièrement dans votre location sécurisée.

RoCEv2 Les réseaux de cluster sont conçus pour les charges globales de traitement parallèle très exigeantes, notamment les suivantes :
  • Grands modèles de langue
  • Vision artificielle
  • Apprentissage automatique
  • Simulation

Architecture

Cette architecture déploie un bastion ou un noeud de tête, qui exécute le planificateur et peut être utilisé en tant que serveur de bastion pour accéder au cluster.

Vous pouvez créer un noeud de traitement de calcul, à l'aide de divers types d'instance GPU NVIDIA, en fonction de vos besoins de traitement. Nous vous recommandons de placer le noeud de traitement de calcul dans le sous-réseau privé sécurisé. Vous pouvez déployer une instance de cluster de calcul GPU NVIDIA à partir d'Oracle Cloud Marketplace.

Cette architecture est déployée à l'aide de réseaux cloud virtuels publics et privés. Le réseau client peut accéder au noeud de tête et au noeud de calcul uniquement via le VPN IPSec, Oracle Cloud Infrastructure FastConnect ou le réseau Internet public.

L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité. Vous pouvez accéder à ces réseaux de cluster à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de base, puis de l'ajuster pour répondre à vos besoins spécifiques.

Le diagramme suivant illustre cette architecture de référence.

Description de l'image nvidia-ai-gvt-hpc-oci.png
Description de l'illustration nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architecture comporte les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (à travers les pays ou même les continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

  • Domaines de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes avec alimentation et matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes de serveur physiques, de maintenance du système et d'alimentation au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Hôte du bastion

    Le bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé vers la topologie depuis l'extérieur du cloud. Le bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant sur des réseaux privés inaccessibles directement depuis l'extérieur du cloud. La topologie comporte un seul point d'entrée connu que vous pouvez surveiller et auditer régulièrement. Vous pouvez donc éviter d'exposer les composants les plus sensibles de la topologie sans compromettre l'accès à ces composants.

  • Un noeud de calcul

    Sélectionnez la forme de GPU Bare Metal que vous utilisez dans ce cluster. Par exemple, sélectionnez BM.GPU4.8 alimenté par 4 GPU NVIDIA A100 Tensor Core, comme indiqué dans l'exemple ci-dessus, ou sélectionnez BM.GPU.H100.8 alimenté par 8 GPU NVIDIA H100 Tensor Core pour des avantages de performances FP8 à l'aide du NVIDIA Transformer Engine.

  • Noeud d'orchestration

    Le noeud d'orchestration effectue la gestion des noeuds de cluster, le provisionnement, le déprovisionnement et le déploiement des configurations logicielles, ainsi que la gestion des workflows de calcul et de l'orchestration des travaux.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés à entrer et sortir du sous-réseau.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour déployer le calcul hautes performances sur Oracle Cloud Infrastructure et personnalisez-les pour répondre à vos exigences spécifiques si nécessaire.
  • VCN

    Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR qui se trouvent dans l'espace d'adressage IP privé standard.

    Sélectionnez les blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur site ou un autre fournisseur cloud) vers lequel vous prévoyez de configurer des connexions privées.

    Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.

    Lorsque vous concevez les sous-réseaux, tenez compte de vos exigences en matière de flux de trafic et de sécurité. Attachez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, qui peut servir de limite de sécurité.

    Utilisez des sous-réseaux régionaux.

  • Listes de sécurité

    Utilisez des listes de sécurité pour définir les règles entrantes et sortantes qui s'appliquent à l'ensemble du sous-réseau.

  • Noeud Bastion

    Utilisez le fichier VM.Standard.E5. Forme Flex Compute. Etant donné que le noeud est utilisé en tant qu'hôte de bastion et pour programmer des travaux HPC, il ne nécessite pas de stockage ou de traitement GPU attaché localement.

  • Noeud de cluster de calcul GPU

    Utilisez la forme de calcul BM.GPU.A100.-v2.8 car ce noeud est utilisé pour les workflows de calcul GPU et les travaux à forte intensité de calcul.

Points à prendre en compte

Lors du déploiement du calcul hautes performances sur Oracle Cloud Infrastructure, envisagez ces options d'implémentation.

  • Performances

    Pour obtenir les meilleures performances, choisissez la forme de calcul appropriée avec la bande passante appropriée.

  • Disponibilité

    Envisagez d'utiliser une option de haute disponibilité en fonction de vos exigences de déploiement et de votre région. Vous pouvez notamment utiliser plusieurs domaines de disponibilité dans une région et des domaines de pannes.

  • Coût

    Une instance de GPU Bare Metal fournit la puissance CPU nécessaire pour un coût plus élevé. Evaluez vos exigences pour choisir la forme de calcul appropriée.

  • Surveillance et alertes

    Configurez la surveillance et des alertes sur l'utilisation de l'UC et de la mémoire pour vos noeuds afin de pouvoir augmenter ou réduire la forme selon vos besoins.

Déployez

Une pile Terraform pour déployer cette architecture de référence est disponible en tant que pile dans Oracle Cloud Marketplace. Vous pouvez également télécharger le code à partir de GitHub et le personnaliser selon vos besoins.

Remerciements

  • Auteur : Kevin Colwell
  • Contributeurs : Neil Pierson, George Boateng, Travis Lee, Michael Rutledge