Déployer un processeur graphique haute performance pour les charges de travail d'IA gouvernementales

L'ajout de NVIDIA DGX Cloud et de NVIDIA AI Enterprise à Oracle Cloud Marketplace vous permet d'effectuer rapidement et facilement tout type de formation de modèle étendu pour les applications d'IA générative sur OCI, y compris pour les charges de travail optimisées par NVIDIA NeMo Framework, un cadre natif en nuage de bout en bout pour créer, personnaliser et déployer l'IA générative.

L'environnement de ressources partagées de DGX Cloud peut être moins adapté aux clients des régions gouvernementales des États-Unis qui ont besoin d'une sécurité accrue pour garder toutes les données et ressources sous le contrôle de leurs propres locations. Nous avons une autre solution pour vous.

Oracle facilite maintenant le déploiement d'une grappe privée de systèmes GPU NVIDIA sans système d'exploitation dans nos régions pour le service Oracle US Government Cloud (FedRAMP élevé). Toutes les ressources et données en nuage demeurent sous votre location, ce qui vous donne un contrôle total sur les versions de logiciel, l'accès administratif, les clés de chiffrement et le partage des ressources.

La grappe de GPU Oracle avec des GPU NVIDIA A100 ou NVIDIA H100 est déployée en lançant la pile de grappes de calcul de haute performance à partir du marché des applications. En seulement quelques clics et paramètres, les scripts Terraform et Ansible déploient automatiquement le matériel et les logiciels pour un environnement de grappe avec un réseau en grappe RoCEv2 à très faible latence basé sur le réseau NVIDIA, les pilotes de réseau en grappe, SLURM pour la programmation des tâches, NVIDIA Pyxis et Enroot pour l'exécution de conteneur distribué. Utilisez vos propres modèles de langage et charges de travail d'apprentissage automatique de grande envergure ou extrayez les conteneurs NVIDIA PyTorch et NeMo pour exécuter des charges de travail compatibles NVIDIA AI Enterprise entièrement dans votre location sécurisée.

RoCEv2 Les réseaux en grappe sont conçus pour les charges de travail de traitement parallèle hautement exigeantes, notamment :
  • Modèles de langue volumineux
  • Vision artificielle
  • Apprentissage automatique
  • Simulations

Architecture

Cette architecture déploie un hôte bastion ou un noeud principal, qui exécute le programmateur et peut être utilisé en tant que serveur bastion pour accéder au cluster.

Vous pouvez créer un noeud de traitement de calcul, à l'aide de divers types d'instance GPU NVIDIA, avec vos exigences de traitement. Nous vous recommandons de placer le noeud de traitement de calcul dans le sous-réseau privé sécurisé. Vous pouvez déployer une instance de grappe de calcul NVIDIA GPU à partir d'Oracle Cloud Marketplace.

Cette architecture est déployée à l'aide de réseaux en nuage virtuels publics et privés. Le réseau du client ne peut accéder au noeud principal et au noeud de calcul qu'au moyen du RPV IPSec, d'Oracle Cloud Infrastructure FastConnect ou du réseau Internet public.

L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité. Vous pouvez accéder à ces réseaux en grappe à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de base, puis de l'ajuster pour répondre à vos besoins spécifiques.

Le diagramme suivant illustre cette architecture de référence.

Description de nvidia-ai-gvt-hpc-oci.png
Description de l'illustration nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architecture comprend les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).

  • D domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Par conséquent, une défaillance dans un domaine de disponibilité ne devrait pas avoir d'incidence sur les autres domaines de disponibilité de la région.

  • D domaines d'erreur

    Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur avec une puissance et un matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines d'erreur, vos applications peuvent tolérer les pannes physiques de serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine d'erreur.

  • Réseau en nuage virtuel (VCN) et sous-réseaux

    Un VCN est un réseau défini par logiciel personnalisable, configuré dans une région Oracle Cloud Infrastructure. À l'instar des réseaux de centre de données traditionnels, ces derniers vous permettent de contrôler votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Hôte bastion

    L'hôte bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé à la topologie en dehors du nuage. L'hôte bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant dans des réseaux privés qui ne sont pas accessibles directement depuis l'extérieur du nuage. La topologie dispose d'un point d'entrée unique et connu que vous pouvez surveiller et vérifier régulièrement. Ainsi, vous pouvez éviter d'exposer les composants les plus sensibles de la topologie sans compromettre l'accès à ces composants.

  • Noeud de calcul

    Sélectionnez la forme de processeur graphique sans système d'exploitation que vous utilisez dans cette grappe. Par exemple, sélectionnez BM.GPU4.8 optimisée par 4 processeurs graphiques à cœur tenseur NVIDIA A100, comme illustré dans l'exemple ci-dessus, ou BM.GPU.H100.8 optimisée par 8 processeurs graphiques à cœur tenseur NVIDIA H100 pour obtenir des avantages en matière de performance FP8 à l'aide du moteur de transformateur NVIDIA.

  • Noeud d'orchestration

    Le noeud d'orchestration effectue la gestion, le provisionnement, le déprovisionnement et le déploiement des configurations logicielles, ainsi que la gestion des flux de travail de calcul et l'orchestration des tâches.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour déployer le calcul de haute performance sur Oracle Cloud Infrastructure, et les adapter en fonction de vos exigences particulières au besoin.
  • VCN

    Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR qui se trouvent dans l'espace d'adresses IP privées standard.

    Sélectionnez les blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur place ou un autre fournisseur de nuage) auquel vous voulez configurer des connexions privées.

    Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.

    Lorsque vous concevez les sous-réseaux, tenez compte de vos exigences en matière de flux de trafic et de sécurité. Attachez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, qui peut servir de limite de sécurité.

    Utilisez des sous-réseaux régionaux.

  • Listes de sécurité

    Utilisez des listes de sécurité pour définir des règles de trafic entrant et sortant qui s'appliquent à l'ensemble du sous-réseau.

  • Noeud d'hôte bastion

    Utilisez VM.Standard.E5. Forme de calcul flexible Comme le noeud est utilisé en tant qu'hôte bastion et pour programmer des tâches de calcul de haute performance, il ne nécessite pas de stockage attaché localement ni de traitement GPU.

  • Noeud de grappe de calcul GPU

    Utilisez la forme de calcul BM.GPU.A100.-v2.8, car ce noeud est utilisé pour les flux de travail de calcul GPU et les tâches qui nécessitent beaucoup de calcul.

Points à considérer

Lors du déploiement du calcul de haute performance sur Oracle Cloud Infrastructure, tenez compte de ces options de mise en oeuvre.

  • Performance

    Pour obtenir les meilleures performances, choisissez la forme de calcul appropriée avec une bande passante appropriée.

  • Disponibilité

    Envisagez d'utiliser une option de haute disponibilité en fonction de vos besoins de déploiement et de votre région. Les options incluent l'utilisation de plusieurs domaines de disponibilité dans une région et des domaines d'erreur.

  • Coût

    Une instance de processeur graphique sans système d'exploitation fournit la puissance d'UC nécessaire pour un coût supérieur. Évaluez vos besoins pour choisir la forme de calcul appropriée.

  • Surveillance et alertes

    Configurez la surveillance et les alertes sur l'utilisation de l'UC et de la mémoire pour vos noeuds, afin que vous puissiez ajuster la forme au besoin.

Déployez

Une pile Terraform pour déployer cette architecture de référence est disponible en tant que pile dans Oracle Cloud Marketplace. Vous pouvez également télécharger le code à partir de GitHub et le personnaliser selon vos besoins.

Confirmation

  • Auteur : Kevin Colwell
  • Contributeurs : Neil Pierson, George Boateng, Travis Lee, Michael Rutledge