Configurer une pile de grappes de calcul de haute performance pour déployer l'IA NVIDIA dans une région du gouvernement OCI

Configurez et déployez une grappe privée de systèmes GPU NVIDIA sans système d'exploitation dans Oracle US Government Cloud (FedRAMP Élevé). Toutes les ressources et données en nuage demeurent sous votre location, ce qui vous donne un contrôle total sur les versions de logiciel, l'accès administratif, les clés de chiffrement et le partage des ressources.

La pile de grappes de calcul de haute performance utilise Terraform pour déployer des ressources Oracle Cloud Infrastructure (OCI). La pile crée des noeuds GPU, du stockage, un réseau standard et un réseau en grappe haute performance, ainsi qu'un noeud d'hôte bastion/en-tête pour l'accès à la grappe et sa gestion.

Étapes préliminaires

Cliquez sur le lien pour en savoir plus sur le déploiement de NVIDIA Enterprise sur Oracle Cloud Infrastructure Government Cloud. Voir Déployer le calcul GPU haute performance pour les charges de travail d'IA gouvernementales.

Architecture

Cette architecture déploie un hôte bastion ou un noeud principal, qui exécute le programmateur et peut être utilisé comme serveur bastion pour accéder au cluster.

Vous pouvez créer un noeud de traitement de calcul, à l'aide de divers types d'instance GPU NVIDIA, avec vos exigences de traitement. Nous vous recommandons de placer le noeud de traitement de calcul dans le sous-réseau privé sécurisé. Vous pouvez déployer une instance de grappe de calcul NVIDIA GPU à partir d'Oracle Cloud Marketplace.

Cette architecture est déployée à l'aide de réseaux en nuage virtuels publics et privés. Le réseau du client ne peut accéder au noeud principal et au noeud de calcul qu'au moyen du RPV IPSec, d'Oracle Cloud Infrastructure FastConnect ou du réseau Internet public.

L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité. Vous pouvez accéder à ces réseaux en grappe à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de base, puis de l'ajuster pour répondre à vos besoins spécifiques.

Le diagramme suivant illustre cette architecture de référence.

Description de nvidia-ai-gvt-hpc-oci.png :
Description de l'illustration nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architecture comprend les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Par conséquent, une défaillance dans un domaine de disponibilité ne devrait pas avoir d'incidence sur les autres domaines de disponibilité de la région.

  • Domaines d'erreur

    Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur avec une puissance et un matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines d'erreur, vos applications peuvent tolérer les pannes physiques de serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine d'erreur.

  • Réseau en nuage virtuel (VCN) et sous-réseau

    Un VCN est un réseau défini par logiciel personnalisable, configuré dans une région Oracle Cloud Infrastructure. À l'instar des réseaux de centre de données traditionnels, ces derniers vous permettent de contrôler votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Hôte bastion

    L'hôte bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé à la topologie en dehors du nuage. L'hôte bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant dans des réseaux privés qui ne sont pas accessibles directement depuis l'extérieur du nuage. La topologie dispose d'un point d'entrée unique et connu que vous pouvez surveiller et vérifier régulièrement. Ainsi, vous pouvez éviter d'exposer les composants les plus sensibles de la topologie sans compromettre l'accès à ces composants.

  • Noeud de calcul

    Sélectionnez la forme de processeur graphique sans système d'exploitation que vous utilisez dans cette grappe. Par exemple, sélectionnez BM.GPU4.8 optimisée par 4 processeurs graphiques à cœur tenseur NVIDIA A100, comme illustré dans l'exemple ci-dessus, ou BM.GPU.H100.8 optimisée par 8 processeurs graphiques à cœur tenseur NVIDIA H100 pour obtenir des avantages en matière de performance FP8 à l'aide du moteur de transformateur NVIDIA.

  • Noeud d'orchestration

    Le noeud d'orchestration effectue la gestion, le provisionnement, le déprovisionnement et le déploiement des configurations logicielles, ainsi que la gestion des flux de travail de calcul et l'orchestration des tâches.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.

À propos des produits, services et rôles requis

Cette solution nécessite les produits, services et rôles suivants :

  • Nuage gouvernemental d'Oracle Cloud Infrastructure

  • NVIDIA AI Enterprise
  • Cadre NVIDIA NeMo

  • NVIDIA Enroot

  • NVIDIA NCCL

Il s'agit des rôles nécessaires pour chaque service.

Nom de service : Rôle Requis pour...
Oracle Cloud Infrastructure Government Cloud : Utilisateur Oracle Cloud de la location Créez un compartiment dans Oracle Cloud Infrastructure (OCI), déployez la grappe GPU et configurez la grappe GPU.
Nuage gouvernemental OCI : administrateur de la sécurité ou du réseau Créez ou modifiez des politiques OCI, au besoin, pour vous permettre de créer la grappe.
Nuage gouvernemental OCI : opc Connectez-vous à l'hôte bastion pour vérifier la configuration, mettre à jour le système d'exploitation et exécuter la charge de travail de formation LLM.

Voir Produits, solutions et services Oracle pour obtenir ce dont vous avez besoin.