Configuration d'une pile de cluster HPC pour déployer l'IA NVIDIA dans une région gouvernementale OCI

Configurer et déployer un cluster privé de systèmes GPU Bare Metal NVIDIA dans Oracle US Government Cloud (FedRAMP High). Toutes les ressources et données cloud restent sous votre location cloud, ce qui vous donne un contrôle total sur les versions logicielles, l'accès administratif, les clés de cryptage et le partage des ressources.

La pile de cluster HPC utilise Terraform pour déployer des ressources Oracle Cloud Infrastructure (OCI). La pile crée des noeuds GPU, du stockage, des fonctions de réseau standard et des fonctions de réseau de cluster hautes performances, ainsi qu'un bastion/noeud principal pour l'accès au cluster et sa gestion.

Avant de commencer

En savoir plus sur le déploiement de NVIDIA Enterprise sur Oracle Cloud Infrastructure Government Cloud. Reportez-vous à Déploiement de calcul GPU hautes performances pour les charges de travail d'IA gouvernementales.

Architecture

Cette architecture déploie un bastion ou un noeud de tête, qui exécute le planificateur et peut être utilisé comme serveur de bastion pour accéder au cluster.

Vous pouvez créer un noeud de traitement de calcul, à l'aide de divers types d'instance GPU NVIDIA, en fonction de vos besoins de traitement. Nous vous recommandons de placer le noeud de traitement de calcul dans le sous-réseau privé sécurisé. Vous pouvez déployer une instance de cluster de calcul GPU NVIDIA à partir d'Oracle Cloud Marketplace.

Cette architecture est déployée à l'aide de réseaux cloud virtuels publics et privés. Le réseau client peut accéder au noeud de tête et au noeud de calcul uniquement via le VPN IPSec, Oracle Cloud Infrastructure FastConnect ou le réseau Internet public.

L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité. Vous pouvez accéder à ces réseaux de cluster à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de base, puis de l'ajuster pour répondre à vos besoins spécifiques.

Le diagramme suivant illustre cette architecture de référence.

Description de l'image nvidia-ai-gvt-hpc-oci.png
Description de l'illustration nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architecture comporte les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (dans des pays voire des continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

  • Domaines de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes avec alimentation et matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes de serveur physiques, de maintenance du système et d'alimentation au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle de l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Hôte du bastion

    Le bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé vers la topologie depuis l'extérieur du cloud. Le bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant sur des réseaux privés inaccessibles directement depuis l'extérieur du cloud. La topologie comporte un seul point d'entrée connu que vous pouvez surveiller et auditer régulièrement. Vous pouvez donc éviter d'exposer les composants les plus sensibles de la topologie sans compromettre l'accès à ces composants.

  • Noeud de calcul

    Sélectionnez la forme de GPU Bare Metal que vous utilisez dans ce cluster. Par exemple, sélectionnez BM.GPU4.8 alimenté par 4 GPU NVIDIA A100 Tensor Core, comme indiqué dans l'exemple ci-dessus, ou sélectionnez BM.GPU.H100.8 alimenté par 8 GPU NVIDIA H100 Tensor Core pour des avantages de performances FP8 à l'aide du NVIDIA Transformer Engine.

  • Noeud d'orchestration

    Le noeud d'orchestration effectue la gestion des noeuds de cluster, le provisionnement, le déprovisionnement et le déploiement des configurations logicielles, ainsi que la gestion des workflows de calcul et de l'orchestration des travaux.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité indiquant la source, la destination et le type de trafic qui doivent être autorisés à entrer et sortir du sous-réseau.

A propos des produits, services et rôles requis

Cette solution nécessite les produits, services et rôles suivants :

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI Entreprise
  • Structure NVIDIA NeMo

  • NVIDIA Enroot

  • NVIDIA NCCL

Il s'agit des rôles nécessaires pour chaque service.

Nom de service : rôle Obligatoire pour...
Oracle Cloud Infrastructure Government Cloud : utilisateur Oracle Cloud pour la location Créez un compartiment dans Oracle Cloud Infrastructure (OCI), déployez le cluster de GPU et configurez le cluster de GPU.
OCI Government Cloud : administrateur de la sécurité ou du réseau Créez ou modifiez des stratégies OCI, si nécessaire, pour vous permettre de créer le cluster.
OCI Government Cloud : opc Connectez-vous au bastion pour vérifier la configuration, mettre à jour le système d'exploitation et exécuter la charge de travail de formation LLM.

Reportez-vous à Produits, solutions et services Oracle pour obtenir ce dont vous avez besoin.