Déployer un processeur graphique haute performance pour les charges de travail d'IA gouvernementales
L'environnement de ressources partagées de DGX Cloud peut être moins adapté aux clients des régions gouvernementales des États-Unis qui ont besoin d'une sécurité accrue pour garder toutes les données et ressources sous le contrôle de leurs propres locations. Nous avons une autre solution pour vous.
Oracle facilite maintenant le déploiement d'une grappe privée de systèmes GPU NVIDIA sans système d'exploitation dans nos régions pour le service Oracle US Government Cloud (FedRAMP élevé). Toutes les ressources et données en nuage demeurent sous votre location, ce qui vous donne un contrôle total sur les versions de logiciel, l'accès administratif, les clés de chiffrement et le partage des ressources.
La grappe de GPU Oracle avec des GPU NVIDIA A100 ou NVIDIA H100 est déployée en lançant la pile de grappes de calcul de haute performance à partir du marché des applications. En seulement quelques clics et paramètres, les scripts Terraform et Ansible déploient automatiquement le matériel et les logiciels pour un environnement de grappe avec un réseau en grappe RoCEv2 à très faible latence basé sur le réseau NVIDIA, les pilotes de réseau en grappe, SLURM pour la programmation des tâches, NVIDIA Pyxis et Enroot pour l'exécution de conteneur distribué. Utilisez vos propres modèles de langage et charges de travail d'apprentissage automatique de grande envergure ou extrayez les conteneurs NVIDIA PyTorch et NeMo pour exécuter des charges de travail compatibles NVIDIA AI Enterprise entièrement dans votre location sécurisée.
- Modèles de langue volumineux
- Vision artificielle
- Apprentissage automatique
- Simulations
Architecture
Cette architecture déploie un hôte bastion ou un noeud principal, qui exécute le programmateur et peut être utilisé en tant que serveur bastion pour accéder au cluster.
Vous pouvez créer un noeud de traitement de calcul, à l'aide de divers types d'instance GPU NVIDIA, avec vos exigences de traitement. Nous vous recommandons de placer le noeud de traitement de calcul dans le sous-réseau privé sécurisé. Vous pouvez déployer une instance de grappe de calcul NVIDIA GPU à partir d'Oracle Cloud Marketplace.
Cette architecture est déployée à l'aide de réseaux en nuage virtuels publics et privés. Le réseau du client ne peut accéder au noeud principal et au noeud de calcul qu'au moyen du RPV IPSec, d'Oracle Cloud Infrastructure FastConnect ou du réseau Internet public.
L'architecture utilise une région avec un domaine de disponibilité et des sous-réseaux régionaux. Vous pouvez utiliser la même architecture dans une région avec plusieurs domaines de disponibilité. Nous vous recommandons d'utiliser des sous-réseaux régionaux pour votre déploiement, quel que soit le nombre de domaines de disponibilité. Vous pouvez accéder à ces réseaux en grappe à partir d'Oracle Cloud Marketplace ou les déployer manuellement. Dans les deux cas, nous vous recommandons d'utiliser l'architecture de référence de base, puis de l'ajuster pour répondre à vos besoins spécifiques.
Le diagramme suivant illustre cette architecture de référence.
![Description de nvidia-ai-gvt-hpc-oci.png Description de nvidia-ai-gvt-hpc-oci.png](img/nvidia-ai-gvt-hpc-oci.png)
Description de l'illustration nvidia-ai-gvt-hpc-oci.png
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip
L'architecture comprend les composants suivants :
- Région
Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).
- D domaines de disponibilité
Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Par conséquent, une défaillance dans un domaine de disponibilité ne devrait pas avoir d'incidence sur les autres domaines de disponibilité de la région.
- D domaines d'erreur
Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur avec une puissance et un matériel indépendants. Lorsque vous répartissez des ressources entre plusieurs domaines d'erreur, vos applications peuvent tolérer les pannes physiques de serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine d'erreur.
- Réseau en nuage virtuel (VCN) et sous-réseaux
Un VCN est un réseau défini par logiciel personnalisable, configuré dans une région Oracle Cloud Infrastructure. À l'instar des réseaux de centre de données traditionnels, ces derniers vous permettent de contrôler votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Hôte bastion
L'hôte bastion est une instance de calcul qui sert de point d'entrée sécurisé et contrôlé à la topologie en dehors du nuage. L'hôte bastion est généralement provisionné dans une zone démilitarisée (DMZ). Il vous permet de protéger les ressources sensibles en les plaçant dans des réseaux privés qui ne sont pas accessibles directement depuis l'extérieur du nuage. La topologie dispose d'un point d'entrée unique et connu que vous pouvez surveiller et vérifier régulièrement. Ainsi, vous pouvez éviter d'exposer les composants les plus sensibles de la topologie sans compromettre l'accès à ces composants.
- Noeud de calcul
Sélectionnez la forme de processeur graphique sans système d'exploitation que vous utilisez dans cette grappe. Par exemple, sélectionnez BM.GPU4.8 optimisée par 4 processeurs graphiques à cœur tenseur NVIDIA A100, comme illustré dans l'exemple ci-dessus, ou BM.GPU.H100.8 optimisée par 8 processeurs graphiques à cœur tenseur NVIDIA H100 pour obtenir des avantages en matière de performance FP8 à l'aide du moteur de transformateur NVIDIA.
- Noeud d'orchestration
Le noeud d'orchestration effectue la gestion, le provisionnement, le déprovisionnement et le déploiement des configurations logicielles, ainsi que la gestion des flux de travail de calcul et l'orchestration des tâches.
- Liste de sécurité
Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.
Recommandations
- VCN
Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR qui se trouvent dans l'espace d'adresses IP privées standard.
Sélectionnez les blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur place ou un autre fournisseur de nuage) auquel vous voulez configurer des connexions privées.
Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.
Lorsque vous concevez les sous-réseaux, tenez compte de vos exigences en matière de flux de trafic et de sécurité. Attachez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, qui peut servir de limite de sécurité.
Utilisez des sous-réseaux régionaux.
- Listes de sécurité
Utilisez des listes de sécurité pour définir des règles de trafic entrant et sortant qui s'appliquent à l'ensemble du sous-réseau.
- Noeud d'hôte bastion
Utilisez VM.Standard.E5. Forme de calcul flexible Comme le noeud est utilisé en tant qu'hôte bastion et pour programmer des tâches de calcul de haute performance, il ne nécessite pas de stockage attaché localement ni de traitement GPU.
- Noeud de grappe de calcul GPU
Utilisez la forme de calcul BM.GPU.A100.-v2.8, car ce noeud est utilisé pour les flux de travail de calcul GPU et les tâches qui nécessitent beaucoup de calcul.
Points à considérer
Lors du déploiement du calcul de haute performance sur Oracle Cloud Infrastructure, tenez compte de ces options de mise en oeuvre.
- Performance
Pour obtenir les meilleures performances, choisissez la forme de calcul appropriée avec une bande passante appropriée.
- Disponibilité
Envisagez d'utiliser une option de haute disponibilité en fonction de vos besoins de déploiement et de votre région. Les options incluent l'utilisation de plusieurs domaines de disponibilité dans une région et des domaines d'erreur.
- Coût
Une instance de processeur graphique sans système d'exploitation fournit la puissance d'UC nécessaire pour un coût supérieur. Évaluez vos besoins pour choisir la forme de calcul appropriée.
- Surveillance et alertes
Configurez la surveillance et les alertes sur l'utilisation de l'UC et de la mémoire pour vos noeuds, afin que vous puissiez ajuster la forme au besoin.
Déployez
-
Déployer à l'aide de la pile dans Oracle Cloud Marketplace :
- Accédez à Oracle Cloud Marketplace.
- Cliquez sur Obtenir l'application.
- Suivez les invites à l'écran. Pour les exigences gouvernementales et les environnements d'exploitation, voir Configurer une pile de grappes de calcul de haute performance pour déployer l'intelligence artificielle NVIDIA dans une région gouvernementale OCI.
- Acceptez le contrat de licence d'utilisation.
- Déployez à l'aide du code dans GitHub :
- Allez à GitHub.
- Clonez ou téléchargez le référentiel.
- Suivez les instructions du document
README
.
Informations complémentaires
Pour en savoir plus sur les caractéristiques de cette architecture.
- NVIDIA NeMo
- Cadre des meilleures pratiques pour Oracle Cloud Infrastructure
- Exécution d'applications sur Oracle Cloud à l'aide du service de réseau en grappe (blogue)
- Exécution de PyTorch tâches parallèles de données réparties sur la grappe GPU OCI (blogue)
- Présentation de la disponibilité générale des instances sans système d'exploitation du service de calcul pour OCI optimisées par les processeurs graphiques NVIDIA H100 (blogue)