Extension de GPU

Pour activer les charges de travail accélérées par GPU dans le centre de données local, une installation de Compute Cloud@Customer peut être étendue avec des noeuds de serveur pour lesquels des GPU sont installés.

Les nœuds GPU sont fournis dans un rack d'extension contenant des unités de distribution d'énergie (PDU) et des composants réseau pour intégrer les ressources physiques supplémentaires au rack de base. Un bâti d'extension GPU contient au moins 1 et un maximum de 6 noeuds GPU installés en usine. D'autres noeuds peuvent être installés après le déploiement initial. Jusqu'à deux bâtis d'extension peuvent être connectés à un bâti de base, pour un maximum de 12 noeuds GPU.

Un noeud GPU est un serveur à 3 RU doté de l'architecture Intel Xeon Platinum 8480+, d'une connectivité Ethernet haut débit et de quatre processeurs graphiques NVIDIA L40S avec 48 Go de mémoire GDDR6 et 1466 TFLOPS de pointe FP8. Une fois que ces noeuds ont été entièrement provisionnés, leur utilisation est transparente : lors du lancement d'une nouvelle instance de calcul, les utilisateurs sélectionnent une forme de calcul dédiée pour affecter un ou plusieurs GPU à l'instance. Pour obtenir la description des formes disponibles, voir Formes de calcul.

Pour les spécifications détaillées des composants, consultez le site Web du fabricant.

Oracle Compute Cloud@Customer, avec l'expansion des processeurs graphiques, fournit une plate-forme évolutive pour créer des applications intensives en intelligence artificielle et en graphisme en périphérie. Il est conçu pour alimenter la prochaine génération de charges de travail de centre de données, notamment :

  • Inférence de l'IA générative : inférence en temps réel pour les pipelines d'IA générative multimodèles (texte, image, audio, vidéo)

  • Formation sur le LLM et réglage fin : performance accélérée pour le réglage fin des LLM moyens et la formation des petits LLM avec le moteur de transformateur de NVIDIA et la prise en charge de FP8

  • Applications graphiques et VDI intensives : 3D graphiques et flux de travail de rendu avec les fonctionnalités RTX et Ray Tracing de NVIDIA

  • Jumeaux numériques utilisant NVIDIA Omniverse : développer et exploiter des flux de travail complexes de numérisation industrielle 3D

  • Diffusion multimédia : augmentation de la densité d'encodage/décodage et prise en charge de AV1 pour la diffusion vidéo en continu 4K

  • Calcul de haute performance : charges de travail d'analyse de données scientifiques et de simulation avec prise en charge de FP32

Exigences d'installation

Préparation du site

Si vous avez décidé d'étendre votre environnement Compute Cloud@Customer avec des noeuds GPU, planifiez soigneusement l'installation du matériel supplémentaire. Le bâti d'extension GPU a les mêmes dimensions externes que le bâti de base et contient le même type de matériel. Par conséquent, les exigences relatives au lieu du bâti de base s'appliquent également au bâti d'extension. Ils sont décrits en détail dans la section d'installation Préparation du site d'installation.

Câblage en rack

Les connexions de câble entre le bâti de base et le bâti d'extension GPU ne doivent pas dépasser 25 mètres. Allouez un espace pour le rack d'extension près du rack de base, en vous assurant que le câblage inter-rack est dans la longueur maximale spécifiée lorsqu'il est acheminé à travers le plancher ou le plafond. La longueur de câble requise doit être spécifiée avec la commande.

Stockage haute performance

Les formes de calcul GPU sont optimisées pour une vitesse élevée et une latence faible. Ils utilisent exclusivement le stockage haute performance, ce qui signifie que ZFS Storage Appliance du système doit fournir un groupe de stockage haute performance composé d'un ou de plusieurs plateaux de disques de performance. Si aucune plate-forme de performances n'est présente dans l'installation existante, une plate-forme est ajoutée à l'ordre d'extension GPU. Si le bâti de base n'a pas d'unité de bâti disponible pour ajouter le plateau de performance, il sera installé dans un bâti d'extension de stockage. Le groupe de stockage haute performance doit être configuré avant l'activation du bâti d'extension GPU.

Processus d'installation

Installation physique

Toutes les tâches d'installation sont effectuées par Oracle. Lorsque le bâti d'extension GPU se trouve dans l'espace qui lui est alloué, il doit être connecté au bâti de base. Les commutateurs à lames du rack d'extension sont interconnectés aux commutateurs à la colonne vertébrale du rack de base pour étendre le réseau de données dans le rack d'extension. De même, les composants du rack d'extension sont ajoutés au réseau de gestion interne via une connexion par câble entre les commutateurs de gestion des deux racks. Les ports requis pour cette configuration ont été réservés sur tous les commutateurs connectés. Les noeuds GPU sont connectés en interne aux commutateurs de rack d'extension en usine.

Activation de bâti

Lorsque les connexions physiques sont en place, le rack d'extension est activé en exécutant un script à partir de l'un des noeuds de gestion. Le script allume les commutateurs et active les ports requis afin que les nouveaux composants matériels puissent être détectés et enregistrés. Une fois le script terminé, les réseaux de données et de gestion sont opérationnels sur les bâtis interconnectés. Le système procède à l'installation et à la configuration du système d'exploitation et des logiciels supplémentaires sur les nouveaux nœuds, en les préparant au provisionnement. Une fois les noeuds GPU provisionnés, ils sont entièrement intégrés et prêts à l'emploi.

Les noeuds GPU sont ajoutés aux domaines d'erreur existants aux côtés d'autres noeuds de calcul, mais les familles de serveurs fonctionnent séparément les unes des autres et les migrations entre eux ne sont pas prises en charge. Les domaines d'erreur peuvent devenir déséquilibrés car, contrairement aux noeuds de calcul standard, les noeuds GPU peuvent être ajoutés un par un.