Intégration de noeuds d'extension de GPU
Les noeuds GPU doivent être repérés et provisionnés pour que leurs ressources matérielles puissent être utilisées dans les instances de calcul de Private Cloud Appliance. Contrairement aux nœuds de calcul standard, qui sont ajoutés au rack de base et automatiquement intégrés et préparés pour le provisionnement, les nœuds GPU passent par un processus plus strictement contrôlé.
Les noeuds GPU sont installés dans un rack d'extension. Ses composants de mise en réseau doivent être connectés au rack de base afin que le nouveau matériel puisse être intégré aux réseaux d'administration et de données du matériel. Dans cette section, nous supposons que le rack d'extension GPU a été installé et connecté au rack de base Private Cloud Appliance. Pour connaître les conditions d'installation, les informations d'installation du matériel physique et les détails de câblage, reportez-vous à Développement de Private Cloud Appliance avec une capacité de GPU.
Le rack d'extension GPU est activé en exécutant un script à partir de l'un des noeuds de gestion. Avec une synchronisation et une orchestration précises basées sur un mappage statique, ce script met sous tension et configure chaque composant dans le rack d'extension GPU. Les ports requis sur les commutateurs sont activés afin que tout le matériel puisse être repéré et enregistré dans la base de données des composants. Une fois les opérations scriptées terminées, les réseaux de données et de gestion sont opérationnels sur les racks interconnectés. Le système d'exploitation et les logiciels supplémentaires sont installés sur les nouveaux noeuds, après quoi ils sont prêts à être provisionnés.
L'installation et l'activation du rack d'extension et des noeuds GPU sont effectuées par Oracle. A partir de ce moment, le système traite les noeuds GPU de la même manière que tous les autres noeuds de calcul. Après le provisionnement, les administrateurs de l'appareil peuvent les gérer et les surveiller à partir de l'interface utilisateur ou de l'interface de ligne de commande Service Enclave. Reportez-vous à Exécution d'opérations administratives sur des noeuds de calcul.
La migration en direct n'est pas prise en charge pour les instances de GPU. Cela a un impact sur certaines opérations de noeud de calcul.
-
L'évacuation d'un noeud de GPU échoue. Les instances doivent être arrêtées manuellement.
-
La configuration de haute disponibilité de Compute Service s'applique aux instances GPU, mais elle est en outre limitée par des ressources matérielles limitées.
Lorsqu'un noeud de GPU est mis hors ligne et reprend son fonctionnement normal, Compute Service redémarre les instances qui ont été arrêtées pendant la panne. Une instance peut être redémarrée, via une migration à froid, sur un autre noeud de GPU disposant de suffisamment de ressources matérielles.
Pour une maintenance ou une mise à niveau planifiée, il est recommandé d'exécuter une commande d'arrêt à partir du système d'exploitation de l'instance, puis d'arrêter progressivement l'instance à partir de l'interface utilisateur Web Compute ou de l'interface de ligne de commande OCI.
Les noeuds GPU sont ajoutés aux 3 domaines de pannes existants, ce qui est cohérent avec l'architecture cloud globale d'Oracle. Les domaines de pannes peuvent devenir déséquilibrés car, contrairement aux noeuds de calcul standard, les noeuds GPU peuvent être ajoutés un par un. Cela n'a aucun impact fonctionnel sur les domaines de pannes car les familles de serveurs fonctionnent séparément les unes des autres. Les noeuds GPU peuvent uniquement héberger des instances de calcul basées sur une forme GPU, et les migrations entre différentes familles de serveurs dans le même domaine de pannes ne sont pas prises en charge.
Dans l'enclave de calcul, l'utilisation des ressources fournies par un noeud de GPU est simple. Les utilisateurs déploient des instances de calcul avec une forme dédiée pour allouer 1 à 4 GPU. Les instances basées sur une forme de GPU sont toujours exécutées sur un noeud de GPU.