Intégration des noeuds d'extension GPU
Les noeuds GPU doivent être détectés et provisionnés avant que leurs ressources matérielles ne soient disponibles pour utilisation dans les instances de calcul Private Cloud Appliance. Contrairement aux noeuds de calcul standard, qui sont ajoutés au bâti de base et automatiquement intégrés et préparés pour le provisionnement, les noeuds GPU passent par un processus plus strictement contrôlé.
Les noeuds GPU sont installés dans un bâti d'extension. Ses composants réseau doivent être connectés au bâti de base afin que le nouveau matériel puisse être intégré dans les réseaux d'administration matérielle et de données. Dans cette section, nous supposons que le bâti d'extension GPU a été installé et connecté au bâti de base Private Cloud Appliance. Pour les exigences d'installation, les informations d'installation du matériel physique et les détails de câblage, voir Développement du boîtier en nuage privé avec capacité de GPU.
Le bâti d'extension GPU est activé en exécutant un script à partir de l'un des noeuds de gestion. Avec une synchronisation et une orchestration précises basées sur un mapping statique, ce script allume et configure chaque composant du rack d'extension GPU. Les ports requis sur les commutateurs sont activés afin que tout le matériel puisse être découvert et enregistré dans la base de données du composant. Lorsque les opérations codées sont terminées, les réseaux de données et de gestion sont opérationnels sur les bâtis interconnectés. Le système d'exploitation et les logiciels supplémentaires sont installés sur les nouveaux noeuds, après quoi ils sont prêts à être provisionnés.
L'installation et l'activation du bâti d'expansion et des noeuds de GPU sont effectuées par Oracle. À partir de ce moment, le système traite les noeuds GPU de la même manière que tous les autres noeuds de calcul. Après le provisionnement, les administrateurs de boîtier peuvent les gérer et les surveiller à partir de l'interface utilisateur ou de l'interface de ligne de commande Service Enclave. Voir Exécution des opérations administratives sur les noeuds de calcul.
La migration en direct n'est pas prise en charge pour les instances GPU. Cela a une incidence sur certaines opérations de noeud de calcul.
-
L'évacuation d'un noeud GPU échouera. Les instances doivent être arrêtées manuellement.
-
La configuration de haute disponibilité du service de calcul s'applique aux instances GPU, mais est en outre limitée par des ressources matérielles limitées.
Lorsqu'un noeud GPU est hors ligne et retourne au fonctionnement normal, le service de calcul redémarre les instances qui ont été arrêtées lors de l'interruption. Une instance peut être redémarrée, par migration à froid, sur un autre noeud de processeur graphique avec suffisamment de ressources matérielles disponibles.
Pour la maintenance ou la mise à niveau planifiées, il est recommandé d'émettre une commande d'arrêt à partir du système d'exploitation de l'instance, puis d'arrêter correctement l'instance à partir de l'interface utilisateur Web du service de calcul ou de l'interface de ligne de commande OCI.
Les noeuds GPU sont ajoutés aux 3 domaines d'erreur existants, ce qui est cohérent avec l'architecture en nuage globale d'Oracle. Les domaines d'erreur peuvent devenir déséquilibrés car, contrairement aux noeuds de calcul standard, il est possible d'ajouter des noeuds GPU un par un. Cela n'a aucune incidence fonctionnelle sur les domaines d'erreur, car les familles de serveurs fonctionnent séparément les unes des autres. Les noeuds GPU ne peuvent héberger que des instances de calcul basées sur une forme GPU, et les migrations entre différentes familles de serveurs dans le même domaine d'erreur ne sont pas prises en charge.
Dans Compute Enclave, la consommation des ressources fournies par un noeud GPU est simple. Les utilisateurs déploient des instances de calcul avec une forme dédiée pour affecter 1 à 4 GPU. Les instances basées sur une forme GPU sont toujours exécutées sur un noeud GPU.