Réinitialisation des noeuds de processus actif

Découvrez comment redémarrer un noeud de processus actif dans un cluster Kubernetes que vous avez créé à l'aide de Kubernetes Engine (OKE).

Remarque

Vous pouvez uniquement cycler les noeuds pour redémarrer les noeuds de processus actif lors de l'utilisation de clusters améliorés. Reportez-vous à Utilisation des clusters améliorés et des clusters de base.

Vous pouvez cycler les noeuds pour les réinitialiser avec des formes de machine virtuelle et Bare Metal.

Vous pouvez cycler les noeuds pour réinitialiser les noeuds gérés et les noeuds autogérés.

Parfois, le redémarrage d'un noeud de processus actif est le meilleur moyen de résoudre un problème lié à l'instance de calcul hébergeant le noeud de processus actif. Le redémarrage d'un noeud de processus actif cycle l'instance de calcul, ce qui, par exemple, efface toutes les règles de l'instance de calcul iptables. Dans le cas d'instances de calcul de GPU Bare Metal, le redémarrage d'un noeud de processus actif peut résoudre des problèmes tels que :

Réduction des performances de travail ou ralentissement thermique, due à des températures de mémoire GPU élevées.
Rapports dont le nombre de GPU est inférieur au nombre attendu.
Erreurs NVLink, indiquées par l'échec du démarrage de NVIDIA Fabric Manager, ou par l'échec de l'exécution des travaux NCCL.

A l'aide de Kubernetes Engine, vous pouvez :

Réinitialisez des noeuds gérés spécifiques.
Réinitialisez des noeuds autogérés spécifiques.

Lorsque vous cyclez et réinitialisez un noeud de processus actif, Kubernetes Engine cordonne et draine automatiquement le noeud de processus actif avant de l'arrêter. L'instance de calcul hébergeant le noeud de processus actif est ensuite redémarrée. La commande d'arrêt envoyée à l'instance de calcul hébergeant le noeud de processus actif dépend du nombre de minutes que vous indiquez comme délai de grâce d'expulsion (durée pendant laquelle les noeuds de processus actif de cordon et de purge sont autorisés) :

Si vous indiquez un délai de grâce d'expulsion de zéro minute, une commande RESET est envoyée à l'instance de calcul. L'instance est immédiatement mise hors tension, puis sous tension.
Si vous indiquez une période de grâce d'expulsion supérieure à zéro minute, une commande SOFTRESET est envoyée à l'instance de calcul. Après 15 minutes pour permettre l'arrêt du système d'utilisation, l'instance est mise hors tension puis sous tension.

L'instance elle-même ne prend pas fin et conserve les mêmes OCID et adresse réseau.

Tenez compte des points suivants lors du cyclage pour réinitialiser les noeuds de processus actifs :

Vous devez cycler et réinitialiser les noeuds gérés individuellement. Vous ne pouvez pas sélectionner un pool de noeuds gérés, ni cycler et réinitialiser tous les noeuds gérés qu'il contient.
Vous pouvez utiliser la console, l'interface de ligne de commande ou l'API pour cycler et redémarrer les noeuds gérés.
Vous devez utiliser l'interface de ligne de commande ou l'API pour cycler et redémarrer les noeuds autogérés. Vous ne pouvez pas utiliser la console pour cycler et réinitialiser des noeuds autogérés.

Cordonage et purge lors du cyclage et de la réinitialisation des noeuds

Lorsque vous sélectionnez un noeud de processus actif individuel (noeud géré ou noeud autogéré) et que vous indiquez que vous souhaitez cycler et réinitialiser ce noeud, vous pouvez indiquer les options Cordon et purge. Dans le cas de noeuds gérés, les options Cordon et purge que vous spécifiez pour un noeud géré remplacent les options Cordon et purge spécifiées pour le pool de noeuds.

Pour plus d'informations, reportez-vous à la section Cordoning and Draining Managed Nodes Before Shut Down or Termination