Reinicio de nodos de trabajador

Descubra cómo reiniciar un nodo de trabajador en un cluster de Kubernetes que ha creado con Kubernetes Engine (OKE).

Nota

Solo puede sincronizar nodos para reiniciar nodos de trabajador al utilizar clusters mejorados. Consulte Trabajar con clusters mejorados y clusters básicos.

Puede sincronizar nodos para reiniciar nodos con unidades de máquina virtual y unidades con hardware dedicado.

Puede sincronizar los nodos para reiniciar los nodos gestionados y los nodos autogestionados.

En ocasiones, el reinicio de un nodo de trabajador es la mejor manera de resolver un problema con la instancia informática que aloja el nodo de trabajador. Al reiniciar un nodo de trabajador, se enciende la instancia informática, lo que, por ejemplo, borraría todas las reglas de las iptables de la instancia informática. En el caso de las instancias informáticas de GPU con hardware dedicado, el reinicio de un nodo de trabajador puede resolver problemas como:

Reducción del rendimiento del trabajo o limitación térmica, causada por altas temperaturas de memoria de GPU.
Informes de menos del número esperado de GPU.
Errores NVLink, indicados por el error de inicio de NVIDIA Fabric Manager o por el error de ejecución de los trabajos de NCCL.

Con Kubernetes Engine, puede:

Reinicie nodos gestionados específicos.
Reinicie nodos autogestionados específicos.

Al sincronizar y reiniciar un nodo de trabajador, Kubernetes Engine automáticamente conecta y drena el nodo de trabajador antes de cerrarlo. La instancia informática que aloja el nodo de trabajador se reinicia. El comando de cierre que se envía a la instancia informática que aloja el nodo de trabajador depende del número de minutos que especifique como período de gracia de expulsión (el tiempo que se tarda en acordonar y drenar los nodos de trabajador):

Si especifica un período de gracia de expulsión de cero minutos, se envía un comando RESET a la instancia informática. La instancia se apaga inmediatamente y, a continuación, se vuelve a encender.
Si especifica un período de gracia de expulsión superior a cero minutos, se envía un comando SOFTRESET a la instancia informática. Tras esperar 15 minutos para que el sistema operativos se cierre, la instancia se apaga y, luego, se vuelve a encender.

Tenga en cuenta que la instancia en sí no termina y mantiene el mismo OCID y la misma dirección de red.

Tenga en cuenta las siguientes consideraciones al sincronizar para reiniciar los nodos de trabajador:

Debe sincronizar y reiniciar los nodos gestionados de forma individual. No puede seleccionar un pool de nodos gestionado y sincronizar y reiniciar todos los nodos gestionados que contiene.
Puede utilizar la consola, la CLI o la API para sincronizar y reiniciar los nodos gestionados.
Debe utilizar la CLI o la API para sincronizar y reiniciar los nodos autogestionados. No puede utilizar la consola para sincronizar y reiniciar nodos autogestionados.

Conexión de cables y drenaje al sincronizar y reiniciar nodos

Cuando selecciona un nodo de trabajador individual (ya sea un nodo gestionado o un nodo autogestionado) y especifica que desea sincronizar y reiniciar ese nodo, puede especificar las opciones Cordón y vaciado. En el caso de los nodos gestionados, las opciones de cordón y vaciado que especifique para un nodo gestionado sustituyen las opciones de cordón y vaciado especificadas para el pool de nodos.

Para obtener más información, consulte Cordoning and Draining Managed Nodes Before Shut Down or Termination.