Riavvio dei nodi di lavoro

Scopri come riavviare un nodo di lavoro in un cluster Kubernetes creato utilizzando Kubernetes Engine (OKE).

Nota

È possibile eseguire il ciclo dei nodi solo per riavviare i nodi di lavoro quando si utilizzano cluster avanzati. Vedere Utilizzo di cluster e cluster di base avanzati.

È possibile eseguire il ciclo dei nodi per riavviare i nodi sia con le forme delle virtual machine che con quelle Bare Metal.

È possibile eseguire il ciclo dei nodi per riavviare sia i nodi gestiti che i nodi autogestiti.

A volte, il reboot di un nodo di lavoro è il modo migliore per risolvere un problema con l'istanza di computazione che ospita il nodo di lavoro. Il riavvio dell'alimentazione di un nodo di lavoro ciclica l'istanza di computazione, che, ad esempio, cancellerebbe tutte le regole negli iptables dell'istanza di computazione. Nel caso di istanze di computazione GPU Bare Metal, il reboot di un nodo di lavoro potrebbe risolvere problemi quali:

Riduzione delle prestazioni lavorative o limitazione termica, causata da temperature di memoria GPU elevate.
Report inferiori al numero previsto di GPU.
errori NVLink, indicati da NVIDIA Fabric Manager che non riesce ad avviare o da job NCCL che non vengono eseguiti.

Utilizzando Kubernetes Engine, puoi:

Riavviare nodi gestiti specifici.
Riavviare nodi autogestiti specifici.

Quando si esegue il ciclo e il riavvio di un nodo di lavoro, Kubernetes Engine collega automaticamente il nodo di lavoro e lo scarica prima della sua chiusura. Viene quindi riavviato l'istanza di computazione che ospita il nodo di lavoro. Il comando di arresto inviato all'istanza di computazione che ospita il nodo di lavoro dipende dal numero di minuti specificato come periodo di tolleranza di rimozione (lunghezza di tempo per consentire il collegamento e lo svuotamento dei nodi di lavoro):

Se si specifica un periodo di tolleranza di rimozione pari a zero minuti, all'istanza di computazione viene inviato un comando RESET. L'istanza viene immediatamente spenta e quindi riaccesa.
Se si specifica un periodo di tolleranza di rimozione maggiore di zero minuti, all'istanza di computazione viene inviato un comando SOFTRESET. Dopo aver atteso 15 minuti per l'arresto del sistema operativi, l'istanza viene disattivata e poi riattiva.

Tenere presente che l'istanza stessa non viene interrotta e mantiene lo stesso OCID e lo stesso indirizzo di rete.

Tenere presenti le considerazioni riportate di seguito quando si esegue il ciclismo per riavviare i nodi di lavoro.

È necessario eseguire il ciclo e il riavvio dei nodi gestiti singolarmente. Non è possibile selezionare un pool di nodi gestiti e un ciclo ed eseguire il reboot di tutti i nodi gestiti al suo interno.
È possibile utilizzare la console, l'interfaccia CLI o l'API per eseguire il ciclo e il reboot dei nodi gestiti.
È necessario utilizzare la CLI o l'API per eseguire il ciclo e il riavvio dei nodi autogestiti. Non è possibile utilizzare la console per eseguire il ciclo e il reboot dei nodi autogestiti.

Cordonatura e drenaggio durante il ciclismo e il riavvio dei nodi

Quando si seleziona un singolo nodo di lavoro (un nodo gestito o un nodo autogestito) e si specifica che si desidera eseguire il ciclo e il riavvio del nodo, è possibile specificare le opzioni Cordon e drenaggio. Nel caso di nodi gestiti, le opzioni Cordon e drenaggio specificate per un nodo gestito sostituiscono le opzioni Cordon e drenaggio specificate per il pool di nodi.

Per ulteriori informazioni, vedere Registrazione e rimozione dei nodi gestiti prima dello spegnimento o della cessazione