ワーカー・ノードの再起動

Kubernetes Engine (OKE)を使用して作成したKubernetesクラスタでワーカー・ノードを再起動する方法を確認します。

ノート

拡張クラスタを使用している場合、ワーカー・ノードを再起動するためにノードのみを循環できます。拡張クラスタおよび基本クラスタの使用を参照してください。

ノードをサイクルして、仮想マシン・シェイプとベア・メタル・シェイプの両方でノードを再起動できます。

ノードを循環して、管理対象ノードと自己管理ノードの両方を再起動できます。

ワーカー・ノードをリブートすることが、ワーカー・ノードをホストしているコンピュート・インスタンスの問題を解決する最適な方法です。ワーカー・ノードを再起動すると、コンピュート・インスタンスの電源が再投入されます。これにより、たとえば、コンピュート・インスタンスのiptables内のすべてのルールがクリアされます。ベア・メタルGPUコンピュート・インスタンスの場合、ワーカー・ノードを再起動すると、次のような問題が解決される可能性があります:

GPUメモリーの温度が高いことが原因で、ジョブ・パフォーマンスまたはサーマル・スロットルの低下。
予想されるGPU数より少ない数のレポート。
NVLinkエラー。NVIDIA Fabric Managerの起動に失敗するか、NCCLジョブの実行に失敗します。

Kubernetes Engineを使用すると、次のことができます:

特定の管理対象ノードを再起動します。
特定の自己管理ノードを再起動します。

ワーカー・ノードをサイクルして再起動すると、Kubernetes Engineはワーカー・ノードを停止する前に、ワーカー・ノードを自動的にコード化およびドレインします。その後、ワーカー・ノードをホストしているコンピュート・インスタンスが再起動されます。ワーカー・ノードをホストするコンピュート・インスタンスに送信されるshutdownコマンドは、削除猶予期間として指定した分数(ワーカー・ノードをコード化およびドレインできる時間の長さ)によって異なります。

ゼロ分の削除猶予期間を指定すると、RESETコマンドがコンピュート・インスタンスに送信されます。インスタンスの電源がただちに切断され、再び投入されます。
ゼロ分を超える削除猶予期間を指定すると、SOFTRESETコマンドがコンピュート・インスタンスに送信されます。オペレーティング・システムを停止するまで15分間待った後、インスタンスの電源が切断されて投入されます。

インスタンス自体は終了せず、同じOCIDとネットワーク・アドレスを保持することに注意してください。

ワーカー・ノードを再起動するためにサイクリングする場合、次の考慮事項に注意してください。

管理対象ノードは個別にサイクルおよび再起動する必要があります。管理対象ノード・プールを選択してサイクルし、その中のすべての管理対象ノードを再起動することはできません。
コンソール、CLIまたはAPIを使用して、管理対象ノードをサイクルおよび再起動できます。
自己管理ノードをサイクルおよび再起動するには、CLIまたはAPIを使用する必要があります。コンソールを使用して自己管理ノードをサイクルおよび再起動することはできません。

ノードのサイクリングおよびリブート時のコード付けおよびドレイン

個々のワーカー・ノード(管理対象ノードまたは自己管理ノードのいずれか)を選択し、そのノードをサイクルして再起動することを指定する場合は、「コードとドレイン」オプションを指定できます。管理対象ノードの場合、管理対象ノードに指定した「コードとドレイン」オプションは、ノード・プールに指定した「コードとドレイン」オプションをオーバーライドします。

詳細は、「停止または終了前の管理対象ノードのコード化とドレイン」を参照してください。