CPU 過熱防止機能 (COS: CPU Over-temperature Safeguard) は、Solaris 8 オペレーティング環境が動作する Sun Enterprise xx00 システムの保護機能です。COS 機能は、適切なファームウェアをもつサーバー間で互換性があり、CPU/メモリーボードが安全な動作温度範囲を超えないように保護する機能です。
COS 機能を使用するには、適切なファームウェアが必要です。Sun Enterprise xx00 サーバーに適切なファームウェアがない場合は、COS 機能を使用することはできず、起動中に以下のメッセージが表示されます。
WARNING: Firmware does not support CPU power off (警告: ファームウェアが CPU の電源切断をサポートしていません。) WARNING: Automatic CPU shutdown on over-temperature disabled (警告: CPU 過熱時の自動停止機能は使用できません。) WARNING: Firmware does not support CPU restart from power off (警告: ファームウェアが電源切断後の CPU 再起動をサポートしていません。) WARNING: The ability to restart individual CPUs is disabled (警告: 個別 CPU の再起動機能は使用できません。)
システムに適切なファームウェアが実装されている場合は、起動中に以下のようなメッセージが表示されます。.
Board 0: OBP 3.2.8 1997/02/27 14:00 POST 3.5.1 1997/03/05 09:34
CPU の温度は、多数の外部的な原因の影響を受けます。たとえば、CPU が過熱する原因としては、以下の要素が考えられます。
室内の空調が適切に調整されていない。
側面からの冷却が妨害されている。
また、結合スレッドやシステムに CPU/メモリーボードが 1 枚しかないなどの Solaris ソフトウェア環境の問題もいくつか考えられます。Solaris 環境にこうした問題があると、通常のシステム停止動作に後退することがあります。
Solaris 環境が、CPU の過熱防止機能の影響を受けることはありません。COS 機能は、CPU/メモリーボードが過熱状態になった場合にのみ機能します。
COS 機能により、システムのすべての CPU の温度が監視され、CPU/メモリーボードが過熱状態になると、システムコンソールに以下のような警告メッセージが表示されます。:
WARNING: CPU/Memory board 0 is warm (temperature: 73C). Please check system cooling (警告: CPU/メモリーボードの温度が上昇しています (温度: 73℃)。システムの冷却機能に問題がないか調べてください。) NOTICE: Processor 0 powered off. (確認: プロセッサ 0 の電源を切断しました。) NOTICE: Processor 1 powered off. (確認: プロセッサ 1 の電源を切断しました。)
CPU の過熱状態を検出した場合は、COS 機能は、その CPU をオフラインにして、電源を切断します。
システムは、過熱 CPU の電源が切断されていると判断して動作を続けます。CPU/メモリーボードの温度上昇の第 1 の原因は CPU です。この原因を取り除くと、温度は低下し、通常の動作範囲に戻ります。これにより、業務サーバーが突然停止することはなくなります
psrinfo コマンドを使用して新しい状態を調べます。
psrinfo によって、CPU の新しい状態を示すメッセージが表示されます。:
0 powered-off since 03/11/97 09:48:31 1 powered-off since 03/11/97 09:48:31
問題の電源装置 (冷却ファン付き) を正常なものと交換します。この交換は、システムの電源を切らなくても行うことができます。
スーパーユーザープロンプトで /etc/halt または init 0 と入力し、サーバーを停止させてから、電源装置を交換することもできます。
psradm コマンドを使用して、CPU を通常の状態に戻します。:
# psradm -n processor_id#
COS 機能によって、再び過熱状態 (安全な動作温度範囲にない) が検出された場合は、psradm コマンドを使用して CPU を通常の状態に戻そうとしても失敗し、終了状態 -1 とエラーメッセージが表示されます。
問題の CPU が通常の動作温度範囲に戻った場合は、以下のようなメッセージがコンソールに表示されます。
NOTICE: CPU/Memory board 0 has cooled down (temperature: 72C), system OK. (確認: CPU/メモリーボード 0 は正常な動作温度範囲です (温度: 72C)。システムは正しく動作しています。)
CPU の電源制御機能が、Solaris 環境から問題の CPU を切り離せないことがあります。たとえば、2 つのプロセッサを搭載した CPU/メモリーボードが 1 枚しかないシステムで過熱状態が発生した場合に、プロセッサ 1 はシステムに残された最後のプロセッサになるため、プロセッサ 1 がオフラインになることはありません。
Solaris 環境から障害のある CPU の切り離しに失敗した場合は、温度は上昇し続けます。温度が動作温度範囲の上限にまで達すると、システムは停止し、以下のようなメッセージが表示されます。:
WARNING: CPU/Memory board 0 is very hot (temperature: 83C) (警告: CPU/メモリーボード 0 が過熱しています (温度: 83C)。) WARNING: System shutdown scheduled in 20 seconds due to over-temperature condition on CPU/Memory board 0 (警告: CPU/メモリーボード 0 が過熱状態になったため、20 秒後にシステムは停止されます。) WARNING: CPU/Memory board 0 still too hot (temperature: 83C). Overtemp shutdown started (警告: CPU/メモリーボード 0 の過熱状態が解決されません (温度: 83C)。過熱時システム停止機能を起動しました。