特記事項: Sun Enterprise 6x00、5x00、4x00、3x00 システム

第 3 章 CPU の過熱防止機能

CPU 過熱防止機能 (COS: CPU Over-temperature Safeguard) は、Solaris 8 オペレーティング環境が動作する Sun Enterprise xx00 システムの保護機能です。COS 機能は、適切なファームウェアをもつサーバー間で互換性があり、CPU/メモリーボードが安全な動作温度範囲を超えないように保護する機能です。

COS 機能 の使用条件

COS 機能を使用するには、適切なファームウェアが必要です。Sun Enterprise xx00 サーバーに適切なファームウェアがない場合は、COS 機能を使用することはできず、起動中に以下のメッセージが表示されます。


WARNING: Firmware does not support CPU power off
(警告: ファームウェアが CPU の電源切断をサポートしていません。)
WARNING: Automatic CPU shutdown on over-temperature disabled
(警告: CPU 過熱時の自動停止機能は使用できません。)
WARNING: Firmware does not support CPU restart from power off
(警告: ファームウェアが電源切断後の CPU 再起動をサポートしていません。)
WARNING: The ability to restart individual CPUs is disabled
(警告: 個別 CPU の再起動機能は使用できません。)

システムに適切なファームウェアが実装されている場合は、起動中に以下のようなメッセージが表示されます。.


Board 0:   OBP   3.2.8 1997/02/27 14:00   POST 3.5.1 1997/03/05 09:34 

  1. ファームウェアのバージョンを調べるには、prtdiag -v コマンドを使用します。

    COS 機能を使用するには、ファームウェアのバージョンが 3.2.8 以降である必要があります。

過熱の原因

CPU の温度は、多数の外部的な原因の影響を受けます。たとえば、CPU が過熱する原因としては、以下の要素が考えられます。

また、結合スレッドやシステムに CPU/メモリーボードが 1 枚しかないなどの Solaris ソフトウェア環境の問題もいくつか考えられます。Solaris 環境にこうした問題があると、通常のシステム停止動作に後退することがあります。

Solaris 環境が、CPU の過熱防止機能の影響を受けることはありません。COS 機能は、CPU/メモリーボードが過熱状態になった場合にのみ機能します。

COS 機能の動作

COS 機能により、システムのすべての CPU の温度が監視され、CPU/メモリーボードが過熱状態になると、システムコンソールに以下のような警告メッセージが表示されます。:


WARNING: CPU/Memory board 0 is warm (temperature: 73C). Please check system cooling
(警告: CPU/メモリーボードの温度が上昇しています (温度: 73℃)。システムの冷却機能に問題がないか調べてください。)
NOTICE: Processor 0 powered off.
(確認: プロセッサ 0 の電源を切断しました。)
NOTICE: Processor 1 powered off.
(確認: プロセッサ 1 の電源を切断しました。)

過熱状態の解決

CPU の過熱状態を検出した場合は、COS 機能は、その CPU をオフラインにして、電源を切断します。

システムは、過熱 CPU の電源が切断されていると判断して動作を続けます。CPU/メモリーボードの温度上昇の第 1 の原因は CPU です。この原因を取り除くと、温度は低下し、通常の動作範囲に戻ります。これにより、業務サーバーが突然停止することはなくなります

過熱状態を解決する
  1. psrinfo コマンドを使用して新しい状態を調べます。

    psrinfo によって、CPU の新しい状態を示すメッセージが表示されます。:


    0       powered-off since 03/11/97 09:48:31
    1       powered-off since 03/11/97 09:48:31

  2. 問題の電源装置 (冷却ファン付き) を正常なものと交換します。この交換は、システムの電源を切らなくても行うことができます。


    注 -

    スーパーユーザープロンプトで /etc/halt または init 0 と入力し、サーバーを停止させてから、電源装置を交換することもできます。


  3. psradm コマンドを使用して、CPU を通常の状態に戻します。:


    # psradm -n processor_id#

    COS 機能によって、再び過熱状態 (安全な動作温度範囲にない) が検出された場合は、psradm コマンドを使用して CPU を通常の状態に戻そうとしても失敗し、終了状態 -1 とエラーメッセージが表示されます。

    問題の CPU が通常の動作温度範囲に戻った場合は、以下のようなメッセージがコンソールに表示されます。


    NOTICE: CPU/Memory board 0 has cooled down (temperature: 72C), system OK.
    (確認: CPU/メモリーボード 0 は正常な動作温度範囲です (温度: 72C)。システムは正しく動作しています。)

CPU の切り離しの失敗

CPU の電源制御機能が、Solaris 環境から問題の CPU を切り離せないことがあります。たとえば、2 つのプロセッサを搭載した CPU/メモリーボードが 1 枚しかないシステムで過熱状態が発生した場合に、プロセッサ 1 はシステムに残された最後のプロセッサになるため、プロセッサ 1 がオフラインになることはありません。

CPU の電源切断の失敗

Solaris 環境から障害のある CPU の切り離しに失敗した場合は、温度は上昇し続けます。温度が動作温度範囲の上限にまで達すると、システムは停止し、以下のようなメッセージが表示されます。:


WARNING: CPU/Memory board 0 is very hot (temperature: 83C)
(警告: CPU/メモリーボード 0 が過熱しています (温度: 83C)。)
WARNING: System shutdown scheduled in 20 seconds due to over-temperature condition on CPU/Memory board 0
(警告: CPU/メモリーボード 0 が過熱状態になったため、20 秒後にシステムは停止されます。)
WARNING: CPU/Memory board 0 still too hot (temperature: 83C). Overtemp shutdown started
(警告: CPU/メモリーボード 0 の過熱状態が解決されません (温度: 83C)。過熱時システム停止機能を起動しました。