Sun N1 System Manager 1.3 検出および管理マニュアル

ハードウェア健全性の監視

N1 System Manager では、管理対象サーバーのハードウェアの健全性が監視されます。N1 System Manager では、管理対象サーバーのハードウェアにあるセンサーを使用して、温度、電圧、およびファン速度が監視されます。サポートされているハードウェアについては、『Sun N1 System Manager 1.3 サイト計画の手引き』「管理可能なサーバーの要件」を参照してください。管理対象サーバーのハードウェアの健全性を N1 System Manager で監視するには、管理対象サーバーにサービスプロセッサが必要です。

SPARC デバイスのセンサーデータは、ALOM (Advanced Lights Out Manager) インタフェースを通じてサービスプロセッサから取得されます。x64 サーバーの場合は、センサーデータは IPMI (Intelligent Platform Management Interface) を通じて取得されます。


注 –

ALOM を使用する管理対象サーバーは、管理サーバーへのデータ送信にトラップを使用しません。ALOM を使用する管理対象サーバーは、電子メールで管理データを送信します。管理サーバーがこれらのサーバーからデータを確実に収集できるよう、管理サーバーには独自のポート 25 の電子メールサーバーがあります。


管理対象サーバーのハードウェアの次の特性を監視できます。


注 –

N1 System Manager では、RAID コントローラの状態は監視されません。


管理対象サーバーのハードウェアの健全性の詳細がすべてブラウザインタフェースの「サーバーの詳細」ページにあるハードウェア監視表とイベントログに表示されます。

表 6–1 ハードディスクとメモリーの障害の監視

タイプ 

ディスク監視 

メモリーの障害の監視 

ALOM サーバー: Netra 240 および Netra 440 

なし 

なし 

ALOM サーバー: Sun Fire V210、V240、および V440 

なし 

なし 

ALOM サーバー: Sun Fire T1000 および T2000 

なし 

なし 

IPMI サーバー: Sun Fire X2100 

なし 

なし 

ILOM サーバー: X4100 および X4200 

あり 

あり 

IPMI サーバー: Sun Fire V20z および V40z 

なし 

あり 

ハードウェアの健全性のセンサーの一覧が、ハードウェアに付属のマニュアルにあります。

show server コマンドで、すべてのサーバーに関する OS 健全性の監視情報にフィルタを使用できます。


N1-ok> show server hardwarehealth hardwarehealth

hardwarehealth フィルタの有効な値については、『Sun N1 System Manager 1.3 コマンド行リファレンスマニュアル』「show server」を参照してください。健全性状態によるサーバーの選別の詳細と図による説明は、「問題がある管理対象サーバーを表示する」を参照してください。

N1 System Manager では、Sun Fire X2100、X4100、および X4200 の各サーバーのロケータランプを点灯または消灯できます。管理対象サーバーのロケータランプを点灯または消灯するには、次の set server コマンドを使用します。


N1-ok> set server server locator locator-state

locator-state の値は on または off のいずれかです。サーバーグループの場合は、set group コマンドでグループ名を指定します。

Sun Fire V20z および V40z の管理対象サーバーのハードウェアメモリーの問題

N1 System Manager では、Sun Fire V20z と V40z の管理対象サーバーのメモリーの問題の処理方法が異なります。Sun Fire V20z と V40z のメモリーの問題が発生した場合は、管理対象サーバーのサービスプロセッサのポーリングによって検出されます。

次のすべての条件を満たす場合に、Sun Fire V20z または V40z サーバーでメモリーエラーが発生しています。

メモリーエラーが発生した場合は、解決方法の例を参照してください。その後の警告ステータスに誤りがないようにするには、問題のあるメモリーを交換または修理したあとにサービスプロセッサのイベントログをクリアする必要があります。


例 6–1 Sun Fire V20z または V40z の管理対象サーバーのメモリーエラーの調査

Sun Fire V20z または V40z の管理対象サーバーでメモリーエラーが発生した場合は、サーバーのサービスプロセッサにログインします。


# ssh -l admin 10.0.3.2

パスワードを入力し、管理対象サーバーのステータスを確認します。


# sp get status

サービスプロセッサのイベントログを確認します。


# sp get events
ID Last Update      Component Severity      メッセージ
1  01/01/1970 00:02 SP        informational SP localhost.localdomain IP is now set to 0.0.0.0
2  01/01/1970 18:47 SP        informational SP localhost.localdomain IP is now set to 0.0.0.0
3  01/01/1970 18:47 SP        informational SP localhost.localdomain IP is now set to 10.0.3.2 

サービスプロセッサのイベントログをクリアします。


# sp delete event -a

ハードウェアセンサー属性

x64 サーバーでは、管理サーバーソフトウェアが IPMI を使用して、サーバーのサービスプロセッサから、監視するハードウェアセンサー属性の一覧を取得します。SPARC アーキテクチャーのサーバーでは、ALOM インタフェースが使用されます。ハードウェアセンサー属性の一覧は、サーバーによって、またファームウェアのバージョンによって、異なる場合があります。 ここでは、いくつかのサーバーおよびファームウェアバージョンの表示例を示します。属性は、サーバーの種類とサーバー上の CPU 数によって異なります。

別々のセンサーからイベントの通知を受け取るには、通知規則を作成し、項目 Ereport.Physical.ThresholdExceeded に登録します。詳細は、「イベント通知の設定」を参照してください。

Sun Fire X4100 と Sun Fire X4200 の各サーバーについては、ハードウェアのマニュアルで、監視されるハードウェアセンサーを確認してください。

Sun Fire X2100 サーバーでは、ファンの速度、電圧、および温度を示すセンサーのみがデータの取得に使用されます。SP ファームウェアバージョン 4.11 で監視されるセンサーの一覧を示します。


DDR 2.6V
CPU Core Voltage
VCC 3.3V
VCC 5V
VCC 12V
Battery Volt
CPU TEMP
SYS TEMP
CPU FAN
SYSTEM FAN3
SYSTEM FAN1
SYSTEM FAN2

SP ファームウェアバージョン 4.11 より前の X2100 サーバーでは、CPU Core VoltageCPU Voltage とよばれていました。