Sun N1 System Manager 1.1 管理ガイド

監視の概要

Sun N1 System Manager ソフトウェアでの監視では、特定の管理対象オブジェクト内の特定の「属性」に対する変化を追跡することができます。管理対象のオブジェクトは、サーバーのハードウェア要素やオペレーティングシステム、ファイルシステム、ネットワークなどです。属性は、N1 System Manager ソフトウェアによってそのデータが取得され、配信される監視対象要素です。属性には、たとえば、待ち状態のプロセスの平均個数および使用メモリーの割合などがあります。属性の一覧は、「ハードウェアセンサー属性」 および 表 5–2にあります。

属性は、3 つの主要な領域の 1 つに関連付けられています。

サーバーまたはサーバーグループは、管理サーバーによってハードウェアの健全性、オペレーティングシステムの使用状況、ネットワーク接続状況がすべて監視されます。監視のための比較および検査はすべて N1 System Manager によって行われます。プロビジョニング可能なサーバーは、データへのアクセスにのみ使用されます。

データの取得に使用される SNMPエージェントは、N1 System Manager ソフトウェアで提供されます。管理サーバーの N1 System Manager が Solaris OS で実行されている場合は、このエージェントは Sun Management Center 3.5 ソフトウェアの SNMP エージェントをもとにします。管理サーバーの N1 System Manager が Linux で実行されている場合は、このエージェントは Sun Management Center 3.6 Linux SNMP エージェントをもとにします。エージェントは、N1 System Manager による管理対象のサーバーにオペレーティングシステムを配備すると配備されます。


注 –

Linux プラットフォームでは、N1 System Manager ソフトウェアは、ext3 ファイルシステムのみを監視します。そのほかのタイプのファイルシステムは、Linux プラットフォームでは監視されません。


監視は、監視対象の各サーバーまたは各サーバーグループの「イベント」伝送機能と接続されています。イベントは、属性に関係する特定の状態が発生すると生成されます。イベントおよびイベントが発生するタイミングに関する情報は、「イベントログエントリの管理」を参照してください。 監視に関係するログファイルはありません。監視データは、ログファイルではなく、イベントとして N1 System Manager のデータベース内に保存されます。

サーバーに対する監視が有効な場合は、イベントのたびに、そのイベントに関する通知が N1 System Manager から送信されます。サーバーに対する監視が無効の場合、そのサーバーに対する監視イベントは生成されません。ライフサイクルイベントは、監視が無効でも引き続き生成されます。ライフサイクルイベントには、サーバー検出、サーバーの変更または削除、サーバーグループ作成などがあります。この種のイベントの通知を要求していた場合は、監視が無効でも引き続き通知を受けることができます。

ハードウェア健全性の監視

検出されたサーバーのハードウェア健全性が監視されます。ハードウェアにあるセンサーを使用して、温度や電圧、ファン速度が監視されます。関連付けられたハードウェアの詳細は、『Sun N1 System Manager 1.1 サイト計画の手引き』「Sun N1 System Manager の接続情報」を参照してください。

SPARC デバイスのセンサーデータは、ALOM (Advanced Lights Out Manager) インタフェースを通じてサービスプロセッサから取得されます。x64 サーバーのセンサーデータは IPMI から取得されます。

Sun Fire V20z および Sun Fire V40z マシンの一般の管理インタフェースデータは、コマンド行を通じて取得されます。Sun Fire x4100 および Sun Fire x4200 サーバーの一般管理インタフェースデータは、IPMI を通じて取得されます。コマンド行から動的にデータを取得することができます。

監視できるサーバーのハードウェア特性は次のとおりです。

これらのセンサーの詳細な一覧は、「ハードウェアセンサー属性」にあります。

show server コマンドでフィルタを使用し、すべてのサーバーに関するハードウェア健全性情報だけを表示することができます。


N1-ok> show server health health

health フィルタに使用する値の詳細については、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』「show server」を参照してください。

OS リソースの使用の監視

OS リソースの使用は、N1 System Manager によって監視されます。agentip キーワードを付けた add server feature コマンドで agentssh キーワードを付けた ssh 経由で監視対象サーバーのオペレーティングシステムへのアクセス資格を指定します。さらに詳細な情報については、「OS 監視機能を追加する」を参照してください。この指定は、OS リソースの使用の監視に重要ですが、ハードウェアの健全性やネットワークの到達可能性の監視には重要ではありません。

この仕組みでのオペレーティングシステムへのアクセスは、主としてリモートコマンド実行機能に必要です。この機構でのオペレーティングシステムへのアクセスは、管理機能を使って OS リソース使用状況の監視データを読み出す手段になります。プラットフォーム OS インタフェースデータは、 ssh および SNMP 経由で取得されます。つまり、すべての属性データは ssh および SNMP によってサーバーのオペレーティングシステムから取得されます。メモリーやスワップ使用、ファイルシステム関係のデータ同様、中央演算処理装置 (CPU) に関係する統計も提供されます。監視の目的上、システム負荷、メモリー使用、スワップ使用データは、次のように分類できます。

これらの属性の一覧は、「ハードウェアセンサー属性」にあります。

show server コマンドでフィルタを使用し、すべてのサーバーに関する OS リソースの使用情報だけを表示することができます。


N1-ok> show server utilization utilization

N1-ok> show server utilization unreachable

サーバーにはアクセス可能だが、監視エージェントに SNMP ポート 161 で通信できない場合、OS リソースの健全性が unknown になります。

サーバーにアクセスできない (たとえば待機モードになっているため) 場合は、OS リソースの健全性が unreachable になります。

詳細は、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』「show server」を参照してください。

OS リソースの使用属性の監視では、構成ファイルを作成、編集することによって、N1 System Manager が管理するすべてのサーバーに対するデフォルトしきい値を変更することができます。詳細は、「監視構成ファイルでのしきい値の変更」を参照してください。

また、コマンド行で set コマンドを使用し、監視対象の個別サーバーまたは個別サーバーグループに対して特定のしきい値を設定することもできます。詳細は、「しきい値の設定」を参照してください。

特定の属性の値を監視する必要がない場合は、その属性を監視するためのしきい値を無効にすることができます。これで、不要なアラームを防ぐことができます。例 5–4に、この無効化を行う方法が示されています。

ネットワークの到達可能性監視

デフォルトでは、N1 System Manager は、プロビジョニング可能なサーバーのすべての管理インタフェースおよびすべてのプラットフォームインタフェースを監視します。プラットフォームインタフェースには、eth0 などのサービスプロセッサの管理インタフェースや、eth1 あるいは eth2 などのデータネットワークインタフェースがあります。

Linux サーバーおよび Solaris OS で稼働しているサーバーの到達可能性は、インタフェースの IP アドレスに対する ICMP ping で確認します。詳細は、『Sun N1 System Manager 1.1 インストールおよび構成ガイド』「工場出荷時状態のサーバーの検出」を参照してください。

すべてのネットワークインタフェースの到達可能性が定期的に検査されます。このポーリング間隔の設定は変更できます。ポーリング間隔の設定については、「ポーリング間隔の設定」を参照してください。ネットワークの到達可能性の監視は、IP アドレスに基づいています。監視対象の IP アドレスにアクセスできない場合は、イベントが生成されます。

show server コマンドに監視情報を表示する適切なパラメータを付けることによって、すべてのサーバーに関する情報を絞り込むことができます。詳細は、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』「show server」を参照してください。

プロビジョニング可能なサーバーの「unreachable (アクセス不能)」ステータスと「unknown (不明)」ステータスは区別することが重要です。


N1-ok> show server health unreachable

このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (ハードウェアの健全性状態についてサーバーと通信できない) が原因でアクセスできないすべてのプロビジョニング可能なサーバー が出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーがハードウェアの健全性状態情報を送っていないことを意味するわけではありません。サーバーが待機モードである場合もあります。


N1-ok> show server health unknown

このコマンドは、ハードウェアの健全性状態に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、ハードウェアの健全性に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントと通信できないことを示します。


N1-ok> show server power unreachable

このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (電源状態についてサーバーと通信できない) が原因でアクセスできないすべてのサーバーが出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーが電源状態の情報を送っていないことを意味しません。サーバーが待機モードである場合もあります。


N1-ok> show server power unknown

このコマンドは、電源状態に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、電源状態に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントに通信できないことを示します。


N1-ok> show server utilization unreachable

このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (OS リソースの使用状況についてサーバーと通信できない)が原因でアクセスできないすべてのサーバーが出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーが OS リソースの使用状況に関する情報を送っていないことを意味しません。サーバーが待機モードである場合もあります。


N1-ok> show server utilization unknown

このコマンドは、OS リソースの使用状況に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、OS リソースの使用状況に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントに通信できないことを示します。